工控網首頁
>

新聞中心

>

業界動態

>

北電數智優化算力資源配置,提升算力中心利用率

北電數智優化算力資源配置,提升算力中心利用率

2025/2/10 13:05:13

近年來,全國范圍的算力基礎設施建設如火如荼地進行中,除了北京、上海、深圳等一線城市,各個縣域級地區也在積極加速布局。但由于性能不足、無法滿足AI大模型時代的特點場景算力需求、數據中心和當地產業需求不匹配等問題,算力中心的整體利用率僅有50%左右、閑置率較高,僅以算力規模、集群規模來衡量算力性能,顯然已無法適應數字經濟快速發展的需求。

北京電子數智科技有限責任公司(以下簡稱“北電數智”)提出了“算力最優解”理念,并基于人工智能行業的發展與算力需求的迭代,進一步細化算力評價標準。北電數智認為“算力最優解”需要做到“三加一保障”,即加速單芯片算力,加強混元異構集群性能,加大通信能力,保障智算集群訓練安全、穩定運行。

北電數智是?家專注于原創性、顛覆性、引領性科技創新的人工智能科技企業,在算力、算法和數據等方面實現了全棧產品和解決方案布局,并于2024年5月,獲得甲子光年“AI算力層創新企業獎”。

QQ20250210-130655.png

加速單芯片計算能力,真正實現“好用”

目前國產GPU的算力性能并不低,但大部分客戶反饋國產芯片仍然不夠“好用”。這是因為目前國內已生產和應用的GPU產品主要是針對上一代算法而設計,在滿足AI大模型相關算子的需求層面仍需進一步提升,需要通過豐富算子庫、編譯器等軟件方式,對單芯片的算力進行加速。北電數智前進·AI異構計算平臺具有多重優化功能,能夠通過模型量化加速、模型超參數調優、稀疏化推理等模型優化能力,算子融合加速、計算圖優化、硬件訪存優化等編譯優化方式,加速單芯片的計算能力,增加國產算力芯片的自適應能力。

多芯片混元異構或成主流,讓合適的芯片做合適的事

現階段,智算中心多以單一芯片廠商為算力主要供應,算力供給不足的問題不可避免。混元異構能解決單一芯片廠商產能供給不足的困境,同時能提供更高性價比的算力解決方案。不同芯片由于架構設計不同,天然適用于不同的訓練推理任務,如果可以針對不同的任務配置對應芯片,整體算力解決方案的性價比將大大提升。然而,異構合池訓練會存在精度誤差、同步等問題。系統需要在算力不均勻情況下,根據模型特征、負載實時狀態、集群硬件特點對任務進行均勻或非均勻的切分。

北電數智前進·AI異構計算平臺可通過算子級模型拆分方法優化模型性能;通過基于自動機器學習算法的硬件感知自動調優的方式,自動調整模型的配置和參數,找到在特定芯片下的最佳性能和效果;其框架可支持AI大模型分布到多GPU上進行計算,提高模型的訓練和推理效率,確保每種芯片都能承擔與其算力相匹配的任務。

QQ20250210-130724.png

打通集合通信庫解決通信問題,提升AI大模型訓練性能

在萬卡集群時代,通信能力直接制約著AI大模型訓練時的數據傳輸效率。高效、穩定、低延遲的網絡對于智算中心的建設和運行意義重大。在硬件層面,NVLink、HCCS互聯等方式可以有效提高卡間互聯通信能力;在協議層面,通過RDMA降低多機端到端的通信時延,提高節點間傳輸速率,有效改善智算集群的通信效率。此外,在軟件層面,集合通信庫控制著各GPU、各服務器之間的數據通信,異構卡的通信庫差異會為異構卡之間帶來通信難題。北電數智通過打通各廠家的集合通信庫來解決不同GPU芯片之間的通信問題,對通信庫進行深度適配和優化,通過標準化的分布式通信接口確保異構集群內的信息交換;并且通過時間重疊等策略,將計算過程和通信過程互相重疊,減少通信延遲對整體訓練性能的影響。

廣泛納管,保證算力集群穩定運行

萬卡集群有較多的硬件種類和數量,每一顆元器件都有硬件失效率,每個硬件的失效都會影響到整體智算集群訓練。想要實現算力最優解,就需要一個高效可靠的智能云管平臺,提供實時智能監控來實現分鐘級的軟硬件故障定位,并實現故障的自動檢測和修復。北電數智前進·AI異構計算平臺支持多款國產芯片的廣泛納管,幫助用戶實現對不同品牌、類型AI加速卡的統一管理,以確保各類AI芯片的無縫集成和優化利用。廣泛的納管能力也讓用戶能夠根據具體需求,靈活地調整資源配置,優化算力供給滿足各類訓練推理任務。

“三加一保障”是北電數智在AI大模型滲透千行百業的當下提出的算力最優解方案,不僅可以優化算力的配置、提升算力資源的利用率,還為企業走向智能化、AI化提供了實現路徑。值得一提的是,2024年8月21日,“前進·AI異構計算平臺”還入選了北京首批“人工智能+”應用場景案例,標志著項目在應用落地方面又邁出了堅實的一步。未來,北電數智也將繼續為各行業提供成本低、高性能、穩定的算力供應,為數字中國的建設貢獻力量。

更多精彩內容,可關注“北電數智AI江湖”?程序。


審核編輯(
黃莉
)
投訴建議

提交

查看更多評論
其他資訊

查看更多

重塑靜脈產業——電裝助力循環型社會建設

InterSystems攜手上海輿道挖掘數據價值,賦能制造業數智升級

同登泰山之巔,共話數字之勢丨3月12日共商冶金企業采購供應鏈數字化建設之路

佰維存儲數通行業SSD方案榮登信息通信業高質量發展硬核力量榜單

第六屆全國醫藥大健康CIO大會即將召開