在大模型邁向規(guī)?;瘧?yīng)用的新階段,推理性能成為決定AI落地成敗的關(guān)鍵因素。中軟國際智算中心積極響應(yīng)國產(chǎn)智算體系建設(shè)戰(zhàn)略,率先完成華為昇騰“大規(guī)模專家并行”(EP)推理方案驗證,在DeepSeek-R1模型推理任務(wù)中實現(xiàn)3倍單卡吞吐性能提升,樹立國產(chǎn)高效推理的新標桿。
大規(guī)模專家并行推理(Large-Scale Expert Parallel Inference)是一項面向混合專家(MoE)架構(gòu)大模型的高效推理技術(shù),能夠?qū)⒛P蛢?nèi)部多個“專家”子網(wǎng)絡(luò)部署至不同AI卡,借助并行計算與智能路由機制,實現(xiàn)高吞吐、低延遲的模型推理能力。
中軟國際智算中心聯(lián)合昇騰團隊,圍繞高并發(fā)推理和低延遲響應(yīng)的關(guān)鍵訴求,進行了深度適配與系統(tǒng)級優(yōu)化,充分釋放昇騰AI芯片的專家并行能力,實現(xiàn)資源利用率與推理性能的雙重突破,完成以下三大核心技術(shù)挑戰(zhàn)的突破:
通信開銷瓶頸:
通過專家親和部署策略,減少跨卡高頻通信,顯著降低等待時間;
專家負載失衡:
結(jié)合智能任務(wù)調(diào)度算法,動態(tài)實現(xiàn)負載均衡,避免“明星專家”過載;
系統(tǒng)協(xié)同復(fù)雜:
搭建模塊化調(diào)度與容錯機制,支撐大規(guī)模專家系統(tǒng)穩(wěn)定高效運行。
性能提升+多行業(yè)場景適配
技術(shù)業(yè)務(wù)創(chuàng)新、打造高性價比AI推理新模式
為充分釋放EP架構(gòu)的潛力,項目團隊在系統(tǒng)架構(gòu)與算子執(zhí)行層面引入多項關(guān)鍵優(yōu)化手段,釋放推理潛能。
推理優(yōu)化:
大規(guī)模專家并行+PD分離,64大規(guī)模專家并行,3倍單卡吞吐性能提升
并行優(yōu)化:
多專家動態(tài)均衡專家熱點均衡、親和部署,資源利用率提升20%
通信優(yōu)化:
AI to AI 低時延通信多算力協(xié)同、雙流通信掩蓋,整網(wǎng)性能提升100%
算子優(yōu)化:
PA + MLAPO 融合算子Vector和Cube計算并行,計算耗時降低70%
本次EP方案驗證完成后,中軟國際智算中心已具備基于昇騰平臺提供高效推理服務(wù)的能力,可適配多行業(yè)場景,打造高性價比AI推理新模式。在互聯(lián)網(wǎng)與內(nèi)容行業(yè):面向智能客服、短視頻生成、AI搜索推薦等高并發(fā)場景,具備極強支撐能力;在金融、政企行業(yè):支持私有化部署與國產(chǎn)化軟硬件組合,推理性能不降反升,AI卡投入節(jié)省達40%;在科研、教育領(lǐng)域:可作為模型調(diào)試、算法驗證的高性能推理平臺,提升研發(fā)效率與響應(yīng)速度。通過EP推理方案,顯存資源占用顯著下降,用戶請求并發(fā)能力提升,同時硬件成本降低超過50%,大幅縮短AI部署ROI回收周期。
基于EP驗證成果
智算中心AI服務(wù)更快、更省、更強
更快:
卓越算力加速提升響應(yīng)能力。中軟國際智算中心的昇騰算力租賃與AI推理云服務(wù),依托華為EP方案的高效并行策略,實現(xiàn)分鐘級開通和高并發(fā)推理,顯著提升算力響應(yīng)速度。
更省:
高效資源節(jié)約顯著降低成本。通過華為EP方案加速后,單卡并發(fā)量提升,Tokens輸出和算力利用率更高,結(jié)合按量計費,大幅降低企業(yè)自建AI集群成本。
更強:
推理性能全面提升能力更強。中軟國際智算中心支持高效Expert Parallelism并行策略與主流大模型適配,顯著提升推理準確率和復(fù)雜AI任務(wù)性能。
同時,提供基于EP的創(chuàng)新技術(shù)賦能服務(wù),包括EP推理系統(tǒng)從零部署、環(huán)境搭建、任務(wù)調(diào)度、容錯優(yōu)化等全過程的實施與培訓服務(wù),幫助客戶培養(yǎng)自己的推理系統(tǒng)運維與調(diào)度團隊,打造自主可控的AI基礎(chǔ)設(shè)施能力。
中軟國際智算中心成功實現(xiàn)華為EP方案,不僅是技術(shù)上的重大突破,也是和昇騰合作共贏的典范。我們將持續(xù)以穩(wěn)定、高效、開放的智算服務(wù),為更多企業(yè)提供更低成本、更高性能的推理解決方案,攜手昇騰,共建國產(chǎn)AI智能推理新范式。
-
華為
+關(guān)注
關(guān)注
216文章
35200瀏覽量
255808 -
中軟國際
+關(guān)注
關(guān)注
0文章
651瀏覽量
7594 -
智算中心
+關(guān)注
關(guān)注
0文章
92瀏覽量
2053
原文標題:中軟國際智算中心成功完成華為EP方案驗證,實現(xiàn)大模型推理性能顯著提升
文章出處:【微信號:CSI00354,微信公眾號:中軟國際】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論