作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力
在CNN時代,AI模型的參數(shù)規(guī)模都在百萬級別,僅需在單張消費類顯卡上即可完成訓(xùn)練。例如,以業(yè)界知名的CNN模型:ResNet50為例,模型參數(shù)量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費類顯卡RTX-4090只需大約35~40個小時,即可完成ResNet50模型的預(yù)訓(xùn)練。在大模型時代,由于大模型參數(shù)規(guī)模龐大,無法跟CNN時代的小模型一樣在單張顯卡上完成訓(xùn)練,需要構(gòu)建多張AI加速卡的集群才能完成AI大模型的預(yù)訓(xùn)練。例如:DeepSeek-V3在其技術(shù)報告中介紹,DeepSeek-V3的模型參數(shù)量為671B,需要278萬8千個H800 GPU小時才能完成預(yù)訓(xùn)練,換句話說,在有1萬張H800的GPU集群上,需要訓(xùn)練278.8個小時。
包含1萬張H800的AI數(shù)據(jù)中心包括:帶H800的服務(wù)器節(jié)點、網(wǎng)絡(luò)、存儲、電源、散熱等,一般來說,總建設(shè)預(yù)算在15億美金左右。以從AWS上租用1萬張H800為例,每小時的租金大約為12.3萬美金/小時。以訓(xùn)練DeepSeek-V3為例,
訓(xùn)練效率每提升1%,相當(dāng)于節(jié)約278.8*1%*12.3=34.3萬美金,
即240萬人民幣的租金。所以,在大模型時代,如何充分利用分布式的GPU集群算力,是深度學(xué)習(xí)框架首先需要考慮的點。
要充分利用分布式的GPU集群算力,就需要充分使用復(fù)雜的并行策略,
包括數(shù)據(jù)并行、張量并行、參數(shù)分片并行、流水線并行、序列并行、專家并行等;并且還要提升GPU與GPU,服務(wù)器節(jié)點與服務(wù)器節(jié)點間的通訊效率;除此之外,還要考慮AI數(shù)據(jù)中心不同算力芯片的適配;前沿模型快速發(fā)展時,對新型模型的支持等等...若要求AI模型科學(xué)家既要
熟知模型結(jié)構(gòu),還要深入了解芯片特點、硬件架構(gòu)、并行策略、調(diào)度邏輯等等
,這會使得大模型的開發(fā)和性能優(yōu)化的
技術(shù)門檻變得非常高
,大大制約了大模型的開發(fā)和訓(xùn)練效率。針對上述需求和痛點,
飛槳新一代框架3.0
應(yīng)運而生,該版本提供了豐富的深度學(xué)習(xí)相關(guān)的各種開發(fā)接口:
表示層:專注于計算圖的表達(dá)與轉(zhuǎn)換,通過高可擴展中間表示PIR,實現(xiàn)動轉(zhuǎn)靜、自動微分、自動并行、算子組合以及計算圖優(yōu)化等核心功能;
調(diào)度層:負(fù)責(zé)對代碼或計算圖進(jìn)行智能編排與高效調(diào)度,支持動態(tài)圖和靜態(tài)圖兩種不同的執(zhí)行模式;
算子層:由神經(jīng)網(wǎng)絡(luò)編譯器CINN和算子庫PHI共同構(gòu)成,涵蓋了張量定義、算子定義、算子自動融合和算子內(nèi)核實現(xiàn)等關(guān)鍵功能;
適配層:則用于實現(xiàn)與底層芯片適配,包括設(shè)備管理、算子適配、通信適配以及編譯接入等功能。
飛槳框架3.0憑借強大的功能和優(yōu)化的設(shè)計,
幫助算法工程師和科研人員以更低的成本進(jìn)行算法創(chuàng)新,
并實現(xiàn)產(chǎn)業(yè)應(yīng)用。以百度文心大模型為例,飛槳框架3.0在訓(xùn)練、推理等方面為文心大模型提供端到端優(yōu)化,訓(xùn)練方面重點提升訓(xùn)練吞吐、訓(xùn)練有效率和收斂效率,集群訓(xùn)練有效率超過98%;推理部署方面通過注意力機制量化推理、通用投機解碼等技術(shù)提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用。
飛槳框架3.0 Github倉:https://github.com/PaddlePaddle/Paddle。
如果你有更好的文章,歡迎投稿!
稿件接收郵箱:nami.liu@pasuntech.com
更多精彩內(nèi)容請關(guān)注“算力魔方?”!
審核編輯 黃宇
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5547瀏覽量
122306 -
大模型
+關(guān)注
關(guān)注
2文章
2941瀏覽量
3683 -
DeepSeek
+關(guān)注
關(guān)注
1文章
755瀏覽量
1050
發(fā)布評論請先 登錄
相關(guān)推薦
百度飛槳框架3.0正式版發(fā)布

在OpenVINO?工具套件的深度學(xué)習(xí)工作臺中無法導(dǎo)出INT8模型怎么解決?
深度學(xué)習(xí)模型的魯棒性優(yōu)化
GPU深度學(xué)習(xí)應(yīng)用案例
FPGA加速深度學(xué)習(xí)模型的案例
AI大模型與深度學(xué)習(xí)的關(guān)系
【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 第一、二章學(xué)習(xí)感受
NVIDIA推出全新深度學(xué)習(xí)框架fVDB
深度學(xué)習(xí)模型有哪些應(yīng)用場景
ai大模型和ai框架的關(guān)系是什么
深度學(xué)習(xí)模型量化方法

評論