當(dāng)前語言大模型的參數(shù)量已達(dá)千億以上,訓(xùn)練數(shù)據(jù)集的規(guī)模也達(dá)到了TB級別。業(yè)界典型的自然語言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力當(dāng)量”(PetaFlops/s-day,PD),即每秒千萬億次的計算機(jī)完整運(yùn)行一天消耗的算力總量來表征大模型的算力需求,具有1750億參數(shù)的GPT-3模型的訓(xùn)練算力需求為3640PetaFlop/s-day。
參數(shù)量為2457億的源1.0大模型訓(xùn)練算力消耗為4095Peta-Flop/s-day。大模型的高效訓(xùn)練通常需要具備千卡以上高算力AI芯片構(gòu)成的AI服務(wù)器集群支撐。在全球科技企業(yè)加大投入生成式AI研發(fā)和應(yīng)用的大背景下,配置高算力AI芯片的AI服務(wù)器需求也不斷高漲。
2019年OCP成立OAI小組,對更適合超大規(guī)模深度學(xué)習(xí)訓(xùn)練的AI加速卡形態(tài)進(jìn)行了定義,目的是為了支持更高功耗、更大互連帶寬AI加速卡的物理和電氣形態(tài),同時為了解決多元AI加速卡形態(tài)和接口不統(tǒng)一的問題。隨后,為了進(jìn)一步促進(jìn)OAI生態(tài)的建立,OAI小組在OAM的基礎(chǔ)上統(tǒng)一了AI加速卡基板OAI-UBB設(shè)計規(guī)范。OAI-UBB規(guī)范以8張OAM為一個整體,進(jìn)一步定義了8xOAM的Baseboard的主機(jī)接口、供電方式、散熱方式、管理接口、卡間互連拓?fù)?、Scale Out方式。
2019年底,OCP正式發(fā)布了OAI-UBB1.0設(shè)計規(guī)范,并隨后推出了基于OAI-UBB1.0規(guī)范的開放加速硬件平臺,無需硬件修改即可支持不同廠商的OAM產(chǎn)品。
面向生成式AI的大模型算力系統(tǒng)的構(gòu)建是一項復(fù)雜的系統(tǒng)工程,基于上述設(shè)計原則,以提高適配部署效率、提高系統(tǒng)穩(wěn)定性、提高系統(tǒng)可用性為目標(biāo),進(jìn)一步歸納總結(jié)出開放加速規(guī)范AI服務(wù)器的設(shè)計方法。
面向AIGC的計算系統(tǒng)交付模式不再是單一服務(wù)器,絕大多數(shù)情況最終部署的形式是包含計算、存儲、網(wǎng)絡(luò)設(shè)備,軟件、框架、模型組件,機(jī)柜、制冷、供電、液冷基礎(chǔ)設(shè)施等在內(nèi)的一體化高集成度算力集群。
(1)系統(tǒng)架構(gòu)
為滿足大模型訓(xùn)練模型參數(shù)規(guī)模的不斷增大給模型訓(xùn)練帶來的計算、存儲、通信等方面的挑戰(zhàn),系統(tǒng)架構(gòu)設(shè)計將賦能AI服務(wù)器節(jié)點(diǎn)和服務(wù)器集群以超大規(guī)模集群互連的大模型訓(xùn)練能力。OAM 是 OCP-OAI 小組制定的 AI加速模塊接口規(guī)范,現(xiàn)已發(fā)布 OAM v1.5 規(guī)范,OAM 模塊承擔(dān)起單個 GPU 節(jié)點(diǎn)的 AI 加速計算能力,通過符合 UBB v1.5 base 規(guī)范的基板完成OAM間的 7P × 8 FC(Fully Connect,全互連)、6P × 8 HCM(Hybrid cubic mesh,混合立方互連)等高速互連拓?fù)鋵崿F(xiàn)多OAM數(shù)據(jù)低延時共享,利用RDMA網(wǎng)絡(luò)部署等優(yōu)化通過OSFP/QSFP-DD線纜實現(xiàn)對外拓展完成集群互連,突破了服務(wù)器集群在GPU計算資源、通信效率上的瓶頸,最大程度發(fā)揮OAM計算性能并降低通信帶寬限制。OAM模塊透過 PCIe Switch 通過4條PCIe x 16與高性能CPU建立起高速高帶寬數(shù)據(jù)通道,并支持搭配32條RDIMM或LRDIMM內(nèi)存,以最大程度的保障OAM與CPU之間的數(shù)據(jù)通信處理需求。
(2)OAM模塊
OAM規(guī)范由OCP-OAI建立,定義了開放硬件計算加速模塊的結(jié)構(gòu)形態(tài)及互連接口,簡化了OAM模塊間高速通信鏈路互連,以此促進(jìn)跨加速器通信的可擴(kuò)展性。CPU與OAM 間的連接是透過 PCIe Switch 上行與CPU 4條PCIe x16帶寬完成,極大程度增加CPU與OAM之間的數(shù)據(jù)通信數(shù)量,避免大數(shù)據(jù)量AI訓(xùn)練場景中CPU與OAM間數(shù)據(jù)通信出現(xiàn)瓶頸。支持節(jié)點(diǎn)內(nèi)及節(jié)點(diǎn)間OAMP2P高速互連,OAM之間全互連拓?fù)涓纳屏硕郞AM數(shù)據(jù)共享的延遲情況,為計算提供更高效的性能。
(3)UBB基板
UBB基板能夠承載支持8個OAM模塊,形成一個AI加速計算子系統(tǒng)。UBB尺寸為16.7×21英寸,搭配UBB的機(jī)型可以放置于19英寸或21英寸機(jī)柜之中。UBB基板上的8個OAM模塊通過可以通過OAM設(shè)計規(guī)范中的不同互連拓?fù)溥M(jìn)行互連。UBB鏈路可以被拆分為×8鏈路,如果所有7個端口對配置成×16將無法完成對外拓展,因此為實現(xiàn)節(jié)點(diǎn)對外拓展形成互連集群,UBB基板將互連鏈路限制在×8以內(nèi),并默認(rèn)設(shè)計端口1的后半部分(×8,通常稱為1H端口)被用作對外拓展端口。
4)硬件設(shè)計
UBB基板及OAM硬件設(shè)計應(yīng)遵從UBB規(guī)范及OAM規(guī)范中的各項硬件規(guī)范、電氣規(guī)范、時序規(guī)范等。遵從UBB規(guī)范中對OAM布局的規(guī)范。
OAM 互連拓?fù)鋼p耗評估標(biāo)準(zhǔn)。對 OAM 互連所涉及的56Gbps PAM信號進(jìn)行信號完整性設(shè)計,包括高速走線參考平面設(shè)計、高噪聲電源區(qū)域走線、過孔stub及層面規(guī)劃、走線間距、過孔間串?dāng)_控制等。OAM之間互連信號,整體損耗在基頻處要求在30dB 以內(nèi),其中OAM 的 TX & RX 模組損耗需 控 制 在 8dB 以 內(nèi) , C a b l e 拓 撲 要 求QSFP-DD assembly 線纜損耗在5dB以內(nèi),PCB 損耗根據(jù)拓?fù)渚唧w計算即可。
(5)散熱設(shè)計
風(fēng)冷散熱:服務(wù)器節(jié)點(diǎn)風(fēng)冷散熱使用高效能風(fēng)扇墻設(shè)計,并采用側(cè)邊防回流設(shè)計以增大相同風(fēng)扇轉(zhuǎn)速下的系統(tǒng)風(fēng)量。采用導(dǎo)風(fēng)罩設(shè)計的基礎(chǔ)上增加OAM、CPU區(qū)域多風(fēng)道隔離設(shè)計,能夠結(jié)合區(qū)域感溫能力實現(xiàn)分區(qū)散熱。風(fēng)扇全部支持熱插拔,支持N+1轉(zhuǎn)子冗余,支持風(fēng)扇速度智能調(diào)節(jié)。針對UBB基板及OAM模塊,進(jìn)行散熱器性能的熱阻值參數(shù)設(shè)計。
(6)系統(tǒng)管理
OAM模塊的系統(tǒng)管理方面的設(shè)計包含提供資產(chǎn)信息、規(guī)范寄存器,并支持滿足FW更新、帶外監(jiān)控要求功能。資產(chǎn)信息提供對OAM模塊PN、SN、FW版本等信息的訪問;寄存器信息提供對電壓、功耗、溫度、ECC狀態(tài)及錯誤、外設(shè)錯誤、PCIe錯誤、Memory錯誤等信息的訪問;帶外監(jiān)控提供溫度、功耗、OAM模塊信息、異常告警、OAM狀態(tài)、卡復(fù)位等功能。
(7)故障診斷
故障診斷功能包含OAM卡內(nèi)部Uncorrect able Error、PCIe 總線錯誤、ESL 連接異常、卡丟失等功能。通過BMC可監(jiān)控系統(tǒng)PCIeSwitch模塊、UBB基板及OAM模塊的ECC狀態(tài)及錯誤、外設(shè)錯誤、PCIe錯誤、Memory錯誤等。支持鏈路級別的高級故障診斷功能,通過全時監(jiān)測PCIe Switch運(yùn)行日志獲取OAM卡故障信息。
(8)軟件平臺
針對大模型開發(fā)過程中存在的調(diào)度難、部署慢、效率低、集群異常等問題,構(gòu)建具備高性能、高可靠、可擴(kuò)展的AI算力資源統(tǒng)一管理和人工智能作業(yè)調(diào)度平臺,通過計算資源池化和容器化技術(shù),屏蔽底層硬件差異,以標(biāo)準(zhǔn)算力模式面向用戶直接提供計算資源,并通過適應(yīng)性策略及敏捷框架對算力進(jìn)行精準(zhǔn)調(diào)度配給。
本文來自“開放加速規(guī)范AI服務(wù)器設(shè)計指南(2023)”,以上分享了系統(tǒng)架構(gòu)、OAM模塊、UBB基板、硬件設(shè)計、散熱設(shè)計、系統(tǒng)管理、故障診斷、軟件平臺;集群網(wǎng)絡(luò)與存儲、整機(jī)柜、液冷、制冷、運(yùn)維等相關(guān)規(guī)范詳情,請下指南原文。
審核編輯:湯梓紅
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9797瀏覽量
88042 -
AI
+關(guān)注
關(guān)注
88文章
35194瀏覽量
280266 -
計算系統(tǒng)
+關(guān)注
關(guān)注
0文章
45瀏覽量
10456 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16117 -
大模型
+關(guān)注
關(guān)注
2文章
3148瀏覽量
4090
原文標(biāo)題:開放加速AI服務(wù)器規(guī)范設(shè)計(2023)
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
RISC-V走向開放服務(wù)器規(guī)范

ChatGPT熱潮引發(fā)AI服務(wù)器爆單
OPC服務(wù)器開發(fā)的幾種方法
淺析AI服務(wù)器與普通服務(wù)器的區(qū)別
服務(wù)器的開關(guān)電源規(guī)范設(shè)計標(biāo)準(zhǔn)
AI服務(wù)器的應(yīng)用場景有哪些?

評論