AI大模型的迅猛發(fā)展,使得網(wǎng)絡基礎設施技術的進步速度超乎想象。產(chǎn)業(yè)鏈上的每一個環(huán)節(jié)都需緊密追蹤AI驅動的技術革新,并據(jù)此進行同步的創(chuàng)新升級。
AI網(wǎng)絡的Scale-up正在上演一場熱烈的軍備賽,業(yè)界正在呼喚更統(tǒng)一開放的GPU計算卡互聯(lián)標準,從而打破NVIDIA主導的NVLink以及其所構建的強大的HBD 網(wǎng)絡架構的護城河。NVLink 是一種“多節(jié)點無損網(wǎng)絡”的代表,由一個強大的軟件協(xié)議組成,通常通過印在計算機板上的多對導線實現(xiàn),可以讓處理器以極高的速度收發(fā)共享內存池中的數(shù)據(jù)。NVLink 的主要設計目的,就是突破PCIe的屏障,達成GPU-GPU及CPU-GPU的片間高效數(shù)據(jù)交互。
(來源: NVIDIA)
目前NVLink已經(jīng)升級到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系統(tǒng)的可擴展性。單個 NVIDIA Blackwell Tensor Core GPU 支持多達 18 個 NVLink 100 GB/s 連接,總帶寬可達 1.8 TB/s,比上一代產(chǎn)品提高了兩倍,是 PCIe 5.0 帶寬的 14 倍之多。
如今討論Scale-up網(wǎng)絡已經(jīng)不僅提及NVIDIA的NVLink,無論是國際還是國內,行業(yè)更多的是在找尋一種更加緊密連接的集群組網(wǎng),這種緊密耦合所形成的計算系統(tǒng)將有助于推動以GPU為核心的AI網(wǎng)絡獲得極高的帶寬與極低的延遲。
01超帶寬域(HBD)成為
業(yè)內技術探索新領域
大模型時代,需要更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類型的Expert并行都會在GPU之間產(chǎn)生大量的通信,當前典型一機8卡服務器限制了Tensor并行的規(guī)?;駿xpert并行通過機間網(wǎng)絡。由此業(yè)界開始探索一種以超帶寬(HB)互聯(lián)GPU-GPU的系統(tǒng),又稱HBD(High Bandwidth Domain)。通過構建更大的HBD系統(tǒng),以Scale-up方式提升系統(tǒng)算力是解決萬卡到十萬卡集群以上互聯(lián)挑戰(zhàn)的有效途徑之一。
于是NVIDIA的暴力美學再度彰顯,以其強大的計算能力繼續(xù)發(fā)揮著引領HBD技術趨勢的威力。NVIDIA將HB互聯(lián)擴展至GPU片間通信之外的領域,將其應用到GPU-CPU/Memory之間的超大帶寬互聯(lián),例如GH200、GB200產(chǎn)品。借助NVLink-C2C技術的創(chuàng)新,為GPU提供一個超帶寬訪問CPU/Memory的能力。
NVIDIA的GB200NVL72服務器產(chǎn)品體現(xiàn)了典型的超大HBD域系統(tǒng),實現(xiàn)了36組GB200(36個Grace CPU,72個B200 GPU)之間的超高帶寬互聯(lián)。一個NVL72機架服務器內部共有18個Compute Tray和9個Switch Tray。
(來源:Semianalysis)
上圖右側是另外一種NVIDIA的Scale-up HBD 組網(wǎng)形態(tài):GB200 NVL36 * 2,它把兩個并排的機架互聯(lián)在一起。大多數(shù) GB200 機架都將使用此外形規(guī)格。每個機架包含 18 個 Grace CPU 和 36 個 Blackwell GPU。在 2 個機架之間,它仍然在 NVL72 中的所有 72 個 GPU 之間保持非阻塞全對全。每個Compute Tray(高度為2U )包含 2 個 Bianca 板。每個 NVSwitch Tray都有兩個 28.8Tb/s NVSwitch5 ASIC 芯片。
(來源:Semianalysis)
更夸張的是,黃仁勛表示GB200 NVLink 可以同時連接到 576 個 Blackwell GPU。據(jù)Semianalysis調研,該網(wǎng)絡系統(tǒng)使用具有 18 個平面的 2 層胖樹拓撲來完成。這意味著NVIDIA計劃讓 DGX H100 NVL256 連接 16 個 NVL36 機架。NVL576形成一個超級大的GPU HBD域,則包含288個GB200 GPU,576個B200 GPU。
據(jù)悉,該系統(tǒng)形態(tài)的互聯(lián)已經(jīng)超過銅纜能夠實現(xiàn)的物理連接距離,必須使用光纖連接,這意味著需要花費相當昂貴的成本來實現(xiàn)極高的加速卡帶寬。
事實上,超帶寬域的穩(wěn)定運行并非易事,其復雜性不僅體現(xiàn)在網(wǎng)絡和計算層面,還包括服務器機架的能耗管理、液冷散熱技術、以及機架間光模塊與光纜的通信效率等眾多挑戰(zhàn)。這些問題的解決非一家企業(yè)能夠獨立完成,它需要數(shù)據(jù)中心產(chǎn)業(yè)鏈的上下游運用集體的智慧來共同突破,以實現(xiàn)高達十萬個以上的加速卡的互聯(lián)。
02產(chǎn)業(yè)鏈集體對抗
英偉達的暴力美學
上個月底, AMD、AWS、Astera Labs、思科、谷歌、惠普企業(yè) (HPE)、英特爾、Meta 和微軟等九大董事會成員聯(lián)合宣布,由其主導的UALink 聯(lián)盟宣布正式成立,目前已經(jīng)對行業(yè)開放成員邀請。
Ultra Accelerator Link(UALink) 是一種用于GPU加速卡間通信的開放行業(yè)標準化互聯(lián)。UALink 聯(lián)盟是一個開放的行業(yè)標準組織,旨在制定Scale-up互聯(lián)技術規(guī)范,以促進 AI 加速卡(即 GPU)之間的高效互聯(lián)。該技術規(guī)范定義了一種創(chuàng)新的I/O架構,單通道可達200 Gbps傳輸速率,支持最多1024個AI加速卡互連。相比傳統(tǒng)以太網(wǎng)(Ethernet)架構,UALink在性能和GPU互聯(lián)規(guī)模上都具有優(yōu)勢,互聯(lián)規(guī)模更是大幅超越NVIDIA NVLink技術。
UALink 1.0 規(guī)范可以利用開發(fā)和部署了各種加速卡和交換機的推廣者成員的經(jīng)驗。
UALink 聯(lián)盟總裁 Willie Nelson 表示:“UALink 標準定義了數(shù)據(jù)中心內擴展 AI 系統(tǒng)的高速、低延遲通信。我們鼓勵有興趣的公司以貢獻者成員的身份加入,以支持我們的使命:為 AI 工作負載建立開放且高性能的加速卡互聯(lián)。”預計UALink 1.0規(guī)范將在2025年第一季度發(fā)布,這與UEC超以太聯(lián)盟1.0規(guī)范的發(fā)布節(jié)奏同步。
國內:AI網(wǎng)絡生態(tài)聯(lián)盟百花齊放
國內AI網(wǎng)絡生態(tài)圈高度關注Scale-up互聯(lián)領域的發(fā)展,在短短幾個月內,以中國移動、阿里云及騰訊云等巨頭電信運營商及云廠商分別引領的Scale-up互聯(lián)生態(tài) OISA、ALink System以及ETH-X超節(jié)點等技術規(guī)范旨在推動國內智算中心互聯(lián)生態(tài)的快速發(fā)展。
OISA全向智感互聯(lián)
由中國移動引領的OISA主要包括四大設計理念,包括“大規(guī)模GPU對等互聯(lián)”、“極致報文格式”、“數(shù)據(jù)層流控和重傳”以及“高效物理傳輸”,核心思想是為GPU卡間互聯(lián)提供開放的高帶寬、低時延解決方案。此前在6月份的多樣性算力產(chǎn)業(yè)峰會上,中國移動重點展示了“OISA G1協(xié)議”并推出“OISA交換芯片原型”。
OISA G1的設計規(guī)格支持128張GPU通過8個Switch芯片互聯(lián),任意卡間點對點帶寬達到800GB/s,每個Switch芯片支持128個端口,芯片總速率達到51.2T。奇異摩爾目前已經(jīng)是OISA聯(lián)盟的成員,公司積極聯(lián)動運營商、GPU廠商、交換機及服務器領域的優(yōu)秀生態(tài)伙伴、共同推進國內GPU卡間互聯(lián)標準的建立與實施。
ALink System 加速器互連系統(tǒng)
ALS產(chǎn)業(yè)生態(tài)是業(yè)界首個支持UALink成立的產(chǎn)業(yè)生態(tài),旨在解決AI網(wǎng)絡縱向擴展(Scale-up)中的超高速、超大帶寬等技術難題,為下一代智算網(wǎng)絡打造開放的、統(tǒng)一的標準規(guī)范。在今年9月召開的2024 ODCC開放數(shù)據(jù)中心大會上, 阿里云聯(lián)合信通院、奇異摩爾等十多家業(yè)界合作伙伴發(fā)起了ALS(ALink System,加速器互連系統(tǒng))開放生態(tài)系統(tǒng)。
依托于ODCC(開放數(shù)據(jù)中心委員會)下設的ALS工作組,生態(tài)成員們攜手聚焦解決GPU卡間互聯(lián)系統(tǒng)的行業(yè)發(fā)展和規(guī)范問題,推動Scale-up互連系統(tǒng)標準統(tǒng)一建設,打造下一代AI互連網(wǎng)絡軟硬件系統(tǒng)。目前,ALS已形成從協(xié)議到芯片、從硬件設備到軟件平臺的系統(tǒng)體系,在ALS-D數(shù)據(jù)面支持UALink,在ALS-M管控面提供統(tǒng)一接口規(guī)范和管控軟件平臺。
ETH-X超節(jié)點
ETH-X超節(jié)點聯(lián)盟選擇以太網(wǎng)為基礎設施作為GPU超節(jié)點項目的首選原型方案。以太網(wǎng)技術(ETH)作為當前最成熟、最開放的網(wǎng)絡技術,具有最大交換芯片容量、最高速Serdes技術、200ns交換芯片、最多參與企業(yè)的特點,并且已經(jīng)是當前眾多GPU廠商選擇的Scale-up接口技術。
據(jù)悉,超節(jié)點目前已完成Computer-Cable-Switch開放解偶架構設計,保證超節(jié)點系統(tǒng)的硬件可以由不同專業(yè)領域廠家獨立研發(fā)生產(chǎn),并確保了各子系統(tǒng)硬件可集成互通。系統(tǒng)解偶后,各子系統(tǒng)均具有兼容多種GPU芯片、多種Switch芯片及其獨立演進的能力,由此充分保證了GPU超節(jié)點系統(tǒng)參與廠家的專業(yè)性、多樣性和開放性。
正如之前我們所提及的加速卡間HBD的挑戰(zhàn),ETH-X以太超節(jié)點系統(tǒng)也面臨著集成測試、系統(tǒng)運維、協(xié)議設計、業(yè)務測試等一些列的技術挑戰(zhàn)。這一系列的問題需要業(yè)界充分協(xié)作,共同努力在現(xiàn)有開放生態(tài)基礎上不斷完善、加速GPU超節(jié)點系統(tǒng)的成熟與發(fā)展。
奇異摩爾自研的網(wǎng)絡加速芯粒GPU Link Chiplet——NDSA-G2G,以其極高的靈活性和可擴展性為Scale-up互聯(lián)生態(tài)提供了強有力的支撐。該產(chǎn)品基于可編程眾核流式架構,支持用戶自定義的協(xié)議和處理格式。通過將Chiplet芯粒集成在GPU加速卡內,并利用UCIe D2D接口與GPU互聯(lián),NDSA-G2G能夠實現(xiàn)高性能的數(shù)據(jù)流,從而全面加速分布式計算網(wǎng)絡。
“據(jù)中國IDC圈不完全統(tǒng)計,目前國內不同建設階段的智算中心項目已超過500個,其中投產(chǎn)運營的項目160個,開工在建項目超過200個。智算中心的建設可謂是如火如荼,其發(fā)展關乎到區(qū)域經(jīng)濟的發(fā)展和產(chǎn)業(yè)布局的未來?!?/p>
AI網(wǎng)絡基礎設施作為智算中心的重要基石,直接決定了智算中心的能力、效率、可靠性和安全性。從芯片、交換機、網(wǎng)卡、光模塊到其他IT硬件設備,每一個組件都不可或缺,共同構成了一套跨尺度、多層次的復雜系統(tǒng)工程。
奇異摩爾期待未來行業(yè)能夠擁抱一種開放而統(tǒng)一的物理接口,產(chǎn)業(yè)鏈通過標準制定、軟硬件結合等方面的協(xié)同最終實現(xiàn)以太網(wǎng)為基礎的Scale-up網(wǎng)絡和Scale-out網(wǎng)絡的融合,從而構建一個更加高效、靈活的智算網(wǎng)絡架構,為國內智算中心的發(fā)展釋放無限可能。
關于我們
AI網(wǎng)絡全棧式互聯(lián)架構產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領先的AI網(wǎng)絡全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創(chuàng)新性地構建了統(tǒng)一互聯(lián)架構——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴苛需求。
我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡的GPU片間互聯(lián)芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗,致力于推動技術創(chuàng)新和業(yè)務發(fā)展。團隊擁有超過50個高性能網(wǎng)絡及Chiplet量產(chǎn)項目的經(jīng)驗,為公司的產(chǎn)品和服務提供了強有力的技術保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅動力,技術探索新場景,生態(tài)構建新的半導體格局,為高性能AI計算奠定穩(wěn)固的基石。
-
處理器
+關注
關注
68文章
19899瀏覽量
235411 -
NVIDIA
+關注
關注
14文章
5309瀏覽量
106469 -
網(wǎng)絡
+關注
關注
14文章
7816瀏覽量
90993 -
AI
+關注
關注
88文章
35194瀏覽量
280246
原文標題:Kiwi Talks | Scale-up 軍備賽愈演愈烈,集體對抗英偉達的暴力美學
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論