AI工作負(fù)載正顯著推動接口IP市場的創(chuàng)新。AI模型參數(shù)量呈指數(shù)級增長,大約每4至6個月翻一番,這與摩爾定律所描繪的硬件發(fā)展速度(周期長達(dá)18個月)形成了鮮明對比。此差距要求硬件創(chuàng)新來支持人工智能(AI)工作負(fù)載,并且需要更強的計算能力、更豐富的資源和更高帶寬的互連技術(shù)。
更重要的是,硬件性能已經(jīng)超越了標(biāo)準(zhǔn)掩膜尺寸的限制。由于計算單元和相關(guān)內(nèi)存越來越多,CPU和GPU設(shè)計正在不斷突破掩膜尺寸。AI加速器和GPU現(xiàn)在需要一種全新的超高效網(wǎng)絡(luò)基礎(chǔ)設(shè)施,突破單個芯片的性能限制,同時實現(xiàn)低延遲、高密度連接的芯片間通信,優(yōu)化能效。
本文從技術(shù)角度深入探討了橫向、縱向擴展為何成為HPC和AI芯片開發(fā)商的關(guān)鍵需求,以及超以太網(wǎng)和UALink等新標(biāo)準(zhǔn)如何應(yīng)對高帶寬、低延遲連接和高效資源管理的挑戰(zhàn)。
新標(biāo)準(zhǔn)的崛起
在AI工作負(fù)載需求的推動下,芯片到芯片架構(gòu)的橫向、縱向擴展至關(guān)重要。從單芯片過渡到Multi-Die系統(tǒng),并融合HBM和UCIe等并行接口已成為必然趨勢。這些解決方案支持同構(gòu)和異構(gòu)計算架構(gòu),借助PCIe和CXL的傳統(tǒng)連接進一步擴展內(nèi)存,并利用以太網(wǎng)實現(xiàn)更廣泛的網(wǎng)絡(luò)架構(gòu)。
▲點擊查看詳細(xì)信息
為了滿足AI擴展需求,兩項新標(biāo)準(zhǔn)應(yīng)運而生:
適用于橫向擴展的超以太網(wǎng)
適用于縱向擴展的UALink
超以太網(wǎng)是一種開放、可互操作的高性能架構(gòu),專為AI而設(shè)計,得到了交換機、網(wǎng)絡(luò)、半導(dǎo)體和系統(tǒng)供應(yīng)等領(lǐng)域的知名企業(yè)以及超大規(guī)模用戶的支持。另一方面,UALink則通過特定的內(nèi)存共享功能,使加速器能夠直接運行,得到了半導(dǎo)體行業(yè)重要參與者的廣泛認(rèn)可。
超以太網(wǎng):橫向擴展AI工作負(fù)載
隨著AI和HPC流量的增長,使用RoCE或?qū)S薪鉀Q方案的傳統(tǒng)網(wǎng)絡(luò)逐漸顯露出其局限性。這包括嚴(yán)格的按序數(shù)據(jù)包傳送、基于流的低效負(fù)載平衡,以及數(shù)據(jù)包丟失時在RDMA操作中繁瑣的重新傳輸。而這些對于AI操作來說成本非常高昂。超以太網(wǎng)聯(lián)盟(UEC)技術(shù)通過提供更高效、可擴展且強大的網(wǎng)絡(luò)解決方案來解決這些問題,能夠針對性地滿足AI和HPC工作負(fù)載的高性能需求。
超以太網(wǎng)的工作原理
▲點擊查看詳細(xì)信息
圖1:超以太網(wǎng)集群圖
超以太網(wǎng)系統(tǒng)由多個集群組成,每個集群都包含節(jié)點和基礎(chǔ)設(shè)施。節(jié)點通過結(jié)構(gòu)接口(網(wǎng)卡)連接到網(wǎng)絡(luò),該接口可以承載多個邏輯結(jié)構(gòu)端點(FEP)。網(wǎng)絡(luò)分為多個平面,每個平面包含多個通過交換機互連的FEP。
集群主要采用兩種模式來處理不同的任務(wù)。
并行作業(yè)模式:系統(tǒng)運行任務(wù)直至完成,并允許多個節(jié)點同時進行通信。對于需要大量并行處理的高性能計算任務(wù)來說,這是理想的作業(yè)模式。
客戶端/服務(wù)器模式:系統(tǒng)專為存儲任務(wù)而設(shè)置。在這種情況下,服務(wù)器持續(xù)處理來自多個客戶端的請求,并在特定的節(jié)點對之間進行通信,非常適合用于可靠且一致的數(shù)據(jù)訪問和管理工作。
超以太網(wǎng)的關(guān)鍵技術(shù)特點
▲點擊查看詳細(xì)信息
圖2:超以太網(wǎng)使用專為AI和HPC應(yīng)用而設(shè)計的下一代傳輸協(xié)議重新定義了以太網(wǎng)。(圖片來源:超以太網(wǎng)聯(lián)盟)
1. 物理層:與IEEE 802.3標(biāo)準(zhǔn)以太網(wǎng)兼容,具有基于FEC(前向糾錯)碼字的可選性能監(jiān)控功能。UCR(不可糾正碼字率)和MTBPE(平均數(shù)據(jù)包錯誤間隔時間)等指標(biāo)有助于深入分析傳輸性能以及可靠性表現(xiàn)。
2. 鏈路層:引入LLR(鏈路層重傳)協(xié)議,可實現(xiàn)無損傳輸,而無需依賴優(yōu)先級流量控制(PFC)機制。這可確保更快的錯誤恢復(fù),避免不必要的端到端重傳,并減少尾部延遲。
3. 數(shù)據(jù)包速率改進(PRI):通過壓縮以太網(wǎng)和IP報頭提高數(shù)據(jù)包速率,解決由傳統(tǒng)功能和冗余協(xié)議字段導(dǎo)致的效率低下問題。
4.鏈路協(xié)商協(xié)議:通過協(xié)商功能擴展LLDP,以檢測并啟用LLR和PRI等受支持功能。
5.傳輸層:旨在解決傳統(tǒng)RDMA網(wǎng)絡(luò)的局限性,支持選擇性重傳、無序傳送、數(shù)據(jù)包噴射和高級擁塞控制機制。提供多種傳輸模式,包括可靠有序交付(ROD)、可靠無序交付(RUD)和不可靠無序交付(UUD)。
6.擁塞控制:實現(xiàn)了incast管理、加速速率調(diào)整、基于遙測的控制和通過數(shù)據(jù)包噴射進行自適應(yīng)路由等功能,以盡可能地減少尾部延遲并增強網(wǎng)絡(luò)性能。
7.安全:在傳輸層整合基于作業(yè)的安全性,利用IPSec和PSP功能進一步減少加密開銷并支持硬件卸載。
UALink:縱向擴展AI工作負(fù)載
AI模型的規(guī)模越來越大,相關(guān)市場對算力和內(nèi)存資源的需求顯著增加。傳統(tǒng)的互連技術(shù)并非專為AI工作負(fù)載網(wǎng)絡(luò)設(shè)計,難以滿足其需求。UALink作為一種可擴展結(jié)構(gòu),可在數(shù)十到數(shù)百個專用AI加速器之間建立基于標(biāo)準(zhǔn)的超高帶寬連接網(wǎng)絡(luò)。這一技術(shù)的出現(xiàn)標(biāo)志著市場的重大進步,縱向擴展網(wǎng)絡(luò)從臨時配置轉(zhuǎn)向更標(biāo)準(zhǔn)化的網(wǎng)絡(luò),支持更高基數(shù)的系統(tǒng),并配備專用的UALink交換機。
UALink的工作原理
▲點擊查看詳細(xì)信息
圖3:UALink為縱向擴展網(wǎng)絡(luò)和AI加速器交換機營造了開放的生態(tài)系統(tǒng)。摘自:MICRO-2024 HiPChips研討會
UALink創(chuàng)建了一個高速、低延遲的網(wǎng)絡(luò),可以連接一個Pod內(nèi)的多個加速器(例如GPU)。這讓每個加速器能夠直接訪問其他加速器的內(nèi)存,整個Pod可以像單個巨大的GPU一樣運行。這使得每個GPU可以直接訪問和修改同一擴展網(wǎng)絡(luò)內(nèi)其他任何GPU的內(nèi)存。從軟件角度來看,這組相互連接的GPU看起來就像一整個大型GPU。
UALink的工作原理超加速器鏈路(UALink)的關(guān)鍵技術(shù)特點
1.高帶寬:UALink每通道的速度高達(dá)200 Gbps,有助于在加速器之間高效傳輸數(shù)據(jù)。
2.輕量級協(xié)議:該協(xié)議設(shè)計輕量,可減少開銷并確保高效通信。
3.效率:亞微秒級延遲提高了推理性能,并支持在不劃分工作負(fù)載的情況下擴展到八個GPU以上。
4. 開放標(biāo)準(zhǔn):UALink是一個開放的行業(yè)標(biāo)準(zhǔn),可改善互操作性,減少供應(yīng)商鎖定。
5. 內(nèi)存共享:特定的內(nèi)存共享功能讓加速器可以有效地訪問共享內(nèi)存資源,支持?jǐn)?shù)百個GPU之間的加載、存儲和原子操作,減少端到端延遲并降低功耗。
6.同步功能:UALink包含同步功能,有助于確保多個加速器之間的一致性,促進高效運行。
7. 與UEC相輔相成:可以與超以太網(wǎng)聯(lián)盟成員的前沿技術(shù)良好協(xié)作,實現(xiàn)更廣泛的可擴展性。
利用業(yè)界首發(fā)的超以太網(wǎng)和UALink IP解決方案實現(xiàn)大規(guī)模AI集群
新思科技搶先推出業(yè)內(nèi)首款UALink和超以太網(wǎng)IP解決方案,致力于連接海量AI加速器集群。
▲點擊查看詳細(xì)信息
新思科技超以太網(wǎng)IP解決方案的速度高達(dá)1.6Tb/s,可支持多達(dá)一百萬個端點。此外,新思科技UALink IP每通道的速度高達(dá)200Gb/s,可連接一千多個加速器。這些解決方案針對AI的橫向、縱向擴展進行了優(yōu)化,提供了AI通信所必需的高帶寬和輕量級協(xié)議。
結(jié)語
隨著AI領(lǐng)域的不斷擴大,采用標(biāo)準(zhǔn)化接口對于推動創(chuàng)新、降低復(fù)雜性和提高整體系統(tǒng)性能至關(guān)重要。AI基礎(chǔ)結(jié)構(gòu)的未來在于這些能夠促進行業(yè)增長、提高效率的協(xié)作性開放標(biāo)準(zhǔn)解決方案。新思科技正處于AI和HPC設(shè)計創(chuàng)新的前沿,提供廣泛的高速接口IP組合。新思科技為PCIe 7.0、1.6T以太網(wǎng)、CXL、HBM、UCIe以及最新的超以太網(wǎng)和UALink提供完整且安全的IP解決方案,從而推動AI和HPC在性能、可擴展性、效率和互操作性等方面達(dá)到新的高度,幫助客戶實現(xiàn)一次性流片成功。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5547瀏覽量
174192 -
交換機
+關(guān)注
關(guān)注
21文章
2701瀏覽量
101058 -
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274193 -
新思科技
+關(guān)注
關(guān)注
5文章
841瀏覽量
50978 -
HPC
+關(guān)注
關(guān)注
0文章
331瀏覽量
24123
原文標(biāo)題:業(yè)內(nèi)首款UALink和超以太網(wǎng)IP解決方案,重塑高性能AI網(wǎng)絡(luò)
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
新思科技推出業(yè)界首款連接大規(guī)模AI加速器集群的超以太網(wǎng)和UALink IP 解決方案
設(shè)計坊第三期:靈活的工業(yè)以太網(wǎng)解決方案
自動化行業(yè)中的全廠自動化中的以太網(wǎng)/IP
基于以太網(wǎng)接口的TCP/IP 實驗

工業(yè)以太網(wǎng)方案選擇指南
Linux以太網(wǎng)解決方案的介紹
萬兆以太網(wǎng)和IP SAN的融合
新思科技收購MorethanIP,進一步擴展DesignWare以太網(wǎng)IP產(chǎn)品組合
新思科技推出業(yè)界首個1.6T高速以太網(wǎng)解決方案
數(shù)據(jù)中心市場的關(guān)鍵以太網(wǎng)解決方案

評論