電子發(fā)燒友網(wǎng)報道(文/周凱揚)在現(xiàn)代數(shù)據(jù)中心架構(gòu)中,網(wǎng)絡(luò)和計算設(shè)備都部署在兩層甚至三層的互聯(lián)矩陣中,與傳統(tǒng)的多層架構(gòu)不同,數(shù)據(jù)中心的交換矩陣促成了服務(wù)器架構(gòu)的扁平化,進一步縮短了數(shù)據(jù)中心內(nèi)不同端點之間的距離,提高效率的同時,也降低了延遲。
可以說交換矩陣技術(shù)決定了數(shù)據(jù)中心的擴展性,相較傳統(tǒng)的網(wǎng)絡(luò)交換矩陣而言,如今的復雜計算交換矩陣,也就是我們所說的芯片外互聯(lián)技術(shù),更是提高算力的重要解決方案之一。
英偉達NVLink和NV Switch
與其他公司采用的通用交換矩陣技術(shù)不同,英偉達憑借其在互聯(lián)交換技術(shù)上的積累,再結(jié)合收購Mellanox獲得的技術(shù),為其GPU產(chǎn)品打造并迭代了NVLink和NVSwitch技術(shù)。
以目前的英偉達GPU服務(wù)器集群為例,集群內(nèi)的GPU通過NVSwitch交換機,以NVLink來實現(xiàn)互相通信。如今NVLink技術(shù)已經(jīng)發(fā)展至第五代,NVSwitch也已經(jīng)發(fā)展至第四代NVLink Switch。
隨著GB200的出現(xiàn),英偉達已經(jīng)實現(xiàn)了單Blackwell GPU支持18個NVLink連接的可拓展性,也使得總帶寬達到了1.8TB/s,是第四代NVLink技術(shù)的兩倍,更是遠超PCIe 5.0。
單個GB200 NVL72服務(wù)器更是可以集成72個GB200 GPU,依靠NVLink Switch實現(xiàn)130TB/s的總帶寬,這樣的可拓展性對于提高現(xiàn)在的大模型訓練規(guī)模和速度來說尤為重要,NVL72就可以普遍用于訓練萬億參數(shù)級別的大模型。
AMD Infinity Fabric
雖然很多AI加速器初創(chuàng)企業(yè)或英偉達的競爭對手,都會鼓吹單個GPU或加速器的性能本身,但如果不能從擴展性上縮短差距,也很難被云服務(wù)廠商和數(shù)據(jù)中心大規(guī)模商用。以英偉達的老對手AMD為例,他們的MI300系列在交換矩陣的支持上由128鏈路組成,其中64個支持PCIe 5.0和自研的Infinity Fabric,另外64個則僅支持Infinity Fabric。
在單芯片或單個服務(wù)器上的性能可能會更加優(yōu)異,但一旦擴展至數(shù)百個服務(wù)器的規(guī)模下,就很難繼續(xù)保持優(yōu)勢了。AMD也很清楚自己需要縮小這一差距,但僅僅依靠自身在Infinity Fabric交換矩陣上的積累,很難打通整個生態(tài),所以AMD選擇了合作開放一途。
早在去年AMD的Advancing AI大會上,AMD就宣布向生態(tài)合作伙伴開放自己的Infinity Fabric IP(XGMI),呼吁別的交換芯片廠商對Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交換芯片,除了支持PCIe、CXL之外,也將支持AMD的Infinity Fabric。
然而這里指的并不是今年下半年才送樣的PCIe 6.0交換芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看來,要想真正見到第三方交換矩陣方案支持AMD的Infinity Fabric,還得等到PCIe 7.0正式面世。
寫在最后
對于市面上其他的AI加速器而言,開放標準或已有的商用標準是他們的最好選擇,比如PCIe、CXL等等。除此之外,據(jù)了解一些與緩存一致性相關(guān)的專利即將過期,或許對于一些初創(chuàng)公司來說,未來會有開源的高端交換互聯(lián)方案供他們選擇。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5218瀏覽量
73479
發(fā)布評論請先 登錄
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
華為連續(xù)9年穩(wěn)居中國數(shù)據(jù)中心交換機市場第一
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
華為繼續(xù)領(lǐng)跑中國數(shù)據(jù)中心交換機市場第一
新思科技助力下一代數(shù)據(jù)中心AI芯片設(shè)計

華為穩(wěn)居中國數(shù)據(jù)中心交換機市場第一
探秘物聯(lián)數(shù)據(jù)中心:設(shè)備全知道

諾基亞擴展與微軟Azure的數(shù)據(jù)中心網(wǎng)絡(luò)供應(yīng)協(xié)議
如何選擇數(shù)據(jù)中心服務(wù)
數(shù)據(jù)中心對MOS管性能的要求
數(shù)據(jù)中心產(chǎn)品通常包括哪些


怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

評論