InfiniBand(直譯為“無限帶寬”技術(shù),縮寫為IB)是一個(gè)用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),它具有極高的吞吐量和極低的延遲,用于計(jì)算機(jī)與計(jì)算機(jī)之間的數(shù)據(jù)互連。
在最新發(fā)布的全球最強(qiáng)超級計(jì)算機(jī)排名 Top500 的榜單中,InfiniBand 網(wǎng)絡(luò)再次以絕對的數(shù)量和性能優(yōu)勢蟬聯(lián)超級計(jì)算機(jī)互連設(shè)備數(shù)量榜首,比上次排行榜的數(shù)量又有了大幅度的增長??v觀這次的榜單,可以歸納出以下三個(gè)趨勢:
基于InfiniBand網(wǎng)絡(luò)的超級計(jì)算機(jī)以197臺(tái)的數(shù)量大幅領(lǐng)先于其它網(wǎng)絡(luò)技術(shù)。特別在 Top100 的系統(tǒng)中,基于 InfiniBand 網(wǎng)絡(luò)的超級計(jì)算機(jī)更是遙遙領(lǐng)先,InfiniBand 網(wǎng)絡(luò)已經(jīng)成為了追求性能的超級計(jì)算機(jī)的標(biāo)配。
NVIDIA網(wǎng)絡(luò)產(chǎn)品成為Top500系統(tǒng)中的主流互連設(shè)備,其中超過三分之二的超級計(jì)算機(jī)在使用NVIDIA網(wǎng)絡(luò)互連,NVIDIA 網(wǎng)絡(luò)的性能和技術(shù)領(lǐng)先性已經(jīng)得到了廣泛認(rèn)可。
還值得一提的是,InfiniBand網(wǎng)絡(luò)不僅在傳統(tǒng)的HPC業(yè)務(wù),在企業(yè)級數(shù)據(jù)中心和公有云上也已被廣泛使用。目前性能第一的企業(yè)級超級計(jì)算機(jī)NVIDIA Selene 和微軟公司的Azure公有云都在利用InfiniBand網(wǎng)絡(luò)來發(fā)揮其超高的業(yè)務(wù)性能。
無論是數(shù)據(jù)通訊技術(shù)的演進(jìn)、互聯(lián)網(wǎng)技術(shù)的革新、還是視覺呈現(xiàn)的升級,都是得益于更強(qiáng)大的計(jì)算、更大容量更安全的存儲(chǔ)以及更高效的網(wǎng)絡(luò);基于InfiniBand網(wǎng)絡(luò)為基礎(chǔ)的集群架構(gòu)方案,不僅可以提供更高帶寬的網(wǎng)絡(luò)服務(wù),同時(shí)也降低了網(wǎng)絡(luò)傳輸負(fù)載對計(jì)算資源的消耗,降低了延時(shí),又完美地將HPC與數(shù)據(jù)中心融合。
為什么InfiniBand網(wǎng)絡(luò)在 Top500 中受到如此高的重視?其性能優(yōu)勢起到了決定性的作用。下面,納多德將InfiniBand十大優(yōu)勢總結(jié)如下:
1. 簡單的網(wǎng)絡(luò)管理
InfiniBand是第一個(gè)真正意義上原生按照SDN設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),它由子網(wǎng)管理器來管理。
子網(wǎng)管理器對本地子網(wǎng)進(jìn)行配置并確保能連續(xù)運(yùn)行。所有的信道適配器和交換機(jī)都必須實(shí)現(xiàn)一個(gè)SMA,該SMA與子網(wǎng)管理器一起實(shí)現(xiàn)對通信的處理。每個(gè)子網(wǎng)必須至少有一個(gè)子網(wǎng)管理器來進(jìn)行初始化管理以及在鏈路連接或斷開時(shí)對子網(wǎng)進(jìn)行重新配置。通過仲裁機(jī)制來選擇一個(gè)子網(wǎng)管理器作為主子網(wǎng)管理器,而其他子網(wǎng)管理器工作于待機(jī)模式(每個(gè)待機(jī)模式下的子網(wǎng)管理器都會(huì)備份此子網(wǎng)的拓?fù)湫畔?,并檢驗(yàn)此子網(wǎng)是否能夠運(yùn)行)。若主子網(wǎng)管理器發(fā)生故障,一個(gè)待機(jī)子網(wǎng)管理器接管子網(wǎng)的管理以確保不間斷運(yùn)行。
2. 高帶寬
自InfiniBand誕生以來,很長一段時(shí)間InfiniBand網(wǎng)絡(luò)速率的發(fā)展都是快于Ethernet的,主要原因就是因?yàn)镮nfiniBand應(yīng)用于高性能計(jì)算中服務(wù)器之間的互連,對帶寬上的需求更高。
各個(gè)速率的縮寫如下:
SDR - Single Data Rate
DDR - Double Data Rate
QDR - Quad Data Rate
FDR - Fourteen Data Rate
EDR - Enhanced Data Rate
HDR - High Dynamic Range
NDR - Next Data Rate
XDR - eXtreme Data Rate
加速計(jì)算的一個(gè)關(guān)鍵技術(shù),是CPU卸載。InfiniBand網(wǎng)絡(luò)架構(gòu)可以以最少的CPU資源來傳輸數(shù)據(jù),這點(diǎn)是通過下面的方式來做到的:
硬件卸載整個(gè)傳輸層協(xié)議棧
Bypass內(nèi)核,zero copy
RDMA,把一個(gè)服務(wù)器內(nèi)存中的數(shù)據(jù)直接寫入另一臺(tái)的內(nèi)存,不需要CPU的參與
同時(shí)可以使用GPU Direct技術(shù),可以直接訪問GPU內(nèi)存中的數(shù)據(jù),將GPU內(nèi)存中的數(shù)據(jù)傳輸?shù)狡渌?jié)點(diǎn)。這樣可以加速計(jì)算類的應(yīng)用,比如AI, Deep Learning等。
4.低延遲
此處主要分為兩部分進(jìn)行對比,一部分在交換機(jī)上,作為網(wǎng)絡(luò)傳輸模型中的二層技術(shù),Ethernet交換機(jī)普遍采用了MAC查表尋址和存儲(chǔ)轉(zhuǎn)發(fā)的方式(有部分產(chǎn)品借鑒了InfiniBand的Cut-though技術(shù))由于需要考慮諸如IP、MPLS、QinQ等復(fù)雜業(yè)務(wù)的處理,導(dǎo)致Ethernet交換機(jī)處理流程較長,一般會(huì)在若干us(支持cut-though的會(huì)在200ns以上),而InfiniBand交換機(jī)二層處理非常簡單,僅需要根據(jù)16bit的LID就可以查到轉(zhuǎn)發(fā)路徑信息,同時(shí)采用了Cut-Through技術(shù)大大縮短了轉(zhuǎn)發(fā)時(shí)延至100ns以下,遠(yuǎn)遠(yuǎn)快于Ethernet交換機(jī);網(wǎng)卡層面如前所述,采用RDMA技術(shù),網(wǎng)卡轉(zhuǎn)發(fā)報(bào)文不需要經(jīng)過CPU,大大加快了報(bào)文在封裝解封裝處理的時(shí)延,一般InfiniBand的網(wǎng)卡收發(fā)時(shí)延(write,send)在600ns,而基于Ethernet上的TCP UDP應(yīng)用的收發(fā)時(shí)延會(huì)在10us左右,相差十幾倍之多。
5.擴(kuò)展性和靈活性
IB網(wǎng)絡(luò)一個(gè)主要的優(yōu)勢就是單個(gè)子網(wǎng)可以部署一個(gè)48,000節(jié)點(diǎn),形成一個(gè)巨大的2層網(wǎng)絡(luò)。而且IB網(wǎng)絡(luò)不依賴ARP等廣播機(jī)制,不會(huì)產(chǎn)生廣播風(fēng)暴或者額外的帶寬浪費(fèi)。
多個(gè)IB子網(wǎng)也可以通過路由器和交換機(jī)連接。
IB支持多種網(wǎng)絡(luò)拓?fù)洌?/p>
規(guī)模較小時(shí),建議選用2層fat-tree。更大規(guī)??梢圆捎?層fat-tree的組網(wǎng)拓?fù)?。一定?guī)模以上,可以采用Dragonfly+的拓?fù)涔?jié)約一部分成本。
6.QoS
如果多個(gè)不同的應(yīng)用在同一個(gè)子網(wǎng)運(yùn)行,并且其中一些應(yīng)用需要比其他更高的優(yōu)先級,IB網(wǎng)絡(luò)如何提供QoS支持呢?
QoS是一種能力,可以為不同的應(yīng)用,用戶或者數(shù)據(jù)流提供不同的優(yōu)先級服務(wù)。高優(yōu)先級的應(yīng)用可以被映射到不同的端口隊(duì)列,隊(duì)列里的報(bào)文可以被優(yōu)先發(fā)送。
InfiniBand采用虛通道(VL,即Virtual Lanes)方式來實(shí)現(xiàn)QoS。虛通道是一些相互分立的邏輯通信鏈路,它們共享一條物理鏈接,每條物理鏈接可支持多達(dá)15條的標(biāo)準(zhǔn)虛通道和一條管理通道(VL15)。
7.網(wǎng)絡(luò)穩(wěn)定性和彈性
理想情況下,網(wǎng)絡(luò)非常穩(wěn)定,沒有任何故障。但是長期運(yùn)行的網(wǎng)絡(luò)不可避免的會(huì)出現(xiàn)一些故障,InfiniBand如何處理這些失敗,并且快速恢復(fù)的呢?
NVIDIA IB解決方案提供一個(gè)機(jī)制,叫做Self-Healing Networking。自愈網(wǎng)絡(luò)是一個(gè)硬件能力,它基于IB交換機(jī)。自愈網(wǎng)絡(luò)可以讓鏈路故障恢復(fù)的時(shí)間僅僅需要1毫秒,比普通的恢復(fù)時(shí)間快5000x倍。
8.優(yōu)化的負(fù)載均衡
在高性能數(shù)據(jù)中心里面,一個(gè)很重要的需求,是如何提高網(wǎng)絡(luò)的利用率。其中一種方法是使用負(fù)載均衡。
負(fù)載均衡是一種路由策略,它讓流量在多個(gè)可用端口上發(fā)送。
Adaptive Routing就是這樣一個(gè)特性,它可以讓流量在交換機(jī)端口上均勻的分布。AR在交換機(jī)上硬件支持,由Adaptive Routing Manager管理。
當(dāng)AR開啟,交換機(jī)上的Queue Manager會(huì)監(jiān)測所有GROUP EXIT端口的流量,均衡每個(gè)隊(duì)列的負(fù)載,把流量導(dǎo)向利用率低的端口。AR支持動(dòng)態(tài)負(fù)載均衡,避免網(wǎng)絡(luò)擁塞,并最大化網(wǎng)絡(luò)帶寬利用率。
9.網(wǎng)絡(luò)計(jì)算 - SHARP
IB交換機(jī)還支持網(wǎng)絡(luò)計(jì)算的技術(shù),SHARP – Scalable Hierarchical Aggregation and Reduction Protocol.
SHARP是一個(gè)基于交換機(jī)硬件的軟件,并且是一個(gè)集中管理的軟件包。
SHARP可以把原來在CPU和GPU上運(yùn)行的集合通信offload到交換機(jī)上,優(yōu)化集合通信,避免了節(jié)點(diǎn)間的多次數(shù)據(jù)傳輸,減少了需要在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)量。因此,SHARP可以極大的提升加速計(jì)算的性能,基于MPI應(yīng)用,比如AI,機(jī)器學(xué)習(xí)等等。
10.支持多種網(wǎng)絡(luò)拓?fù)?/p>
InfiniBand網(wǎng)絡(luò)可以支持非常多的topo,比如:
Fat Tree
Torus
Dragonfly+
Hypercube
HyperX
支持不同的網(wǎng)絡(luò)topo,從而滿足不同的需求,比如:
易于網(wǎng)絡(luò)擴(kuò)展
降低TCO
最大化阻塞比
最小化延遲
最大化傳輸距離
Infiniband憑借著無與倫比的技術(shù)優(yōu)勢,極大簡化了高性能網(wǎng)絡(luò)架構(gòu),并降低了多級架構(gòu)層次造成的延時(shí),為關(guān)鍵計(jì)算節(jié)點(diǎn)接入帶寬的平滑升級提供有力支撐。InfiniBand 網(wǎng)絡(luò)憑借其極致的性能,不斷創(chuàng)新的技術(shù)架構(gòu),在更低功耗、更少硬件設(shè)備的前提下幫助用戶實(shí)現(xiàn)了業(yè)務(wù)性能的最大化,其進(jìn)入越來越多的使用場景自是大勢所趨。
納多德是NVIDIA網(wǎng)絡(luò)產(chǎn)品的Elite Partner,攜手NVIDIA實(shí)現(xiàn)光連接+網(wǎng)絡(luò)產(chǎn)品與解決方案的強(qiáng)強(qiáng)聯(lián)合,尤其是在InfiniBand高性能網(wǎng)絡(luò)建設(shè)與應(yīng)用加速方面擁有深刻的業(yè)務(wù)理解和豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn),可根據(jù)用戶不同的應(yīng)用場景,提供最優(yōu)的InfiniBand高性能交換機(jī)+智能網(wǎng)卡+AOC/DAC/光模塊產(chǎn)品組合方案,為數(shù)據(jù)中心、高性能計(jì)算、邊緣計(jì)算、人工智能等應(yīng)用場景提供更具優(yōu)勢與價(jià)值的光網(wǎng)絡(luò)產(chǎn)品和整體解決方案,以低成本和出色的性能,大幅提高客戶業(yè)務(wù)加速能力。
審核編輯黃昊宇
-
InfiniBand
+關(guān)注
關(guān)注
1文章
31瀏覽量
9403
發(fā)布評論請先 登錄
四創(chuàng)電子入選2025智慧應(yīng)急十大優(yōu)秀案例
永貴科技榮獲2025中國充換電行業(yè)十大充電槍品牌
兆芯榮獲2024年度十大信創(chuàng)芯片品牌
年度電解槽十大品牌+年度制氫十大供應(yīng)商,穩(wěn)石氫能榮獲兩大獎(jiǎng)項(xiàng)!
華為發(fā)布2025數(shù)據(jù)中心能源十大趨勢
華為發(fā)布2025充電網(wǎng)絡(luò)產(chǎn)業(yè)十大趨勢
安全光柵十大品牌排行榜最新2025年

華為發(fā)布2025智能光伏十大趨勢
敦泰榮獲車載顯示年度十大知名品牌
InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算的關(guān)鍵技術(shù)和應(yīng)用
InfiniBand與以太網(wǎng)的對比分析

“智能網(wǎng)聯(lián)汽車全球十大發(fā)展突破”在京發(fā)布

中國信通院發(fā)布“2024云計(jì)算十大關(guān)鍵詞”

評論