據(jù)Hyperion Research 公司按照系統(tǒng)驗收的時間估算,2021至2026年期間,全球?qū)⒔ǔ?8~38臺E級或接近 E 級的超級計算機(jī)。
在原先傳統(tǒng)數(shù)據(jù)中心內(nèi),計算存儲性能未提升前,端到端的時延主要在端側(cè),即計算和存儲所消耗的時延占比較大,而當(dāng)計算存儲器件性能大幅提升后,網(wǎng)絡(luò)成為了數(shù)據(jù)中心內(nèi)端到端的性能瓶頸。下圖顯示了計算存儲性能提升前后,端到端時延的占比變化。
01RDMA 技術(shù)實現(xiàn)業(yè)務(wù)加速
但制式種類繁多
存儲和計算性能提升后,數(shù)據(jù)中心內(nèi)二者的訪問時延已經(jīng)從 10ms優(yōu)化達(dá)到了 20us 的水平量級,相比原來有了近千倍的提升。而此時,如若仍舊采用基于 TCP 協(xié)議的網(wǎng)絡(luò)傳輸機(jī)制,由于 TCP 的丟包重傳機(jī)制,其網(wǎng)絡(luò)時延仍舊維持在 ms 級水平,無法滿足高性能計算存儲對于時延的要求。此時,RDMA 技術(shù)的出現(xiàn),為網(wǎng)絡(luò)性能的提升提供了新的技術(shù)思路。
RDMA 是一種概念,在兩個或者多個計算機(jī)進(jìn)行通訊的時候使用 DMA, 從一個主機(jī)的內(nèi)存直接訪問另一個主機(jī)的內(nèi)存。傳統(tǒng)的 TCP/IP 技術(shù)在數(shù)據(jù)包處理過程中,要經(jīng)過操作系統(tǒng)及其他軟件層,需要占用大量的服務(wù)器資源和內(nèi)存總線帶寬,數(shù)據(jù)在系統(tǒng)內(nèi)存、處理器緩存和網(wǎng)絡(luò)控制器緩存之間來回進(jìn)行復(fù)制移動,給服務(wù)器的 CPU 和內(nèi)存造成了沉重負(fù)擔(dān)。尤其是網(wǎng)絡(luò)帶寬、處理器速度與內(nèi)存帶寬三者的嚴(yán)重“不匹配性”,更加劇了網(wǎng)絡(luò)延遲效應(yīng)。
RDMA 是一種新的直接內(nèi)存訪問技術(shù),RDMA 讓計算機(jī)可以直接存取其他計算機(jī)的內(nèi)存,而不需要經(jīng)過處理器的處理。RDMA 將數(shù)據(jù)從一個系統(tǒng)快速移動到遠(yuǎn)程系統(tǒng)的內(nèi)存中,而不對操作系統(tǒng)造成任何影響。
在實現(xiàn)上,RDMA 實際上是一種智能網(wǎng)卡與軟件架構(gòu)充分優(yōu)化的遠(yuǎn)端內(nèi)存直接高速訪問技術(shù),通過將 RDMA 協(xié)議固化于硬件(即網(wǎng)卡)上,以及支持 Zero-copy和 Kernel bypass 這兩種途徑來達(dá)到其高性能的遠(yuǎn)程直接數(shù)據(jù)存取的目標(biāo)。下圖為 RDMA 工作的原理圖,其通信過程使得用戶在使用 RDMA 時具備如下優(yōu)勢:
?零拷貝(Zero-copy) - 應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。
?內(nèi)核旁路(Kernel bypass) - 應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。
?不需要 CPU 干預(yù)(No CPU involvement) - 應(yīng)用程序可以訪問遠(yuǎn)程主機(jī)內(nèi)存而不消耗遠(yuǎn)程主機(jī)中的任何 CPU。遠(yuǎn)程主機(jī)內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機(jī)上的進(jìn)程(或 CPU)參與。遠(yuǎn)程主機(jī)的 CPU 的緩存(cache)不會被訪問的內(nèi)存內(nèi)容所填充。
?消息基于事務(wù)(Message based transactions) - 數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求。
?支持分散/聚合條目(Scatter/gather entries support) - RDMA 原生態(tài)支持分散/聚合。也就是說,讀取多個內(nèi)存緩沖區(qū)然后作為一個流發(fā)出去或者接收一個流然后寫入到多個內(nèi)存緩沖區(qū)里去。
目前,RDMA 技術(shù)在超算、AI 訓(xùn)練、存儲等多個高性能場景大量部署,已形成廣泛應(yīng)用。但是 RDMA 技術(shù)路線也有很多,用戶及各家廠商對于 RDMA 技術(shù)路線的選擇也不盡相同。
在三種主流的 RDMA 技術(shù)中,可以劃分為兩大陣營。一個是 IB 技術(shù), 另一個是支持 RDMA 的以太網(wǎng)技術(shù)(RoCE 和 iWARP)。其中,IBTA 主要聚焦 IB 和 RoCE 技術(shù),而 iWARP 則是在 IEEE/IETF 標(biāo)準(zhǔn)化的技術(shù)。在存儲領(lǐng)域,支持 RDMA 的技術(shù)早就存在,比如SRP(SCSI RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。如今興起的 NVMe over Fabrics 如果使用的不是 FC 網(wǎng)絡(luò)的話,本質(zhì)上就是 NVMe over RDMA。換句話說,NVMe over InfiniBand, NVMe over RoCE 和 NVMe over iWARP 都是 NVMe over RDMA。
02RoCE 成為主流
但仍難以滿足業(yè)務(wù)需求
以太網(wǎng)自面世以來,其生態(tài)開放多元、速率高速增長、成本優(yōu)勢明顯,因此業(yè)界應(yīng)用十分廣泛。在 RDMA 的多種技術(shù)路線中,RoCE 技術(shù)的應(yīng)用最為廣泛。在全球著名高性能計算榜單 Top500 中,以太互聯(lián)技術(shù)占比超過一半。
然而受限于傳統(tǒng)以太網(wǎng)絡(luò)的性能瓶頸,一般的 RoCE 應(yīng)用在高性能業(yè)務(wù)中,仍然存在擁塞丟包、延遲抖動等性能損失,難以滿足高性能計算和存儲的需求。
在高性能存儲集群中,F(xiàn)C 網(wǎng)絡(luò)具備連接保持技術(shù),網(wǎng)絡(luò)升級&進(jìn)程故障業(yè)務(wù)不感知,同時 FC 協(xié)議長幀頭具備傳輸功能保障,協(xié)議開銷小,網(wǎng)絡(luò)無丟包,數(shù)據(jù)幀按序傳送,網(wǎng)絡(luò)可靠、時延低。相比 FC,傳統(tǒng)以太網(wǎng)容易出現(xiàn)擁塞丟包現(xiàn)象,丟包重傳容易產(chǎn)生數(shù)據(jù)亂序,網(wǎng)絡(luò)抖動較大,并且以太網(wǎng)采用的存儲轉(zhuǎn)發(fā)模式,查找流程較為復(fù)雜導(dǎo)致轉(zhuǎn)發(fā)時延較高,多打一場景會導(dǎo)致隊列積壓加劇,隊列時延不可忽視。在 HPC 應(yīng)用中,傳統(tǒng)以太消息封裝能力較弱,查表流程復(fù)雜導(dǎo)致轉(zhuǎn)發(fā)時延較高,網(wǎng)絡(luò)的傳輸損失會造成處理器空閑等待數(shù)據(jù),進(jìn)而拖累整體并行計算性能,根據(jù) 2017 年 ODCC 組織的測試結(jié)果,傳統(tǒng)以太和專網(wǎng)相比,在超算集群應(yīng)用下,性能最高相差 30%。
03總線級數(shù)據(jù)中心網(wǎng)絡(luò)
DCN全以太超融合發(fā)展
高性能計算在金融、證券、教育、工業(yè)、航天、氣象等行業(yè)廣泛應(yīng)用,而時延是關(guān)鍵性能指標(biāo)之一。由于以太網(wǎng)丟包、傳輸轉(zhuǎn)發(fā)機(jī)制等諸多原因,基于傳統(tǒng)以太的數(shù)據(jù)中心網(wǎng)絡(luò)時延大多處于毫秒級水平,無法支撐高性能計算業(yè)務(wù)。要使得 DC as a Computer 成為可能,數(shù)據(jù)中心網(wǎng)絡(luò)時延需要向總線級看齊。
04總線級數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi)涵
傳統(tǒng)以太時延較高,無法滿足以高性能計算的性能要求。更為嚴(yán)峻的是,當(dāng)前我國高性能存儲和高性能計算所采用的高端網(wǎng)絡(luò)互聯(lián)設(shè)備,均被國外廠商壟斷,價格昂貴、專網(wǎng)設(shè)備互通性差,并存在關(guān)鍵供貨被卡脖子的風(fēng)險。
由于以太網(wǎng)的丟包、傳輸、轉(zhuǎn)發(fā)等諸多原因,傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)時延大多處于 ms 級水平,無法支撐高性能計算業(yè)務(wù)。隨著高性能業(yè)務(wù)的飛速發(fā)展,計算設(shè)備已由原先以 CPU 為代表的通用器件,轉(zhuǎn)而發(fā)展為以 GPU 為主的高性能器件,器件的性能大幅提升,這對以太網(wǎng)絡(luò)的性能提出了更高的要求。網(wǎng)絡(luò)時延由四部分組成:
動態(tài)時延:主要由排隊時延產(chǎn)生,受端口擁塞影響;
靜態(tài)時延:主要包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)(查表)時延和轉(zhuǎn)發(fā)接口時延,一般為固定值,當(dāng)前以太交換靜態(tài)時延遠(yuǎn)高于超算專網(wǎng);
網(wǎng)絡(luò)跳數(shù):指消息在網(wǎng)絡(luò)中所經(jīng)歷的設(shè)備數(shù);
入網(wǎng)次數(shù):指消息進(jìn)入網(wǎng)絡(luò)的次數(shù)??偩€級數(shù)據(jù)中心網(wǎng)絡(luò)在動態(tài)時延、靜態(tài)時延、網(wǎng)絡(luò)跳數(shù)以及入網(wǎng)次數(shù)幾個方面均作出了系統(tǒng)性的優(yōu)化,大幅優(yōu)化了網(wǎng)絡(luò)性能,已滿足高性能計算場景的實際訴求。
05極低靜態(tài)轉(zhuǎn)發(fā)時延技術(shù),
轉(zhuǎn)發(fā)時延從us降至百ns
傳統(tǒng)的以太交換機(jī)在轉(zhuǎn)發(fā)層面,因需要考慮兼容性、支持眾多協(xié)議,導(dǎo)致轉(zhuǎn)發(fā)流程復(fù)雜,轉(zhuǎn)發(fā)時延較大。與此同時,以太查表算法復(fù)雜、查表時延大,導(dǎo)致整體轉(zhuǎn)發(fā)處理時延長。目前業(yè)界主流商用以太交換機(jī)的靜態(tài)轉(zhuǎn)發(fā)時延大約在600ns-1us 左右。面向大數(shù)據(jù)存儲和高性能計算業(yè)務(wù),若要以太網(wǎng)做到低時延,必須優(yōu)化轉(zhuǎn)發(fā)流程,降低數(shù)據(jù)轉(zhuǎn)發(fā)時延。
總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)提出了一種極簡低時延以太轉(zhuǎn)發(fā)機(jī)制,利用虛擬短地址,實現(xiàn)了快速線性表轉(zhuǎn)發(fā)?;谔摂M地址路由轉(zhuǎn)發(fā)技術(shù),解決了傳統(tǒng)二層環(huán)路和鏈路利用率的問題,同時保證了規(guī)模部署和擴(kuò)展靈活性。
根據(jù)應(yīng)用實測,目前低時延機(jī)制轉(zhuǎn)發(fā)機(jī)制能實現(xiàn) 30ns 以太芯片報文處理,實現(xiàn) 100ns 左右端到端單跳轉(zhuǎn)發(fā)靜態(tài)時延。該時延相比于業(yè)界主流歐美廠商的以太芯片轉(zhuǎn)發(fā)時延,提升了 6-10 倍。
06Bufferless 無阻塞流控技術(shù),
亞us級動態(tài)時延
網(wǎng)絡(luò)擁塞會引起數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊甚至導(dǎo)致隊列溢出而丟棄,是導(dǎo)致網(wǎng)絡(luò)高動態(tài)時延的主要原因。
總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)創(chuàng)新提出了收發(fā)混合驅(qū)動的網(wǎng)絡(luò)擁塞控制機(jī)制。數(shù)據(jù)報文分為無調(diào)度(Unscheduled)和有調(diào)度(Scheduled)兩類:無調(diào)度報文在端口級有限窗口控制下直接發(fā)送,快速啟動,保證高吞吐;有調(diào)度報文由接收端分配令牌報文(Token)后繼續(xù)發(fā)送,限制流量注入,提供(近似)零隊列,支撐更大的網(wǎng)絡(luò)規(guī)模。對兩類報文進(jìn)行協(xié)同調(diào)度,進(jìn)一步保證高吞吐低隊列。收發(fā)混合驅(qū)動的網(wǎng)絡(luò)擁塞控制機(jī)制實現(xiàn)了數(shù)據(jù)中心網(wǎng)絡(luò)高吞吐和近似零隊列,支撐大規(guī)模網(wǎng)絡(luò)動態(tài)實時無阻塞。
最大吞吐保證:僅優(yōu)先發(fā)送部分報文,同樣提供最大吞吐保證。
極低平均隊列時延:通過接收端調(diào)度,嚴(yán)格控制網(wǎng)絡(luò)注入流量,保證接近于0的平均隊列時延。
極低最大隊列時延:對于不由接收端調(diào)度的報文,通過窗口限制注入流量,不會出現(xiàn)大幅震蕩,保證最大隊列時延極低。
07DCI 長距無損技術(shù)動態(tài)時延,
100KM內(nèi)長距無損
在高性能存儲業(yè)務(wù)使用環(huán)境中,數(shù)據(jù)中心交換機(jī)之間涉及到遠(yuǎn)端設(shè)備之間的擁塞問題。傳統(tǒng)的鏈路層流控技術(shù)采用粗暴的“停等”機(jī)制,當(dāng)下游設(shè)備發(fā)現(xiàn)接收能力小于上游設(shè)備的發(fā)送能力時,會主動發(fā) Pause 幀給上游設(shè)備,要求暫停流量的發(fā)送。若采用傳統(tǒng)的流控機(jī)制,數(shù)據(jù)中心網(wǎng)絡(luò)遠(yuǎn)端設(shè)備之間的流控會導(dǎo)致極高時延,以 100km 舉例,100Gbps 傳輸速率為例,基于傳統(tǒng)的 PFC 機(jī)制的設(shè)備間流控機(jī)制會產(chǎn)生將近 2ms 的時延,無法滿足高性能應(yīng)用的性能要求。
針對這個問題,總線級數(shù)據(jù)中心網(wǎng)絡(luò)提出了“點剎”式長距互聯(lián)的流控機(jī)制。采用細(xì)粒度的周期性掃描方式進(jìn)行流控;每個周期檢測入口 buffer 的變化速率,通過創(chuàng)新算法計算要求上游停止發(fā)送時間;構(gòu)造反壓幀,發(fā)送給上游設(shè)備,包含了要求上游停止發(fā)送的時間。
08網(wǎng)絡(luò)新拓?fù)浼軜?gòu)路由技術(shù),
大規(guī)模組網(wǎng)實現(xiàn)跳數(shù)下降20%
針對高性能計算場景,數(shù)據(jù)中心的流量特征關(guān)注靜態(tài)時延,需要支持超大規(guī)模,傳統(tǒng)的 CLOS 架構(gòu)作為主流的網(wǎng)絡(luò)架構(gòu),其主要關(guān)注通用性,但是犧牲了時延和性價比。業(yè)界針對該問題開展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計。
當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)設(shè)計大多基于工程經(jīng)驗,不同搭建方式之間難以選擇,缺乏理論指導(dǎo),缺乏統(tǒng)一性設(shè)計語言。另外網(wǎng)絡(luò)拓?fù)湫阅苤笜?biāo)繁多,不同指標(biāo)之間相互制約,指標(biāo)失衡很難避免。
09網(wǎng)算一體技術(shù),
減少入網(wǎng)次數(shù)提升通信效率
隨著分布式集群規(guī)模的增大,以及單節(jié)點算力的增長,分布式集群系統(tǒng)已經(jīng)逐漸從計算約束轉(zhuǎn)換為網(wǎng)絡(luò)通信約束。一方面,在過去 5 年,GPU 算力增長了近90 倍,而網(wǎng)絡(luò)帶寬僅增長了 10 倍;另一方面,當(dāng)前的集群系統(tǒng)中,當(dāng) GPU 集群達(dá)到一定規(guī)模以后,即使增加計算節(jié)點數(shù),但由于分布式集群節(jié)點之間通信代價的增加,仍可能導(dǎo)致集群每秒訓(xùn)練的圖片數(shù)量不增反減。
10總結(jié)與展望
數(shù)據(jù)中心集合了極其豐富的軟硬件資源,從芯片到服務(wù)器,從存儲設(shè)備到網(wǎng)絡(luò)設(shè)施,從平臺軟件到應(yīng)用軟件,不一而足。要構(gòu)建強(qiáng)大算力,各類資源需要高度協(xié)同,深度融合。超融合正在成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的內(nèi)涵與精髓,政府、金融、運營商、互聯(lián)網(wǎng)等行業(yè)存在巨大的融合需求。
可以預(yù)見,未來超融合數(shù)據(jù)中心網(wǎng)絡(luò)與垂直行業(yè)的結(jié)合將會更加緊密。在這個長期的探索過程中,超融合數(shù)據(jù)中心網(wǎng)絡(luò)邁出了堅實的一步。基于總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)的超融合數(shù)據(jù)中心打破了異構(gòu)協(xié)議間的屏障,提升數(shù)據(jù)跨資源的流通和處理效率,提高算力能效比。在全國一體化大數(shù)據(jù)中心建設(shè)的今天,必將為數(shù)據(jù)中心新基建的發(fā)展提供網(wǎng)絡(luò)性能的堅實保障。
審核編輯 :李倩
-
總線
+關(guān)注
關(guān)注
10文章
2959瀏覽量
89718 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5218瀏覽量
73479 -
RDMA
+關(guān)注
關(guān)注
0文章
83瀏覽量
9285
原文標(biāo)題:總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
數(shù)據(jù)中心和通信網(wǎng)絡(luò)有什么區(qū)別

小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
數(shù)據(jù)中心液冷技術(shù)和風(fēng)冷技術(shù)的比較

華為榮獲數(shù)據(jù)中心自智網(wǎng)絡(luò)基礎(chǔ)能力解決方案檢測證書
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)
華為攜手中控技術(shù)打造全國數(shù)據(jù)中心網(wǎng)絡(luò)創(chuàng)新示范項目
華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
NIDA發(fā)布《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》
Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

諾基亞擴(kuò)展與微軟Azure的數(shù)據(jù)中心網(wǎng)絡(luò)供應(yīng)協(xié)議
當(dāng)今數(shù)據(jù)中心新技術(shù)趨勢
簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

評論