在日新月異的網(wǎng)絡技術領域中,遠程直接內存訪問(RDMA)技術已成為優(yōu)化數(shù)據(jù)傳輸流程、提升整體網(wǎng)絡效能的關鍵驅動力。其中,以太網(wǎng)融合RDMA技術——RoCE(RDMA over Converged Ethernet),其第二代版本RoCE v2憑借顯著的性能提升與更強的靈活性脫穎而出。
什么是RoCE v2技術?
RoCE v2是一種專為實現(xiàn)以太網(wǎng)環(huán)境下低延遲、高吞吐量數(shù)據(jù)傳輸而設計的RDMA協(xié)議。相較于涉及多重處理層次的傳統(tǒng)數(shù)據(jù)傳輸方式,RoCE v2實現(xiàn)了系統(tǒng)間的直接內存訪問機制,最大限度地減少了CPU的參與和降低通信延遲。這一特性賦予了RoCE v2在對數(shù)據(jù)交換速度及效率有著極高要求的應用場景中無可比擬的優(yōu)勢,例如高性能計算(HPC)環(huán)境、數(shù)據(jù)中心以及云計算架構。
RoCE v2是在前一代RoCE v1的基礎上演進而來的,通過引入一系列改進措施有效解決了原有局限性問題,并全面提升了性能表現(xiàn)。該協(xié)議充分利用了融合以太網(wǎng)基礎設施,使得傳統(tǒng)以太網(wǎng)流量與RDMA流量能夠在同一網(wǎng)絡結構中共存共榮。這種創(chuàng)新性的融合設計不僅簡化了網(wǎng)絡管理操作,還消除了搭建獨立RDMA架構的需求,從而極大地增強了RoCE v2的易用性和經(jīng)濟效益。
RoCE網(wǎng)卡
在RoCE v2技術體系中,核心硬件設備之一是RoCE網(wǎng)絡接口卡(簡稱RoCE網(wǎng)卡),這種專門設計的網(wǎng)卡旨在高效支持RDMA操作。作為系統(tǒng)間直接內存訪問的關鍵實現(xiàn)載體,RoCE網(wǎng)卡集成了必要的硬件特性,能夠將CPU從繁重的RDMA任務中解脫出來,從而顯著降低數(shù)據(jù)傳輸延遲,并有力提升整個系統(tǒng)的運行性能。
而構建高性能網(wǎng)絡交換機的核心基礎在于其采用的轉發(fā)芯片技術。值得一提的是,Tomahawk3系列芯片已廣泛應用于各類交換機產品之中,且隨著市場趨勢的發(fā)展,越來越多的交換機開始支持更新一代的Tomahawk4系列芯片。這種向更先進芯片技術的過渡進一步突顯了這些芯片在當前商業(yè)領域中的重要地位,它們被普遍用于高速、大容量的數(shù)據(jù)包轉發(fā)處理。
RoCE v2與InfiniBand技術對比
RoCE v2(基于以太網(wǎng)融合的RDMA第二版)和InfiniBand均為針對數(shù)據(jù)中心及高性能計算環(huán)境設計,旨在提供高速、低延遲通信解決方案的技術。以下從不同層面剖析兩者的關鍵差異。
物理層架構
RoCE v2:依托于現(xiàn)有的以太網(wǎng)基礎設施,允許在同一網(wǎng)絡中整合存儲數(shù)據(jù)流和常規(guī)數(shù)據(jù)流量,因此更易于融入既有的數(shù)據(jù)中心架構。 InfiniBand:采用獨立于以太網(wǎng)之外的專有通訊結構,通常需要專門構建的InfiniBand網(wǎng)絡,并可能涉及獨立的線纜布設和專用交換機設備。
協(xié)議棧與網(wǎng)絡協(xié)議兼容性
RoCE v2:通過以太網(wǎng)實現(xiàn)RDMA(遠程直接內存訪問)功能,其能夠與傳統(tǒng)的TCP/IP協(xié)議棧無縫集成,從而確保了對標準網(wǎng)絡協(xié)議的兼容性。 InfiniBand:配備了一套專為高速、低延遲傳輸優(yōu)化定制的自有協(xié)議棧和網(wǎng)絡架構,使用時可能需要安裝特定的驅動程序和進行相應的配置調整。
交換機制
RoCE v2:能夠在支持數(shù)據(jù)中心橋接(DCB)特性的標準以太網(wǎng)交換機上運行,從而實現(xiàn)無損以太網(wǎng)的數(shù)據(jù)傳輸。 InfiniBand:則依賴于專為追求最低延遲和最高吞吐量而設計的InfiniBand交換機,以保證極致性能表現(xiàn)。
擁塞管理與控制
RoCE v2:
擁塞管理:RoCE v2依賴于以太網(wǎng)交換機所支持的數(shù)據(jù)中心橋接(DCB)特性來有效應對網(wǎng)絡擁塞狀況。通過啟用DCB,RoCE v2能夠創(chuàng)建一個無損以太網(wǎng)環(huán)境,從而避免因擁塞導致的數(shù)據(jù)包丟失問題。
擁塞控制:RoCE v2本身并不具備內置的專門解決方案,而是主要依靠底層以太網(wǎng)基礎設施所提供的功能來管理和緩解擁塞現(xiàn)象。
InfiniBand:
擁塞管理:InfiniBand具備原生的擁塞控制能力。它運用信用流控等機制,確保即使在網(wǎng)絡流量高峰時期也能防止擁塞發(fā)生,保障通信過程中的數(shù)據(jù)完整性。
擁塞控制:InfiniBand還整合了自適應路由和先進的擁塞控制算法,這些算法能夠根據(jù)實時網(wǎng)絡狀況動態(tài)調整數(shù)據(jù)傳輸路徑,從而有效地預防和減輕網(wǎng)絡內的擁塞問題。
路由機制與拓撲結構
RoCE v2:
路由機制:RoCE v2通常采用傳統(tǒng)的以太網(wǎng)路由協(xié)議進行路由決策,如路由信息協(xié)議(RIP)或開放最短路徑優(yōu)先(OSPF)。這意味著RoCE v2網(wǎng)絡中的數(shù)據(jù)傳輸路徑選擇是基于這些成熟的標準路由協(xié)議實現(xiàn)的。
拓撲結構:RoCE v2普遍應用于標準以太網(wǎng)環(huán)境之中,其路由策略的制定和執(zhí)行受到底層以太網(wǎng)基礎設施的制約和影響。這意味著在設計和實施RoCE v2網(wǎng)絡時,需要考慮現(xiàn)有的以太網(wǎng)架構,并根據(jù)該架構的特點來進行路由優(yōu)化。
InfiniBand:
路由機制:InfiniBand具備針對低延遲、高吞吐量通信特別優(yōu)化的路由機制,它能夠支持多路徑設定以實現(xiàn)網(wǎng)絡冗余及負載均衡,確保高效穩(wěn)定的傳輸性能。
拓撲結構:InfiniBand網(wǎng)絡支持豐富的配置方式,包括但不限于胖樹形(Fat Tree)、超立方體以及多路配置等多樣化布局。不同的拓撲結構選擇對路由決策有著直接影響,可根據(jù)實際應用場景和需求靈活構建高度可擴展且適應性強的高性能網(wǎng)絡。
在選擇RoCE v2與InfiniBand這兩種技術時,決策依據(jù)主要源于現(xiàn)有的基礎設施條件、特定應用需求以及實際環(huán)境的具體性能指標。RoCE v2的一大優(yōu)勢在于能夠更加平滑地整合到已有的以太網(wǎng)網(wǎng)絡架構中,這對于希望在不改變現(xiàn)有網(wǎng)絡基礎的前提下提升數(shù)據(jù)通信效率的用戶尤為適用。 相反,對于那些追求極致性能表現(xiàn)和高度可擴展性的高性能計算場景,InfiniBand則因其專為低延遲、高吞吐量設計的特性及內置優(yōu)化的路由與擁塞控制機制而可能成為更優(yōu)的選擇。簡而言之,RoCE v2更適合于充分利用現(xiàn)有資源進行高效升級,而InfiniBand則更傾向于滿足對性能有嚴格要求且不吝嗇投入獨立專用網(wǎng)絡設施的高端應用場景。
UEC推出新型傳輸協(xié)議
在2023年7月19日,超高速以太網(wǎng)聯(lián)盟(UEC)正式宣告成立,集結了AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta和Microsoft等一眾行業(yè)領軍企業(yè)作為創(chuàng)始成員。這些公司在網(wǎng)絡基礎設施構建、人工智能技術開發(fā)、云計算解決方案以及高性能計算部署等領域積累了深厚且長達數(shù)十年的專業(yè)經(jīng)驗。該聯(lián)盟明確指出,盡管遠程直接內存訪問(RDMA)技術自數(shù)十年前確立以來,在數(shù)據(jù)傳輸領域取得了顯著成果,但隨著當前AI與ML應用對網(wǎng)絡流量需求的急劇增長與復雜化,傳統(tǒng)的RDMA已無法充分滿足其嚴苛的標準。尤其當RDMA傾向于采用大塊數(shù)據(jù)傳輸模式時,可能導致鏈路負載不均衡,并加劇網(wǎng)絡負擔過重的問題。 鑒于此,UEC倡導并著手啟動一項旨在研發(fā)集成RDMA特性的現(xiàn)代傳輸協(xié)議計劃,以適應新興應用對高效率、低延遲和更優(yōu)化資源分配的需求,從而推動網(wǎng)絡通信技術實現(xiàn)新的跨越。
總結
RoCE v2在RDMA技術領域扮演著舉足輕重的角色,為追求高性能與低延遲數(shù)據(jù)傳輸?shù)慕M織提供了一種有力的解決方案。通過巧妙融合以太網(wǎng)基礎設施,并結合超高速以太網(wǎng)聯(lián)盟(UEC)所推動的新型傳輸協(xié)議的發(fā)展成果,RoCE v2成功適應了從高性能計算環(huán)境直至云計算等各種復雜應用場景,展現(xiàn)出其靈活且經(jīng)濟高效的特性。 盡管相較于InfiniBand比較中凸顯出RoCE v2的諸多優(yōu)勢,但在選擇最為合適的RDMA技術方案時,各組織仍需充分考慮自身的特殊需求及現(xiàn)有的基礎架構條件。隨著技術持續(xù)演進,RoCE v2及其相關的技術創(chuàng)新將繼續(xù)在塑造未來高性能網(wǎng)絡格局中扮演決定性角色。
審核編輯:黃飛
?
評論