一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RoCE協(xié)議簡介和應用分析

智能計算芯世界 ? 來源:智能計算芯世界 ? 2024-10-23 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在高性能計算(HPC)系統(tǒng)的發(fā)展初期,通常選擇專業(yè)網(wǎng)絡解決方案,如Myrinet、Quadrics和InfiniBand,而不是以太網(wǎng)解決方案。通過定制網(wǎng)絡方案可以有效解決以太網(wǎng)解決方案的限制,增強帶寬、降低延遲、改善擁塞控制。2010年,IBTA推出了RoCE協(xié)議技術(shù)標準,隨后于2014年發(fā)布了RoCEv2協(xié)議技術(shù)標準,大幅提升網(wǎng)絡帶寬。以太網(wǎng)性能的顯著提升引起行業(yè)對與傳統(tǒng)以太網(wǎng)兼容的高性能網(wǎng)絡解決方案的日益關(guān)注。這種轉(zhuǎn)變打破了以太網(wǎng)在排名前500的HPC集群中使用率下降的趨勢,使以太網(wǎng)在排名中保持了重要地位。

盡管Myrinet和Quadrics逐漸退出了應用方案選擇之列,InfiniBand仍然在高性能網(wǎng)絡中占據(jù)著重要的地位。此外Cray、天河和Tofulseries等專用網(wǎng)絡系列也發(fā)揮著重要作用。

b5b63cfe-90ae-11ef-a511-92fbcf53809c.png

RoCE協(xié)議簡介

RoCE協(xié)議是一種集群網(wǎng)絡通信協(xié)議,它實現(xiàn)在以太網(wǎng)上進行遠程直接內(nèi)存訪問(RDMA)。作為TCP/IP協(xié)議的特色功能,該協(xié)議將數(shù)據(jù)包的發(fā)射/接收任務轉(zhuǎn)移到網(wǎng)絡適配器上,改變了系統(tǒng)進入內(nèi)核模式的需求。因此它減少與復制、封裝和解封裝相關(guān)的開銷,很大程度上降低了以太網(wǎng)通信的延遲。此外它在通信過程中充分利用CPU資源,減輕了網(wǎng)絡擁塞,并提高了帶寬的有效利用率。 RoCE協(xié)議包括兩個版本:RoCE v1和RoCE v2。RoCE v1作為鏈路層協(xié)議運行,要求通信雙方在相同的第2層網(wǎng)絡中。相比之下RoCE v2作為網(wǎng)絡層協(xié)議運行,使得RoCE v2協(xié)議數(shù)據(jù)包可以在第3層進行路由,提供了更好的可擴展性。

RoCE V1協(xié)議

RoCE協(xié)議保留了InfiniBand(IB)的接口、傳輸層和網(wǎng)絡層,但將IB的鏈路層和物理層替換為以太網(wǎng)的鏈路層和網(wǎng)絡層。在RoCE數(shù)據(jù)包的鏈路層數(shù)據(jù)幀中,以太網(wǎng)類型字段的值由IEEE指定為0x8915,明確標識其為RoCE數(shù)據(jù)包。然而,由于RoCE協(xié)議沒有采用以太網(wǎng)的網(wǎng)絡層,RoCE數(shù)據(jù)包缺少IP字段。因此對于RoCE數(shù)據(jù)包來說,在網(wǎng)絡層進行路由是不可行的,限制了它們在第2層網(wǎng)絡內(nèi)的傳輸。

b600a7b2-90ae-11ef-a511-92fbcf53809c.png

RoCE V2協(xié)議

RoCE v2協(xié)議在RoCE協(xié)議的基礎(chǔ)上持續(xù)優(yōu)化。RoCEv2通過融合以太網(wǎng)網(wǎng)絡層和使用UDP協(xié)議的傳輸層,改造了RoCE協(xié)議所使用的InfiniBand(IB)網(wǎng)絡層。它利用以太網(wǎng)網(wǎng)絡層中IP數(shù)據(jù)報的DSCP和ECN字段來實現(xiàn)擁塞控制。這使得RoCE v2協(xié)議數(shù)據(jù)包可以進行路由,確保了更好的可擴展性。由于RoCEv2完全取代了原始的RoCE協(xié)議,通常提到RoCE協(xié)議時指的是RoCE v2協(xié)議,除非明確指定為RoCE的第一代協(xié)議。

無丟包網(wǎng)絡和RoCE擁塞控制機制

在基于RoCE協(xié)議網(wǎng)絡中,確保RoCE流量的無縫傳輸至關(guān)重要。在RDMA通信過程中,數(shù)據(jù)包必須無丟失且按正確順序到達目的地。任何數(shù)據(jù)包丟失或亂序到達的情況都需要進行“回退N”的重傳操作,并且預期到達的后續(xù)數(shù)據(jù)包不應存儲在緩存中。

RoCE協(xié)議實現(xiàn)了一個雙重擁塞控制機制:初始階段利用DCQCN進行逐步減速,然后利用PFC進入傳輸暫停階段。盡管嚴格將其劃分為擁塞控制策略和流量控制策略,但通常被認為是擁塞控制的兩個階段。

在網(wǎng)絡中涉及多對一通信的應用場景中,經(jīng)常會出現(xiàn)擁塞問題,表現(xiàn)為交換機端口上待發(fā)送緩沖區(qū)消息總大小的迅速增加。在無控制的情況下,可能導致緩沖區(qū)飽和,從而導致數(shù)據(jù)包丟失。因此在初始階段,當交換機檢測到端口上待發(fā)送緩沖區(qū)消息的總大小達到特定閾值時,它會標記RoCE數(shù)據(jù)包的IP層中的ECN字段。收到這個數(shù)據(jù)包后,如果接收方觀察到交換機標記的ECN字段,它會向發(fā)射方發(fā)送一個擁塞通知數(shù)據(jù)包(CNP),促使發(fā)射方降低發(fā)送速率。

在達到ECN字段閾值時,并不是所有的數(shù)據(jù)包都會被標記。在這個過程中,兩個參數(shù)Kmin和Kmax起著重要作用。當擁塞隊列長度低于Kmin時,不會進行標記。當隊列長度在Kmin和Kmax之間變化時,隨著隊列長度的增加,標記的概率也會增加。如果隊列長度超過Kmax,所有的數(shù)據(jù)包都會被標記。接收方并不會為每個接收到的帶有ECN標記的數(shù)據(jù)包發(fā)送一個CNP數(shù)據(jù)包,而是在每個時間間隔內(nèi)接收到帶有ECN標記的數(shù)據(jù)包后,發(fā)送一個CNP數(shù)據(jù)包。通過這種方式,發(fā)送方可以根據(jù)接收到的CNP數(shù)據(jù)包數(shù)量來調(diào)整發(fā)送速度,從而避免過多的數(shù)據(jù)包被標記和丟失。這種動態(tài)的擁塞控制機制可以提供更有效的流量調(diào)節(jié)和更可靠的數(shù)據(jù)傳輸。

wKgaoWcYa2uANhqNAAB2mNtpweQ469.jpg

在網(wǎng)絡擁塞惡化的情況下,當交換機檢測到特定端口的待發(fā)送隊列長度達到更高的閾值時,交換機會向消息的上游發(fā)送方發(fā)送一個PFC幀。這個操作會導致數(shù)據(jù)傳輸暫停,直到交換機中的擁塞得到緩解。一旦擁塞得到緩解,交換機會向上游發(fā)送方發(fā)送一個PFC控制幀,表示發(fā)送可以恢復。PFC流控支持在不同的流量通道上進行暫停,可以調(diào)整每個通道相對于總帶寬的帶寬比例。這種配置允許在一個通道上暫停流量傳輸,而不影響其他通道上的數(shù)據(jù)傳輸。

ROCE & Soft-RoCE

在高性能以太網(wǎng)網(wǎng)卡領(lǐng)域,雖然現(xiàn)在大多數(shù)采用RoCE協(xié)議,但仍有在特定情況下某些網(wǎng)卡不支持RoCE。為了填補這一空白,IBIV、邁絡思(Mellanox)和其品牌的合作,催生了開源項目Soft-RoCE。這個項目適用于設備不支持RoCE協(xié)議的節(jié)點,使它們能夠與設備RoCE支持的節(jié)點一起使用Soft-RoCE進行通信,如圖所示,盡管可能不會提升前者的性能,但它可以使后者充分發(fā)揮其性能優(yōu)勢。尤其是在數(shù)據(jù)中心等應用場景中,將升級限制在具有RoCE支持的以太網(wǎng)卡的高I/O存儲服務器上,可以顯著提高整體性能和可擴展性。此外RoCE和Soft-RoCE的組合適應了逐步集群升級的需求,避免了同時進行全面升級的必要性。

wKgZoWcYa2uAYXKRAAGRqot53Ko346.jpg

高性能計算(HPC)環(huán)境中實施RoCE時面臨挑戰(zhàn)

高性能計算(HPC)網(wǎng)絡的基本要求

高性能計算(HPC)網(wǎng)絡依賴于兩個基本前提:低延遲和在動態(tài)流量模式下保持低延遲的功能。

對于低延遲,RoCE被設計用于解決這個問題。RoCE可有效地將網(wǎng)絡操作卸載到網(wǎng)卡上,從而實現(xiàn)低延遲和降低CPU利用率。

對于在動態(tài)流量模式下保持低延遲,主要關(guān)注重心轉(zhuǎn)移到了擁塞控制上。高度動態(tài)的HPC流量模式的復雜性對RoCE構(gòu)成了挑戰(zhàn),在這方面導致了性能不佳。

ROCE的低延遲

與傳統(tǒng)的TCP/IP網(wǎng)絡相比,InfiniBand和RoCEv2都繞過內(nèi)核協(xié)議棧,從而很大程度上提高了延遲性能。實證測試表明,繞過內(nèi)核協(xié)議棧可以將同一集群內(nèi)應用層的端到端延遲從 50μs(TCP/IP)降低到5μs(RoCE)甚至2μs(InfiniBand)的水平。

wKgZoWcYa2uAM1BZAABV-_c8rzc073.jpg

RoCE數(shù)據(jù)包結(jié)構(gòu)

假設我們要使用RoCE發(fā)送1字節(jié)的數(shù)據(jù),封裝這個1字節(jié)數(shù)據(jù)包的額外開銷如下:以太網(wǎng)鏈路層:14字節(jié)MAC頭 + 4字節(jié)CRC 以太網(wǎng)IP層:20字節(jié) 以太網(wǎng)UDP層:8字節(jié) IB傳輸層:12字節(jié)基本傳輸報頭(BTH) 總計:58字節(jié) 假設我們要使用IB發(fā)送1字節(jié)的數(shù)據(jù),封裝這個1字節(jié)數(shù)據(jù)包的額外開銷如下:IB鏈路層:8字節(jié)本地路由頭(LHR)+ 6字節(jié)CRC IB網(wǎng)絡層:0字節(jié)(當只有2層網(wǎng)絡時,鏈路層的鏈路下一頭部(LNH)字段可以表示該數(shù)據(jù)包沒有網(wǎng)絡層) IB傳輸層:12字節(jié)基本傳輸報頭(BTH) 總計:26字節(jié)

如果是自定義網(wǎng)絡,數(shù)據(jù)包結(jié)構(gòu)可以進一步簡化。例如,天河-1A的迷你數(shù)據(jù)包(MP)頭部由8字節(jié)組成。

由此可見,以太網(wǎng)底層結(jié)構(gòu)的復雜性是將RoCE應用于HPC的障礙之一。

數(shù)據(jù)中心的以太網(wǎng)交換機通常需要具備如SDN、QoS等其他功能,這些功能的實現(xiàn)需要額外的成本。

關(guān)于這些以太網(wǎng)功能,以太網(wǎng)和RoCE是否與這些功能兼容?同時這些功能是否會影響RoCE的性能?

RoCE擁塞控制面臨的挑戰(zhàn)

RoCE協(xié)議的兩個方面中的擁塞控制機制都面臨著特定的挑戰(zhàn),這些挑戰(zhàn)可能會妨礙在動態(tài)流量模式下保持低延遲。

優(yōu)先級流量控制(PFC)依賴于暫停控制幀來防止接收過多的數(shù)據(jù)包,這種策略容易導致數(shù)據(jù)包丟失。與基于信用的方法不同,PFC往往導致較低的緩沖區(qū)利用率,對于具有有限緩沖區(qū)的交換機來說尤為具有挑戰(zhàn)性,通常與較低的延遲相關(guān)。相反,基于信用的方法提供了更精確的緩沖區(qū)管理。

RoCE中的數(shù)據(jù)中心量化擁塞通知(DCQCN),類似于InfiniBand的擁塞控制,采用了反向通知的方式,將擁塞信息傳遞給目的地,然后返回給發(fā)射方進行速率限制。RoCE遵循一組固定的減速和加速策略公式,而InfiniBand允許自定義策略,提供更大的靈活性。雖然通常使用默認配置,但有自定義選項是更適用。測試中最多每N=50μs生成一個擁塞通知包(CNP),將這個值降低的可行性尚不確定。在InfiniBand中,CCTI_Timer的最低設置可以達到1.024μs,但實際實現(xiàn)這樣小的值尚未確定。

從擁塞點直接將擁塞信息返回給源端,這被稱為前向通知。雖然可以根據(jù)以太網(wǎng)規(guī)范了解其限制,但關(guān)于InfiniBand未采用這種方法的具體原因,仍存在疑問。

RoCE在高性能計算(HPC)中的應用

美國最新的超級計算機采用Slingshot網(wǎng)絡,這是一種增強版的以太網(wǎng)。該網(wǎng)絡利用與傳統(tǒng)以太網(wǎng)兼容的Rosetta交換機,解決了RoCE的特定限制。當鏈路的兩端支持專用設備(如網(wǎng)卡和Rosetta交換機)時,可以實現(xiàn)網(wǎng)絡增強。這些功能包括將IP數(shù)據(jù)包幀大小最小化為32字節(jié),與相鄰交換機共享隊列占用信息,并實施改進的擁塞控制。雖然平均交換機延遲為350ns,相當于高性能以太網(wǎng)交換機,但低于InfiniBand(IB)和一些專用超級計算機的交換機實現(xiàn)的延遲,如的Cray XC超級計算機交換機。

在實際應用中,Slingshot網(wǎng)絡表現(xiàn)出可靠的性能?!禨lingshot互連的深入分析》一文中主要將其與之前的Cray超級計算機進行了比較,而沒有與InfiniBand進行直接比較。

此外CESM和GROMACS應用程序通過使用低延遲的25G以太網(wǎng)和帶寬更高的100G以太網(wǎng)進行測試。盡管這兩種網(wǎng)絡之間的帶寬差異達到了四倍,但測試結(jié)果為它們的性能進行了有價值的比較。

wKgZoWcYa2uAaU4aAAIlNNJH31w481.jpg

結(jié)論

憑借專業(yè)的技術(shù)團隊,飛速(FS)在各種應用場景中贏得了客戶的信賴。然而飛速(FS)在高性能計算(HPC)的RoCE技術(shù)應用中存在一定的挑戰(zhàn):

與InfiniBand交換機和某些定制的高性能計算網(wǎng)絡交換機相比,以太網(wǎng)交換機的延遲較高。

RoCE的流量控制和擁塞控制策略還有優(yōu)化的空間。

以太網(wǎng)交換機的成本仍然相對較高。

隨著人工智能數(shù)據(jù)中心網(wǎng)絡的高速發(fā)展,選擇合適的解決方案至關(guān)重要。傳統(tǒng)的TCP/IP協(xié)議已不再適用于對高網(wǎng)絡性能要求較高的人工智能應用。RDMA技術(shù),特別是InfiniBand和RoCE應用,已成為備受推崇的網(wǎng)絡解決方案。InfiniBand在高性能計算和大規(guī)模GPU集群等領(lǐng)域展示出了卓越的性能。相比之下,作為基于以太網(wǎng)的RDMA技術(shù),RoCE提供了增強的部署靈活性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    41

    文章

    5635

    瀏覽量

    175938
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    333

    瀏覽量

    24331
  • 網(wǎng)絡帶寬
    +關(guān)注

    關(guān)注

    0

    文章

    42

    瀏覽量

    8555
  • 高性能計算
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    13656

原文標題:淺析RoCE在高性能計算的應用

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RoCE與IB對比分析(一):協(xié)議棧層級篇

    在 AI 算力建設中, RDMA 技術(shù)是支持高吞吐、低延遲網(wǎng)絡通信的關(guān)鍵。目前,RDMA技術(shù)主要通過兩種方案實現(xiàn):Infiniband和RoCE(基于RDMA的以太網(wǎng)技術(shù),以下簡稱為RoCE)。
    的頭像 發(fā)表于 11-15 13:58 ?2184次閱讀
    <b class='flag-5'>RoCE</b>與IB對比<b class='flag-5'>分析</b>(一):<b class='flag-5'>協(xié)議</b>棧層級篇

    RDMA簡介3之四種子協(xié)議對比

    RDMA協(xié)議共有四種子協(xié)議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協(xié)議。這四種
    發(fā)表于 06-04 16:05

    RDMA簡介5之RoCE V2隊列分析

    RoCE v2協(xié)議中,RoCE v2隊列是數(shù)據(jù)傳輸?shù)淖畹讓涌刂茩C制,其由工作隊列(WQ)和完成隊列(CQ)共同組成。其中工作隊列采用雙向通道設計,包含用于存儲即將發(fā)送數(shù)據(jù)的發(fā)送隊列(SQ)和用于
    發(fā)表于 06-05 17:28

    RDMA over RoCE V2設計2:ip 整體框架設計考慮

    設計IP需要考慮如下因素: 1)基于 IBTA 1.5 協(xié)議規(guī)范,支持 RoCE v2 標準協(xié)議傳輸,同時支持 ARP協(xié)議和 ICMP 協(xié)議
    發(fā)表于 07-16 08:51

    CAN協(xié)議特點簡介

    (1)電平特性(2)5種-幀類型STM32xxx CAN控制器(1)STM32F4 的 bxCAN 的主要特點有:(2)過濾器作用 詳細分析CAN協(xié)議 簡介CAN (Controller Area Network )是 ISO
    發(fā)表于 08-19 06:02

    STM32的IIC協(xié)議簡介

    文章目錄(一)IIC協(xié)議簡介(二)物理層和協(xié)議簡介(三)IIC物理層:3.1、物理層的特點(四)IIC協(xié)議層:4.1、IIC基本的讀寫過程
    發(fā)表于 01-05 06:13

    TCP/IP協(xié)議簡介

    TCP/IP協(xié)議簡介 TCP/IP傳輸層協(xié)議概攬 傳輸控制協(xié)議 TCP 是一
    發(fā)表于 06-09 23:07 ?1564次閱讀
    TCP/IP<b class='flag-5'>協(xié)議</b><b class='flag-5'>簡介</b>

    網(wǎng)卡啟動版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)卡啟動版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊.pdf》資料免費下載
    發(fā)表于 07-27 15:20 ?0次下載
    網(wǎng)卡啟動版本10.2iSCSI <b class='flag-5'>RoCE</b> FCoE<b class='flag-5'>協(xié)議</b>用戶手冊

    Linux RoCE發(fā)行說明

    電子發(fā)燒友網(wǎng)站提供《Linux RoCE發(fā)行說明.pdf》資料免費下載
    發(fā)表于 07-28 11:46 ?1次下載
    Linux <b class='flag-5'>RoCE</b>發(fā)行說明

    引導版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊

    電子發(fā)燒友網(wǎng)站提供《引導版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊.pdf》資料免費下載
    發(fā)表于 07-28 09:42 ?0次下載
    引導版本10.3適用于網(wǎng)卡、iSCSI、FCoE和<b class='flag-5'>RoCE</b><b class='flag-5'>協(xié)議</b>用戶手冊

    RoCE Linux版本說明

    電子發(fā)燒友網(wǎng)站提供《RoCE Linux版本說明.pdf》資料免費下載
    發(fā)表于 07-31 10:53 ?0次下載
    <b class='flag-5'>RoCE</b> Linux版本說明

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊 引導版本10.4

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊 引導版本10.4.pdf》資料免費下載
    發(fā)表于 08-04 09:25 ?0次下載
    適用于網(wǎng)卡、iSCSI、FCoE和<b class='flag-5'>RoCE</b><b class='flag-5'>協(xié)議</b>用戶手冊 引導版本10.4

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導版本10.6

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導版本10.6.pdf》資料免費下載
    發(fā)表于 08-23 15:27 ?0次下載
    適用于網(wǎng)卡、iSCSI、FCoE和<b class='flag-5'>RoCE</b><b class='flag-5'>協(xié)議</b> 引導版本10.6

    深度解讀RoCE v2的核心技術(shù)原理

    RoCE v2是一種專為實現(xiàn)以太網(wǎng)環(huán)境下低延遲、高吞吐量數(shù)據(jù)傳輸而設計的RDMA協(xié)議。相較于涉及多重處理層次的傳統(tǒng)數(shù)據(jù)傳輸方式,RoCE v2實現(xiàn)了系統(tǒng)間的直接內(nèi)存訪問機制,最大限度地減少了CPU的參與和降低通信延遲。
    發(fā)表于 04-29 10:32 ?6488次閱讀
    深度解讀<b class='flag-5'>RoCE</b> v2的核心技術(shù)原理

    RoCE與IB對比分析(二):功能應用篇

    在上一篇中,我們對RoCE、IB的協(xié)議棧層級進行了詳細的對比分析,二者本質(zhì)沒有不同,但基于實際應用的考量,RoCE在開放性、成本方面更勝一籌。本文我們將繼續(xù)
    的頭像 發(fā)表于 11-15 14:03 ?1279次閱讀
    <b class='flag-5'>RoCE</b>與IB對比<b class='flag-5'>分析</b>(二):功能應用篇