設(shè)計(jì)目標(biāo):
RDMA技術(shù)采用無(wú)感傳輸機(jī)制,消除傳統(tǒng)網(wǎng)絡(luò)傳輸中需要CPU介入下的多重?cái)?shù)據(jù)復(fù)制與內(nèi)核參與環(huán)節(jié),實(shí)現(xiàn)直接跨主機(jī)內(nèi)存訪問(wèn)的機(jī)制。其設(shè)計(jì)目標(biāo)為優(yōu)化分布式環(huán)境下的數(shù)據(jù)傳輸效率,降低CPU負(fù)載。
RoCEv2基于標(biāo)準(zhǔn)網(wǎng)絡(luò)的以太網(wǎng)、網(wǎng)絡(luò)層和傳輸層(UDP)協(xié)議,這可以使得RoCEv2的網(wǎng)絡(luò)流量可以經(jīng)過(guò)傳統(tǒng)的網(wǎng)絡(luò)路由器路由。之前RDMA簡(jiǎn)介1~8有對(duì)相關(guān)資料介紹,這里強(qiáng)調(diào)的是:它是目前性價(jià)比最高的RDMA實(shí)現(xiàn)方式,雖然IB模式在一些高校應(yīng)用較多,但因?yàn)樗膶S刑匦裕瑑r(jià)格較貴,難廣泛用于產(chǎn)品中。
設(shè)計(jì)思考
基于PC-PC或GPU-GPU之間RDMA設(shè)計(jì)已有較多廠商投入,雖然有的大廠投入幾年后折羽而歸,但不影響PC領(lǐng)域成熟應(yīng)用產(chǎn)品的推廣。這里主要討論在FPGA上設(shè)計(jì)RDMA over RoCE V2,雖然已有xilinx的ernic應(yīng)用,但是性價(jià)比以及國(guó)產(chǎn)化需求還是有其發(fā)展空間。這里討論設(shè)計(jì)需要著重考慮地方:
1)通用性
一般項(xiàng)目中的數(shù)據(jù)采集前端基于 FPGA 進(jìn)行開(kāi)發(fā)。第一,各數(shù)據(jù)采集前端使用的 FPGA型號(hào)各不相同,需要實(shí)現(xiàn)的設(shè)計(jì)能夠工作在多種不同型號(hào) FPGA 上;第二,為了降低設(shè)計(jì)部署成本,需要實(shí)現(xiàn)的設(shè)計(jì)能夠在脫離 CPU 控制下獨(dú)立運(yùn)行和控制傳輸;第三,一些廠商不愿意采用私有化協(xié)議,主要是考慮其被迫被捆綁,私有協(xié)議也就意味著難以與其他系統(tǒng)兼容,一旦存在功能或性能設(shè)計(jì)不足,只能前功盡棄??紤]到以上三點(diǎn)需求,設(shè)計(jì)時(shí)建議采用純邏輯電路實(shí)現(xiàn)。
2)高性能
數(shù)據(jù)采集前端得到的數(shù)據(jù),數(shù)據(jù)塊大小不固定、數(shù)據(jù)速率也不盡相同。同時(shí)對(duì)于數(shù)據(jù)傳輸?shù)男枨笠膊⒉幌嗤?,存在一?duì)一、一對(duì)多、多對(duì)多等多種傳輸情況。面對(duì)大量離散數(shù)據(jù)時(shí),需要增加 RDMA 隊(duì)列數(shù)量及深度,同時(shí)靈活調(diào)整數(shù)據(jù)包大小來(lái)保證傳輸性能,而面對(duì)大量連續(xù)數(shù)據(jù)請(qǐng)求時(shí),則可通過(guò)減少隊(duì)列數(shù)量的方式來(lái)降低功耗。
同時(shí),在面對(duì)一對(duì)多或多對(duì)多傳輸需求時(shí),則要求設(shè)計(jì)能夠正確地處理網(wǎng)絡(luò)擁塞情況并正確地進(jìn)行流量控制。因此,需要實(shí)現(xiàn)完備的隊(duì)列管理及擁塞處理功能,在滿足性能要求的同時(shí)適應(yīng)不同的應(yīng)用環(huán)境。具體要求為使用 QSFP28 及以上光纖接口,在傳輸不小于 256 MB 的連續(xù)數(shù)據(jù)時(shí),數(shù)據(jù)傳輸速率不小于 90 Gbps。在傳輸包大小為 4KB 時(shí),延遲不高于 10 μs、包吞吐量不小于 1000 kpps。這里也只是簡(jiǎn)要指標(biāo)分析,上面這些指標(biāo)在PC-FPGA之間實(shí)現(xiàn)較容易,在FPGA-FPGA之間還是有一些挑戰(zhàn)。這也反映競(jìng)爭(zhēng)環(huán)境下適者生存,最后生存的不大可能是大多數(shù)。雖然我們?cè)O(shè)計(jì)的IP性能(包括我們A, FPGA-FPGA)早已超越這些指標(biāo),相信其他廠家也能滿足。
3)易集成、用戶操作簡(jiǎn)便
實(shí)現(xiàn)的 RDMA 協(xié)議棧和控制邏輯,應(yīng)能夠簡(jiǎn)易地集成到應(yīng)用生產(chǎn)環(huán)境中,并提供簡(jiǎn)易的用戶操作方式來(lái)實(shí)現(xiàn)數(shù)據(jù)傳輸控制及隊(duì)列控制。因此,設(shè)計(jì)需要使用標(biāo)準(zhǔn)化接口,同時(shí)盡可能地降低資源占用率,并具備 DMA 數(shù)據(jù)傳輸功能。
4)穩(wěn)定性
這里強(qiáng)調(diào)的是,如果只是預(yù)研項(xiàng)目,就不大需要考慮穩(wěn)定性,其特有的功能和性能才是項(xiàng)目需要重點(diǎn)解決的。但是作為商用IP,就需要考慮其穩(wěn)定性,不能出現(xiàn)上次可以,這次就工作不正常,或者性能下降明顯情況。
它涉及到?幾個(gè)因素:
1)高速接口的匹配性?:RDMA數(shù)傳通道一般采用AXI總線,它需確保IP核與FPGA的如AXI4-Stream/AXI4-Lite等兼容性,避免因協(xié)議不匹配導(dǎo)致傳輸錯(cuò)誤; ?
2)?時(shí)序優(yōu)化:一般它需要跨時(shí)鐘域設(shè)計(jì),因此對(duì)時(shí)鐘同步、信號(hào)路徑規(guī)劃和資源分配等關(guān)鍵因素需要重點(diǎn)考慮;
3)?存儲(chǔ)資源分配?:合理設(shè)計(jì)FIFO深度,(一般采用2的整數(shù)次冪深度設(shè)計(jì))和RAM塊數(shù)量,避免因資源不足導(dǎo)致數(shù)據(jù)丟失或性能下降。 ?
這里給出IP讀寫性能情況:
B站已給出相關(guān)性能的視頻,如想進(jìn)一步了解,請(qǐng)搜索B站用戶:專注與守望
鏈接:https://space.bilibili.com/585132944/dynamic?spm_id_from=333.1365.list.card_title.click
審核編輯 黃宇
-
FPGA
+關(guān)注
關(guān)注
1645文章
22049瀏覽量
618407 -
高速傳輸
+關(guān)注
關(guān)注
0文章
28瀏覽量
9170 -
RDMA
+關(guān)注
關(guān)注
0文章
85瀏覽量
9292
發(fā)布評(píng)論請(qǐng)先 登錄
RDMA over RoCE V2設(shè)計(jì)2:ip 整體設(shè)計(jì)考慮

RDMA over RoCE V2設(shè)計(jì)2:ip 整體框架設(shè)計(jì)考慮
RDMA over RoCE V2設(shè)計(jì)1:通用,穩(wěn)定及高性能!
RDMA簡(jiǎn)介7之可靠傳輸
RDMA簡(jiǎn)介6之RoCEV2連接管理
RDMA簡(jiǎn)介5之RoCE V2隊(duì)列分析
RDMA簡(jiǎn)介4之ROcE V2初析
RDMA簡(jiǎn)介3之四種子協(xié)議對(duì)比
RDMA簡(jiǎn)介2之A技術(shù)優(yōu)勢(shì)分析
RDMA簡(jiǎn)介1之RDMA開(kāi)發(fā)必要性
HarmonyOS Next V2 @Local 和@Param

HarmonyOS Next V2 @Monitor 和@Computed
加速網(wǎng)絡(luò)性能:融合以太網(wǎng) RDMA (RoCE) 的影響

RoCE與IB對(duì)比分析(一):協(xié)議棧層級(jí)篇

以太網(wǎng)RDMA RoCE的技術(shù)局限

評(píng)論