一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

看看RDMA讓網(wǎng)絡(luò)實現(xiàn)低時延的絕招

中興文檔 ? 來源:中興文檔 ? 作者:中興文檔 ? 2022-11-15 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)中心現(xiàn)狀

隨著“新基建”將5G、人工智能、工業(yè)互聯(lián)網(wǎng)列為新型基礎(chǔ)領(lǐng)域,機器學(xué)習(xí)、智能語音交互、自動駕駛等一大批基于高性能計算的應(yīng)用層出不窮,這些應(yīng)用帶來了數(shù)據(jù)的爆炸式增長,給數(shù)據(jù)中心的處理能力帶來了很大的挑戰(zhàn)。

計算、存儲和網(wǎng)絡(luò)是推動數(shù)據(jù)中心發(fā)展的三駕馬車。計算隨著CPU、GPUFPGA的發(fā)展,算力得到了極大的提升。存儲隨著閃存盤(SSD)的引入,數(shù)據(jù)存取時延已大幅降低。但是網(wǎng)絡(luò)的發(fā)展明顯滯后,傳輸時延高,逐漸成為了數(shù)據(jù)中心高性能的瓶頸。

e9e9c194-6473-11ed-8abf-dac502259ad0.png

在數(shù)據(jù)中心內(nèi),70%的流量為東西向流量(服務(wù)器之間的流量),這些流量一般為數(shù)據(jù)中心進行高性能分布式并行計算時的過程數(shù)據(jù)流,通過TCP/IP網(wǎng)絡(luò)傳輸。如果服務(wù)器之間的TCP/IP 傳輸速率提升了,數(shù)據(jù)中心的性能自然也會跟著提升。

ea04aa54-6473-11ed-8abf-dac502259ad0.png

下面我們就來看看服務(wù)器之間數(shù)據(jù)TCP/IP 傳輸?shù)倪^程,了解下“時間都去哪了”,才好“對癥下藥”。

服務(wù)器間的TCP/IP傳輸

在數(shù)據(jù)中心,服務(wù)器A向服務(wù)器B發(fā)送數(shù)據(jù)的過程如下:

1、CPU控制數(shù)據(jù)由A的APP Buffer拷貝到操作系統(tǒng)Buffer。

2、CPU控制數(shù)據(jù)在操作系統(tǒng)(OS)Buffer中添加TCP、IP報文頭。

3、添加TCP、IP報文頭后的數(shù)據(jù)傳送到網(wǎng)卡(NIC),添加以太網(wǎng)報文頭。

4、報文由網(wǎng)卡發(fā)送,通過以太網(wǎng)絡(luò)傳輸?shù)椒?wù)器B網(wǎng)卡。

5、服務(wù)器B網(wǎng)卡卸載報文的以太網(wǎng)報文頭后,將其傳輸?shù)讲僮飨到y(tǒng)Buffer。

6、CPU控制操作系統(tǒng)Buffer中的報文卸載TCP、IP報文頭。

7、CPU控制卸載后的數(shù)據(jù)傳輸?shù)紸PP Buffer中。

ea38b1b4-6473-11ed-8abf-dac502259ad0.png

從數(shù)據(jù)傳輸?shù)倪^程可以看出,數(shù)據(jù)在服務(wù)器的Buffer內(nèi)多次拷貝,在操作系統(tǒng)中需要添加/卸載TCP、IP報文頭,這些操作既增加了數(shù)據(jù)傳輸時延,又消耗了大量的CPU資源,無法很好得滿足高性能計算的需求。

那么,如何構(gòu)造高吞吐量、超低時延和低CPU開銷的高性能數(shù)據(jù)中心網(wǎng)絡(luò)呢?RDMA技術(shù)可以做到。

什么是RDMA

RDMA( Remote Direct Memory Access,遠(yuǎn)程直接地址訪問技術(shù) )是一種新的內(nèi)存訪問技術(shù),可以讓服務(wù)器直接高速讀寫其他服務(wù)器的內(nèi)存數(shù)據(jù),而不需要經(jīng)過操作系統(tǒng)/CPU耗時的處理。

RDMA不算是一項新技術(shù),已經(jīng)廣泛應(yīng)用于高性能(HPC)科學(xué)計算中。隨著數(shù)據(jù)中心高帶寬、低時延的發(fā)展需求,RDMA也開始逐漸應(yīng)用于某些要求數(shù)據(jù)中心具備高性能的場景中。

舉個例子,2021年某大型網(wǎng)上商城的雙十一交易額再創(chuàng)新高,達到5000多億,比2020年又增長了近10%。如此巨大的交易額背后是海量的數(shù)據(jù)處理,該網(wǎng)上商城采用了RDMA技術(shù)來支撐高性能網(wǎng)絡(luò),保障了雙十一的順暢購物。

下面我們一起來看看RDMA讓網(wǎng)絡(luò)實現(xiàn)低時延的絕招吧。

RDMA將服務(wù)器應(yīng)用數(shù)據(jù)直接由內(nèi)存?zhèn)鬏數(shù)街悄芫W(wǎng)卡(固化RDMA協(xié)議),由智能網(wǎng)卡硬件完成RDMA傳輸報文封裝,解放了操作系統(tǒng)和CPU。

ea6f6d12-6473-11ed-8abf-dac502259ad0.png

這使得RDMA具有兩大優(yōu)勢:

Zero Copy(零拷貝):無需將數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核態(tài)并處理數(shù)據(jù)包頭部的過程,傳輸延遲會顯著減小。

Kernel Bypass(內(nèi)核旁路)和Protocol Offload(協(xié)議卸載):不需要操作系統(tǒng)內(nèi)核參與,數(shù)據(jù)通路中沒有繁瑣的處理報頭邏輯,不僅會使延遲降低,而且也大大節(jié)省了CPU的資源。

ea949f1a-6473-11ed-8abf-dac502259ad0.png

三大RDMA網(wǎng)絡(luò)

目前,大致有三類RDMA網(wǎng)絡(luò),分別是InfiniBand、RoCE(RDMA over Converged Ethernet,RDMA過融合以太網(wǎng))和iWARP(RDMA over TCP,互聯(lián)網(wǎng)廣域RDMA協(xié)議)。RDMA最早專屬于Infiniband網(wǎng)絡(luò)架構(gòu),從硬件級別保證可靠傳輸,而RoCE 和 iWARP都是基于以太網(wǎng)的RDMA技術(shù)。

InfiniBand

InfiniBand是一種專為RDMA設(shè)計的網(wǎng)絡(luò)。

采用Cut-Through轉(zhuǎn)發(fā)模式(直通轉(zhuǎn)發(fā)模式),減少轉(zhuǎn)發(fā)時延。

基于Credit的流控機制(基于信用的流控機制),保證無丟包。

要求InfiniBand專用的網(wǎng)卡、交換機和路由器,建網(wǎng)成本最高。

RoCE

傳輸層為InfiniBand協(xié)議。

RoCE有兩個版本:RoCEv1基于以太網(wǎng)鏈路層實現(xiàn),只能在L2層傳輸;RoCEv2基于UDP承載RDMA,可部署于三層網(wǎng)絡(luò)。

需要支持RDMA專用智能網(wǎng)卡,不需要專用交換機和路由器(支持ECN/PFC等技術(shù),降低丟包率),建網(wǎng)成本最低。

iWARP

傳輸層為iWARP協(xié)議。

iWARP是以太網(wǎng)TCP/IP協(xié)議中TCP層實現(xiàn),支持L2/L3層傳輸,大型組網(wǎng)TCP連接會消耗大量CPU,所以應(yīng)用很少。

iWARP只要求網(wǎng)卡支持RDMA,不需要專用交換機和路由器,建網(wǎng)成本介于InfiniBand和RoCE之間。

Infiniband技術(shù)先進,但是價格高昂,應(yīng)用局限在HPC高性能計算領(lǐng)域,隨著RoCE和iWARPC的出現(xiàn),降低了RDMA的使用成本,推動了RDMA技術(shù)普及。

在高性能存儲、計算數(shù)據(jù)中心中采用這三類RDMA網(wǎng)絡(luò),都可以大幅度降低數(shù)據(jù)傳輸時延,并為應(yīng)用程序提供更高的CPU資源可用性。其中InfiniBand網(wǎng)絡(luò)為數(shù)據(jù)中心帶來極致的性能,傳輸時延低至百納秒,比以太網(wǎng)設(shè)備延時要低一個量級。

RoCE和iWARP網(wǎng)絡(luò)為數(shù)據(jù)中心帶來超高性價比,基于以太網(wǎng)承載RDMA,充分利用了RDMA的高性能和低CPU使用率等優(yōu)勢,同時網(wǎng)絡(luò)建設(shè)成本也不高。

基于UDP協(xié)議的RoCE比基于TCP協(xié)議的iWARP性能更好,結(jié)合無損以太網(wǎng)的流控技術(shù),解決了丟包敏感的問題,RoCE網(wǎng)絡(luò)已廣泛應(yīng)用于各行業(yè)高性能數(shù)據(jù)中心中。

結(jié)語

隨著5G、人工智能、工業(yè)互聯(lián)網(wǎng)等新型領(lǐng)域的發(fā)展,RDMA技術(shù)的應(yīng)用會越來越普及,RDMA將成為助力數(shù)據(jù)中心高性能的一大功臣。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22036

    瀏覽量

    618126
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    2981

    瀏覽量

    119548
  • RDMA
    +關(guān)注

    關(guān)注

    0

    文章

    83

    瀏覽量

    9289

原文標(biāo)題:RDMA能給數(shù)據(jù)中心帶來什么

文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RoCE網(wǎng)絡(luò)規(guī)劃還在手動算IP?這套工具運維效率飆升

    隨著AI算力集群規(guī)模指數(shù)級增長,網(wǎng)絡(luò)架構(gòu)復(fù)雜度陡增。傳統(tǒng)網(wǎng)絡(luò)規(guī)劃依賴人工計算與經(jīng)驗判斷,存在效率、易出錯、可視化弱三大痛點。尤其在RoCE(RDMA over Converged E
    的頭像 發(fā)表于 06-30 14:33 ?554次閱讀
    RoCE<b class='flag-5'>網(wǎng)絡(luò)</b>規(guī)劃還在手動算IP?這套工具<b class='flag-5'>讓</b>運維效率飆升

    鴻蒙5開發(fā)寶藏案例分享---點擊完成時分析

    ?** 鴻蒙完成時優(yōu)化實戰(zhàn)指南:你的應(yīng)用絲滑如飛!** 在移動端開發(fā)中, 完成時就是用戶體驗的生命線 !今天帶你深入鴻蒙完成時優(yōu)化,揭秘官方文檔中的寶藏技巧,
    發(fā)表于 06-12 17:03

    RDMA簡介4之ROcE V2初析

    返回給本地主機。 (2)RDMA WRITE操作將本機內(nèi)存中的數(shù)據(jù)寫入遠(yuǎn)程主機。具體流程為:本機將攜帶寫入地址、數(shù)據(jù)長度、遠(yuǎn)程訪問密鑰信息和數(shù)據(jù)的網(wǎng)絡(luò)包發(fā)送至遠(yuǎn)程主機,遠(yuǎn)程主機確認(rèn)后將數(shù)據(jù)寫入遠(yuǎn)程主機
    發(fā)表于 06-05 15:20

    RDMA簡介3之四種子協(xié)議對比

    RDMA協(xié)議共有四種子協(xié)議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協(xié)議。這四種協(xié)議使用統(tǒng)一的RDMA API,但在具體的網(wǎng)絡(luò)層級實現(xiàn)上有所不同,如圖1所
    發(fā)表于 06-04 16:05

    RDMA簡介2之A技術(shù)優(yōu)勢分析

    隨著數(shù)據(jù)中心對于網(wǎng)絡(luò)帶寬和延遲的要求日益增長,傳統(tǒng)的TCP/IP網(wǎng)絡(luò)已無法滿足性能要求,RDMA網(wǎng)絡(luò)則憑借其高帶寬、延時的特性脫穎而出。相
    發(fā)表于 06-04 11:35

    RDMA簡介1之RDMA開發(fā)必要性

    ,提供高通量、延遲、遠(yuǎn)距離的零拷貝網(wǎng)絡(luò)數(shù)據(jù)傳輸?;谌诤弦蕴W(wǎng)的遠(yuǎn)程直接內(nèi)存訪問(RoCE)提供了一種基于以太網(wǎng)的RDMA技術(shù)實現(xiàn)方法,相較于IB(InfiniBand)、互聯(lián)網(wǎng)廣域
    發(fā)表于 06-03 14:38

    智能電網(wǎng)第6期 毫秒級時如何實現(xiàn)?電力設(shè)備狀態(tài)實時監(jiān)控優(yōu)化

    :強電磁環(huán)境下需保障通信可用性? 覆蓋難題:野外設(shè)備監(jiān)測需兼顧遠(yuǎn)距離與 ? 針對電力監(jiān)控的嚴(yán)苛需求,KAXA凱莎科技推出"有線+無線"融合通信方案,通過以下架構(gòu)實現(xiàn)毫秒級實時監(jiān)控: ? 一、 分層通信架構(gòu) ? 采用"核心有
    的頭像 發(fā)表于 04-25 09:40 ?206次閱讀
    智能電網(wǎng)第6期 毫秒級時<b class='flag-5'>延</b>如何<b class='flag-5'>實現(xiàn)</b>?電力設(shè)備狀態(tài)實時監(jiān)控優(yōu)化

    工業(yè)級MIFI全棧式解決方案:快速構(gòu)建高可靠、Wi-Fi網(wǎng)絡(luò)

    Air8000核心板為例,在工業(yè)物聯(lián)網(wǎng)場景中快速構(gòu)建高可靠、的Wi-Fi網(wǎng)絡(luò),供終端IoT設(shè)備接入。 最新開發(fā)資料詳見: www.air8000.cn 一、了解兩種工作模式? ? 在實際使用中
    的頭像 發(fā)表于 04-17 13:46 ?306次閱讀
    工業(yè)級MIFI全棧式解決方案:快速構(gòu)建高可靠、<b class='flag-5'>低</b>時<b class='flag-5'>延</b>Wi-Fi<b class='flag-5'>網(wǎng)絡(luò)</b>

    工業(yè)無線通信新標(biāo)桿:MIFI技術(shù)驅(qū)動的高可靠Wi-Fi網(wǎng)絡(luò)快速搭建方案!

    情況下仍保持毫秒級時與99.99%可用性。本期特別分享Wi-Fi聯(lián)網(wǎng)AP應(yīng)用示例(Air8000作為熱點): ? 以Air8000核心板為例,在工業(yè)物聯(lián)網(wǎng)場景中快速構(gòu)建高可靠、的Wi-Fi
    的頭像 發(fā)表于 04-17 13:46 ?246次閱讀
    工業(yè)無線通信新標(biāo)桿:MIFI技術(shù)驅(qū)動的<b class='flag-5'>低</b>時<b class='flag-5'>延</b>高可靠Wi-Fi<b class='flag-5'>網(wǎng)絡(luò)</b>快速搭建方案!

    RAKsmart智能算力架構(gòu):異構(gòu)計算+網(wǎng)絡(luò)驅(qū)動企業(yè)AI訓(xùn)練范式升級

    在AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計算資源池化與超低時網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實現(xiàn)訓(xùn)練速度提升、硬件成本下
    的頭像 發(fā)表于 04-17 09:29 ?314次閱讀

    一文詳解以太網(wǎng)RDMA技術(shù)

    在現(xiàn)代計算機網(wǎng)絡(luò)中,傳輸效率和是高性能計算、云計算、分布式存儲等應(yīng)用的關(guān)鍵需求。而遠(yuǎn)程直接內(nèi)存訪問(RDMA,Remote Direct Memory Access)技術(shù)因其高效
    的頭像 發(fā)表于 03-10 11:09 ?2578次閱讀
    一文詳解以太網(wǎng)<b class='flag-5'>RDMA</b>技術(shù)

    如何實現(xiàn)開源開放生態(tài)下的RDMA網(wǎng)絡(luò)監(jiān)控?

    在當(dāng)今AI、大模型飛速發(fā)展的時代,RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò)技術(shù)憑借其延遲、高吞吐量的特性,在數(shù)據(jù)中心、高性能計算等領(lǐng)域得到了廣泛應(yīng)用
    的頭像 發(fā)表于 03-03 13:42 ?471次閱讀
    如何<b class='flag-5'>實現(xiàn)</b>開源開放生態(tài)下的<b class='flag-5'>RDMA</b><b class='flag-5'>網(wǎng)絡(luò)</b>監(jiān)控?

    加速網(wǎng)絡(luò)性能:融合以太網(wǎng) RDMA (RoCE) 的影響

    直接內(nèi)存訪問 (RDMA) (RoCE)。這項突破性技術(shù)促進了系統(tǒng)之間的直接數(shù)據(jù)傳輸,無需 CPU 干預(yù),從而顯著減少延遲并提高整體系統(tǒng)性能。[愛波]一家著名的 FPGA 設(shè)計公司處于這一進步的最前沿,通過將 AMD 的 ERNIC IP(以太網(wǎng) RDMA
    的頭像 發(fā)表于 01-25 11:50 ?840次閱讀
    加速<b class='flag-5'>網(wǎng)絡(luò)</b>性能:融合以太網(wǎng) <b class='flag-5'>RDMA</b> (RoCE) 的影響

    RoCE與IB對比分析(一):協(xié)議棧層級篇

    在 AI 算力建設(shè)中, RDMA 技術(shù)是支持高吞吐、延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前,RDMA技術(shù)主要通過兩種方案實現(xiàn):Infiniband和Ro
    的頭像 發(fā)表于 11-15 13:58 ?2166次閱讀
    RoCE與IB對比分析(一):協(xié)議棧層級篇

    以太網(wǎng)RDMA RoCE的技術(shù)局限

    上期我們講到了RDMA的WHY,WHAT & HOW(AI網(wǎng)絡(luò)背景下RDMA的Why,What & How),這一期我們來談一談RDMA的不足。
    的頭像 發(fā)表于 10-22 10:02 ?1325次閱讀
    以太網(wǎng)<b class='flag-5'>RDMA</b> RoCE的技術(shù)局限