一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

詳解DPU網(wǎng)絡卸載場景及架構

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-01-09 11:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DPU數(shù)據(jù)平面需要一種大規(guī)模敏捷異構的計算架構。這一部分的實現(xiàn)也處在“百家爭鳴”的階段,各家的實現(xiàn)方式差別較大,有基于通用處理器核的方式,有基于可編程門陣列FPGA的方式,也有基于異構眾核的方式,還有待探索。

網(wǎng)絡功能卸載

網(wǎng)絡功能卸載是伴隨云計算網(wǎng)絡而產(chǎn)生的,主要是對云計算主機上的虛擬交換機的能力做硬件卸載,從而減少主機上消耗在網(wǎng)絡上的CPU算力,提高可售賣計算資源。

14a093e2-8e57-11ed-bfe3-dac502259ad0.png

目前除了公有云大廠采用自研云平臺,絕大部分私有云廠商都使用開源的OpenStack云平臺生態(tài)。在OpenStack云平臺中,虛擬交換機通常是Open vSwitch,承擔著云計算中網(wǎng)絡虛擬化的主要工作,負責虛擬機(VM)與同主機 上虛擬機(VM)、虛擬機(VM)與其它主機上虛擬機(VM)、虛擬機(VM)與外部的網(wǎng)絡通信。虛擬交換機與網(wǎng)關路由器(GW)通常由同一SDN控制器來管理控制,為租戶開通VPC網(wǎng)絡以及和外部通信的網(wǎng)絡。

主機與主機 間的網(wǎng)絡通常是Underlay網(wǎng)絡,是由TOR/EOR構建的Spine-Leaf結構的Fabric Network。虛擬機(VM)與虛擬機(VM)通信的網(wǎng)絡是Overlay網(wǎng)絡,是承載在Underlay網(wǎng)絡構建的VxLAN,NVGRE或Geneve隧道之上的。通常VxLAN,NVGRE或Geneve的隧道端點(VTEP)在虛擬交換機和網(wǎng)關路由器(GW) 上。也有部分對網(wǎng)絡性能要求比較高的場景,采用SR-IOV替代虛擬交換機,VF直通到虛擬機(VM)內(nèi)部,這樣就要求隧道端點(VTEP)部署在TOR上,TOR與網(wǎng)關路由器(GW)創(chuàng)建隧道,提供Overlay網(wǎng)絡服務。虛擬交換機的場景是最通用的應用場景,所以,虛擬交換機的技術迭代也直接影響著虛擬化網(wǎng)絡的發(fā)展。

虛擬化網(wǎng)絡功能(Virtual Network Function)

行業(yè)內(nèi)主流的Hypervisor主要有Linux系統(tǒng)下的KVM-Qemu,VMWare的ESXi,微軟Azure的Hyper-V,以及亞馬遜早期用的Xen(現(xiàn)在亞馬遜已經(jīng)轉(zhuǎn)向 KVM-Qemu)。KVM-Qemu有著以Redhat為首在持續(xù)推動的更好的開源生態(tài),目前行業(yè)內(nèi)90%以上的云廠商都在用KVM-Qemu作為虛擬化的基礎平臺。

在KVM-Qemu這個Hypervisor的開源生態(tài)里,與網(wǎng)絡關系最緊密的標準協(xié)議包括virtio和vhost,以及vhost衍生出來的vhost-vdpa。Virtio在KVM-Qemu中定義了一組虛擬化I/O設備,和對應設備的共享內(nèi)存的通信方法,配合后端協(xié)議vhost和vhost-vdpa使用,使虛擬化I/O性能得到提升。

(1)內(nèi)核虛擬化網(wǎng)絡(vhost-net)

在虛擬化網(wǎng)絡的初期,以打通虛擬機(VM)間和與外部通信能力為主,對功能訴求遠高于性能,虛擬交換機OVS(Open vSwitch)的最初版本也是基于操作系統(tǒng)Linux內(nèi)核轉(zhuǎn)發(fā)來實現(xiàn)的。

(2)用戶空間DPDK虛擬化網(wǎng)絡(vhost-user)

隨著虛擬化網(wǎng)絡的發(fā)展,虛擬機(VM)業(yè)務對網(wǎng)絡帶寬的要求越來越高,另外,英特爾和Linux基金會推出了DPDK(Data Plane Development Kit)開源項 目,實現(xiàn)了用戶空間直接從網(wǎng)卡收發(fā)數(shù)據(jù)報文并進行多核快速處理的開發(fā)庫,虛擬交換機OVS將數(shù)據(jù)轉(zhuǎn)發(fā)平面通過DPDK支持了用戶空間的數(shù)據(jù)轉(zhuǎn)發(fā),進而實現(xiàn)了轉(zhuǎn)發(fā)帶寬量級的提升。

14aeca5c-8e57-11ed-bfe3-dac502259ad0.png

(3)高性能SR-IOV網(wǎng)絡(SR-IOV)

在一些對網(wǎng)絡有高性能需求的場景,如NFV業(yè)務部署,OVS-DPDK的數(shù)據(jù)轉(zhuǎn) 發(fā) 方 式 , 無 法 滿 足 高性能網(wǎng)絡的 需 求 , 這 樣 就 引 入 的 SR-IOV 透 傳(passthrough)到虛擬機(VM)的部署場景。

14bc6d92-8e57-11ed-bfe3-dac502259ad0.png

(4)Virtio硬件加速虛擬化網(wǎng)絡(vDPA)

為了解決高性能SRIOV網(wǎng)絡的熱遷移問題,出現(xiàn)了很多做法和嘗試,尚未形成統(tǒng)一的標準。在Redhat提出硬件vDPA架構之前,Mellanox實現(xiàn)了軟件vDPA(即VF Relay)。

14c6b996-8e57-11ed-bfe3-dac502259ad0.png

云原生網(wǎng)絡功能 (1)云原生網(wǎng)絡架構

云原生,從廣義上來說,是更好的構建云平臺與云應用的一整套新型的設計理念與方法論,而狹義上講則是以docker容器和Kubernetes(K8S)為支撐的云原生計算基金會(CNCF)技術生態(tài)堆棧的新式IT架構。對比虛擬機,容器應用對磁盤的占用空間更小,啟動速度更快,直接運行在宿主機內(nèi)核上,因而無Hypervisor開銷,并發(fā)支持上百個容器同時在線,接近宿主機上本地進程的性能,資源利用率也更高。以K8S為代表的云原生容器編排系統(tǒng),提供了統(tǒng)一調(diào)度 與彈性擴展的能力,以及標準化組件與服務,支持快速開發(fā)與部署。

容器平臺包括容器引擎Runtime(如containerd,cri-o等),容器網(wǎng)絡接口(CNI,如calico,flannel,contiv,cilium等)和容器存儲接口(CSI,如EBS CSI,ceph-csi等)。

14d229a2-8e57-11ed-bfe3-dac502259ad0.png

云原生對于網(wǎng)絡的需求,既有基礎的二三層網(wǎng)絡聯(lián)通,也有四至七層的高級網(wǎng)絡功能。二三層的網(wǎng)絡主要是實現(xiàn)K8S中的CNI接口,具體如calico,flannel,weave,contiv,cilium等。主要是支持大規(guī)模實例,快速彈性伸縮,自 愈合,多集群多活等。四至七層網(wǎng)絡功能,主要是服務網(wǎng)格(Service Mesh)。

(2)eBPF的硬件加速

eBPF是一項革命性的技術,可以在Linux內(nèi)核中運行沙盒程序,而無需重新 編譯內(nèi)核或者加載內(nèi)核模塊。在過去幾年,eBPF已經(jīng)成為解決以前依賴于內(nèi)核更改或者內(nèi)核模塊的問題的標準方法。對比在Kubernetes上Iptables的轉(zhuǎn)發(fā)路徑, 使用eBPF會簡化其中大部分轉(zhuǎn)發(fā)步驟,提高內(nèi)核的數(shù)據(jù)轉(zhuǎn)發(fā)性能。Cilium是一個基于eBPF實現(xiàn)的開源項目,提供和保護使用Linux容器管理平臺部署的應用程序服務之間的網(wǎng)絡和API連接,以解決容器工作負載的新可伸縮性,安全性和可見性要求。

RDMA網(wǎng)絡功能

(1)RDMA網(wǎng)絡功能介紹

面對高性能計算、大數(shù)據(jù)分析和浪涌型IO高并發(fā)、低時延應用,現(xiàn)有TCP/IP軟硬件架構和應用高CPU消耗的技術特征根本不能滿足應用的需求。這主要體現(xiàn)在處理時延過大——數(shù)十微秒,多次內(nèi)存拷貝、中斷處理,上下文切換,復雜的TCP/IP協(xié)議處理,以及存儲轉(zhuǎn)發(fā)模式和丟包導致額外的時延。而RDMA通過網(wǎng)絡在兩個端點的應用軟件之間實現(xiàn)Buffer的直接傳遞,相比TCP/IP,RDMA無需操作系統(tǒng)和協(xié)議棧的介入,能夠?qū)崿F(xiàn)端點間的超低時延、超高吞吐量傳輸,不需要網(wǎng)絡數(shù)據(jù)的處理和搬移耗費過多的資源,無需OS和CPU的介入。RDMA的本質(zhì)實際上是一種內(nèi)存讀寫技術。

14dfd87c-8e57-11ed-bfe3-dac502259ad0.png

RDMA和TCP/IP網(wǎng)絡對比可以看出,RDMA的性能優(yōu)勢主要體現(xiàn)在:

(1)零拷貝——減少數(shù)據(jù)拷貝次數(shù),由于沒有將數(shù)據(jù)拷貝到內(nèi)核態(tài)并處理數(shù)據(jù)包頭部到過程,傳輸延遲會顯著減少。

(2)Kernel Bypass和協(xié)議卸載——不需要內(nèi)核參與,數(shù)據(jù)通路中沒有繁瑣的處理報頭邏輯,不僅會使延遲降低,而且也節(jié)省了CPU的資源。

(2)RDMA硬件卸載方式

原生RDMA是IBTA(InfiniBand Trade Association)在2000年發(fā)布的基于InfiniBand的RDMA規(guī)范;基于TCP/IP的RDMA稱作iWARP,在2007年形成標準;基于Ethernet的RDMA叫做RoCE,在2010年發(fā)布協(xié)議,基于增強型以太網(wǎng)并 將傳輸層換成IB傳輸層實現(xiàn);在2014年,IBTA發(fā)布了RoCEv2,引入IP解決擴展性問題,可以跨二層組網(wǎng),引入UDP解決ECMP負載分擔等問題。

14ee05a0-8e57-11ed-bfe3-dac502259ad0.png

InfiniBand是一種專為RDMA設計的網(wǎng)絡,從硬件級別保證可靠傳輸。全球HPC高算系統(tǒng)TOP500大效能的超級計算機中有相當多套系統(tǒng)在使用InfiniBand Architecture(IBA)。最早做InfiniBand的廠商是IBM和HP,現(xiàn)在主要是NVIDIA的Mellanox。InfiniBand從L2到L4都需要自己的專有硬件,成本非常高。

iWARP直接將RDMA實現(xiàn)在TCP上,優(yōu)點就是成本最低,只需要采購支出 iWARP的NIC即可以使用RDMA,缺點是性能不好,因為TCP協(xié)議棧本身過于重量級,即使按照iWARP廠商的通用做法將TCP卸載到硬件上實現(xiàn),也很難超越 IB和RoCE的性能。

RoCE(RDMA over Converged Ethernet)是一個允許在以太網(wǎng)上執(zhí)行RDMA的網(wǎng)絡協(xié)議。由于底層使用的以太網(wǎng)幀頭,所以支持在以太網(wǎng)基礎設施上使用 RDMA。不過需要數(shù)據(jù)中心交換機DCB技術保證無丟包。相比IB交換機時延,交換機時延要稍高一些。由于只能應用于二層網(wǎng)絡,不能跨越IP網(wǎng)段使用,市場應用場景相對受限。

RoCEv2協(xié)議構筑于UDP/IPv4或UDP/IPv6協(xié)議之上。由于基于IP層,所以可以被路由,將RoCE從以太網(wǎng)廣播域擴展到IP可路由。由于UDP數(shù)據(jù)包不具有保序的特征,所以對于同一條數(shù)據(jù)流,即相同五元組的數(shù)據(jù)包要求不得改變順序。另外,RoCEv2還要利用IP ECN等擁塞控制機制,來保障網(wǎng)絡傳輸無損。RoCEv2也是目前主要的RDMA網(wǎng)絡技術,以NVIDIA的Mellanox和Intel為代表的廠商,均支持RoCEv2的硬件卸載能力。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19896

    瀏覽量

    235299
  • 云計算
    +關注

    關注

    39

    文章

    7976

    瀏覽量

    140109
  • 網(wǎng)絡
    +關注

    關注

    14

    文章

    7815

    瀏覽量

    90971
  • DPU
    DPU
    +關注

    關注

    0

    文章

    393

    瀏覽量

    24938
  • RDMA
    +關注

    關注

    0

    文章

    85

    瀏覽量

    9297

原文標題:詳解DPU網(wǎng)絡卸載場景及架構

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    《數(shù)據(jù)處理器:DPU編程入門》讀書筆記

    首先感謝電子發(fā)燒友論壇提供的試讀機會。 第一周先閱讀了DPU的技術發(fā)展背景,了解到DPU是結合了高性能及軟件可編程的多核CPU、高性能網(wǎng)絡接口,以及各種靈活和可編程的加速引擎。DPU
    發(fā)表于 12-21 10:47

    《數(shù)據(jù)處理器:DPU編程入門》DPU計算入門書籍測評

    一、DPU計算框架 通過一周多的時間翻閱這本書,基本上這本書是一本比較全面的,面向架構的新手指導數(shù)據(jù)。它在書中詳盡介紹了關于DPU在計算機架構中的應用。 對于
    發(fā)表于 12-24 10:54

    一文詳解DPU架構

    的范圍:我們的目標是設計一種交換架構,以將計算量卸載和分解到網(wǎng)絡中。在語言級別,P4的最新版本(P4_16)引入了P4_extern的概念,以描述該語言的標準格式不支持的任何功能。但是,沒有靈活的交換機
    發(fā)表于 01-08 16:27

    業(yè)內(nèi)首部白皮書《DPU技術白皮書》——中科院計算所主編

    大應用場景網(wǎng)絡功能卸載、存儲功能卸載、安全功能卸載,這也是DPU目前最重要的三個應用方向。第四
    發(fā)表于 03-14 17:30

    專?數(shù)據(jù)處理器 (DPU) 技術??書

    513.3. 應用場景三:安全功能卸載 554.DPU軟件棧五層模型584.1. 軟件棧開發(fā)面臨的挑戰(zhàn) 584.2. DPU異構計算架構
    發(fā)表于 03-14 17:35

    英偉達DPU的過“芯”之處

    GPU技術大會,從黃仁勛那里聽到:數(shù)據(jù)中心已成為全新的計算單元。黃仁勛之所以有這樣的底氣,就在于這次發(fā)布會上推出了一款全新處理器DPU,以及圍繞該處理器的軟件生態(tài)架構DOCA。據(jù)英偉達的介紹,DPU可以
    發(fā)表于 03-29 14:42

    什么是DPU?

    三個關鍵要素于一身。DPU是一種SOC(System On Chip),它結合了: 行業(yè)標準的、高性能及軟件可編程的多核CPU,通?;谝褢脧V泛的Arm架構,與其的SOC組件密切配合。 高性能網(wǎng)絡接口
    發(fā)表于 11-03 10:55

    《數(shù)據(jù)處理器:DPU編程入門》+初步熟悉這本書的結構和主要內(nèi)容

    大幅度提高計算速度和效率,以滿足這些增長的計算需求。 其次,網(wǎng)絡和數(shù)據(jù)處理的緊密結合是DPU演進的另一個核心驅(qū)動力。在當前的計算架構中,數(shù)據(jù)處理和網(wǎng)絡功能通常是分開的,這可能導致延遲增
    發(fā)表于 12-08 18:03

    如何使用多個DPU實現(xiàn)云級架構

    為了在數(shù)據(jù)中心充分實現(xiàn)應用程序的效率,傳輸卸載、可編程的數(shù)據(jù)平面以及用于虛擬交換的硬件卸載都是至關重要的功能。根據(jù)定義,支持這些功能是 SmartNIC 的重要部分,。但只是 DPU 的最基本要求之一, 并不能將 SmartNI
    的頭像 發(fā)表于 04-19 15:58 ?1276次閱讀
    如何使用多個<b class='flag-5'>DPU</b>實現(xiàn)云級<b class='flag-5'>架構</b>

    詳解DPU存儲、安全卸載架構

    NVMe-oF/TCP利用了TCP協(xié)議的可靠性傳輸?shù)奶攸c,以及TCP/IP網(wǎng)絡的通用性和良好的互操作性,可以完美的應用于現(xiàn)代數(shù)據(jù)中心網(wǎng)絡。在相對性能要求不是非常高的場景,NVMe-oF/TCP可作為備選。
    的頭像 發(fā)表于 01-08 09:26 ?2728次閱讀

    GTC 2023:百度智能云DPU落地實踐

    百度太行●計算:深度擁抱DPU的彈性計算基礎架構 百度智能云DPU落地實踐:極致彈性、高可用的裸金屬實例 百度智能云DPU落地實踐:更強性能、更高性價比的虛擬機實例 百度智能云
    的頭像 發(fā)表于 03-24 16:22 ?4108次閱讀
    GTC 2023:百度智能云<b class='flag-5'>DPU</b>落地實踐

    DPU應用場景系列(二) 存儲功能卸載

    DPU應用場景系列(二)存儲功能卸載一、NVMe-oF硬件加速NVMeoverFabric(又名NVMe-oF)是一個相對較新的協(xié)議規(guī)范,旨在使用NVMe通過網(wǎng)絡結構將主機連接到存儲,
    的頭像 發(fā)表于 05-19 14:34 ?3063次閱讀
    <b class='flag-5'>DPU</b>應用<b class='flag-5'>場景</b>系列(二) 存儲功能<b class='flag-5'>卸載</b>

    DPU應用場景系列(一)網(wǎng)絡功能卸載

    DPU應用場景系列(一)網(wǎng)絡功能卸載網(wǎng)絡功能卸載是伴隨云計算
    的頭像 發(fā)表于 05-10 11:01 ?3738次閱讀
    <b class='flag-5'>DPU</b>應用<b class='flag-5'>場景</b>系列(一)<b class='flag-5'>網(wǎng)絡</b>功能<b class='flag-5'>卸載</b>

    在不同應用場景DPU不同的性能要求闡述

    DPU本質(zhì)上是通過DPU卡上資源,解耦計算、控制、存儲,利用CPU、GPU、FPGA加速器等異構處理單元,通過以智能卡為接口的網(wǎng)絡實現(xiàn)高效的數(shù)據(jù)分發(fā)和調(diào)度。市面上流行的DPU產(chǎn)品基本上
    的頭像 發(fā)表于 08-09 16:40 ?3188次閱讀
    在不同應用<b class='flag-5'>場景</b>下<b class='flag-5'>DPU</b>不同的性能要求闡述

    DPU在通信云里的重要角色:中國聯(lián)通白皮書解讀

    DPU作為繼CPU和GPU之后的第三大核心基礎性算力大芯片,之前已有很多解讀文章,不過大部分集中在公有云場景,譬如CPU算力卸載和降本增效等。而這篇白皮書肯定了DPU在運營商
    的頭像 發(fā)表于 08-31 16:45 ?1026次閱讀
    <b class='flag-5'>DPU</b>在通信云里的重要角色:中國聯(lián)通白皮書解讀