日本成人无码入口,久久久久久成人影视

DPU數(shù)據(jù)平面需要一種大規(guī)模敏捷異構的計算架構。這一部分的實現(xiàn)也處在“百家爭鳴”的階段，各家的實現(xiàn)方式差別較大，有基于通用處理器核的方式，有基于可編程門陣列FPGA的方式，也有基于異構眾核的方式，還有待探索。

網(wǎng)絡功能卸載

網(wǎng)絡功能卸載是伴隨云計算網(wǎng)絡而產(chǎn)生的，主要是對云計算主機上的虛擬交換機的能力做硬件卸載，從而減少主機上消耗在網(wǎng)絡上的CPU算力，提高可售賣計算資源。

目前除了公有云大廠采用自研云平臺，絕大部分私有云廠商都使用開源的OpenStack云平臺生態(tài)。在OpenStack云平臺中，虛擬交換機通常是Open vSwitch，承擔著云計算中網(wǎng)絡虛擬化的主要工作，負責虛擬機（VM）與同主機上虛擬機（VM）、虛擬機（VM）與其它主機上虛擬機（VM）、虛擬機（VM）與外部的網(wǎng)絡通信。虛擬交換機與網(wǎng)關路由器（GW）通常由同一SDN控制器來管理控制，為租戶開通VPC網(wǎng)絡以及和外部通信的網(wǎng)絡。

主機與主機間的網(wǎng)絡通常是Underlay網(wǎng)絡，是由TOR/EOR構建的Spine-Leaf結構的Fabric Network。虛擬機（VM）與虛擬機（VM）通信的網(wǎng)絡是Overlay網(wǎng)絡，是承載在Underlay網(wǎng)絡構建的VxLAN，NVGRE或Geneve隧道之上的。通常VxLAN，NVGRE或Geneve的隧道端點（VTEP）在虛擬交換機和網(wǎng)關路由器（GW）上。也有部分對網(wǎng)絡性能要求比較高的場景，采用SR-IOV替代虛擬交換機，VF直通到虛擬機（VM）內(nèi)部，這樣就要求隧道端點（VTEP）部署在TOR上，TOR與網(wǎng)關路由器（GW）創(chuàng)建隧道，提供Overlay網(wǎng)絡服務。虛擬交換機的場景是最通用的應用場景，所以，虛擬交換機的技術迭代也直接影響著虛擬化網(wǎng)絡的發(fā)展。

虛擬化網(wǎng)絡功能（Virtual Network Function)

行業(yè)內(nèi)主流的Hypervisor主要有Linux系統(tǒng)下的KVM-Qemu，VMWare的ESXi，微軟Azure的Hyper-V，以及亞馬遜早期用的Xen（現(xiàn)在亞馬遜已經(jīng)轉(zhuǎn)向 KVM-Qemu）。KVM-Qemu有著以Redhat為首在持續(xù)推動的更好的開源生態(tài)，目前行業(yè)內(nèi)90%以上的云廠商都在用KVM-Qemu作為虛擬化的基礎平臺。

在KVM-Qemu這個Hypervisor的開源生態(tài)里，與網(wǎng)絡關系最緊密的標準協(xié)議包括virtio和vhost，以及vhost衍生出來的vhost-vdpa。Virtio在KVM-Qemu中定義了一組虛擬化I/O設備，和對應設備的共享內(nèi)存的通信方法，配合后端協(xié)議vhost和vhost-vdpa使用，使虛擬化I/O性能得到提升。

（1）內(nèi)核虛擬化網(wǎng)絡（vhost-net）

在虛擬化網(wǎng)絡的初期，以打通虛擬機（VM）間和與外部通信能力為主，對功能訴求遠高于性能，虛擬交換機OVS（Open vSwitch）的最初版本也是基于操作系統(tǒng)Linux內(nèi)核轉(zhuǎn)發(fā)來實現(xiàn)的。

（2）用戶空間DPDK虛擬化網(wǎng)絡（vhost-user）

隨著虛擬化網(wǎng)絡的發(fā)展，虛擬機（VM）業(yè)務對網(wǎng)絡帶寬的要求越來越高，另外，英特爾和Linux基金會推出了DPDK（Data Plane Development Kit）開源項目，實現(xiàn)了用戶空間直接從網(wǎng)卡收發(fā)數(shù)據(jù)報文并進行多核快速處理的開發(fā)庫，虛擬交換機OVS將數(shù)據(jù)轉(zhuǎn)發(fā)平面通過DPDK支持了用戶空間的數(shù)據(jù)轉(zhuǎn)發(fā)，進而實現(xiàn)了轉(zhuǎn)發(fā)帶寬量級的提升。

（3）高性能SR-IOV網(wǎng)絡（SR-IOV）

在一些對網(wǎng)絡有高性能需求的場景，如NFV業(yè)務部署，OVS-DPDK的數(shù)據(jù)轉(zhuǎn) 發(fā) 方式，無法滿足高性能網(wǎng)絡的需求，這樣就引入的 SR-IOV 透傳（passthrough）到虛擬機（VM）的部署場景。

（4）Virtio硬件加速虛擬化網(wǎng)絡（vDPA）

為了解決高性能SRIOV網(wǎng)絡的熱遷移問題，出現(xiàn)了很多做法和嘗試，尚未形成統(tǒng)一的標準。在Redhat提出硬件vDPA架構之前，Mellanox實現(xiàn)了軟件vDPA（即VF Relay）。

云原生網(wǎng)絡功能（1）云原生網(wǎng)絡架構

云原生，從廣義上來說，是更好的構建云平臺與云應用的一整套新型的設計理念與方法論，而狹義上講則是以docker容器和Kubernetes（K8S）為支撐的云原生計算基金會（CNCF）技術生態(tài)堆棧的新式IT架構。對比虛擬機，容器應用對磁盤的占用空間更小，啟動速度更快，直接運行在宿主機內(nèi)核上，因而無Hypervisor開銷，并發(fā)支持上百個容器同時在線，接近宿主機上本地進程的性能，資源利用率也更高。以K8S為代表的云原生容器編排系統(tǒng)，提供了統(tǒng)一調(diào)度與彈性擴展的能力，以及標準化組件與服務，支持快速開發(fā)與部署。

容器平臺包括容器引擎Runtime（如containerd，cri-o等），容器網(wǎng)絡接口（CNI，如calico，flannel，contiv，cilium等）和容器存儲接口（CSI，如EBS CSI，ceph-csi等）。

云原生對于網(wǎng)絡的需求，既有基礎的二三層網(wǎng)絡聯(lián)通，也有四至七層的高級網(wǎng)絡功能。二三層的網(wǎng)絡主要是實現(xiàn)K8S中的CNI接口，具體如calico，flannel，weave，contiv，cilium等。主要是支持大規(guī)模實例，快速彈性伸縮，自愈合，多集群多活等。四至七層網(wǎng)絡功能，主要是服務網(wǎng)格（Service Mesh）。

（2）eBPF的硬件加速

eBPF是一項革命性的技術，可以在Linux內(nèi)核中運行沙盒程序，而無需重新編譯內(nèi)核或者加載內(nèi)核模塊。在過去幾年，eBPF已經(jīng)成為解決以前依賴于內(nèi)核更改或者內(nèi)核模塊的問題的標準方法。對比在Kubernetes上Iptables的轉(zhuǎn)發(fā)路徑，使用eBPF會簡化其中大部分轉(zhuǎn)發(fā)步驟，提高內(nèi)核的數(shù)據(jù)轉(zhuǎn)發(fā)性能。Cilium是一個基于eBPF實現(xiàn)的開源項目，提供和保護使用Linux容器管理平臺部署的應用程序服務之間的網(wǎng)絡和API連接，以解決容器工作負載的新可伸縮性，安全性和可見性要求。

RDMA網(wǎng)絡功能

（1）RDMA網(wǎng)絡功能介紹

面對高性能計算、大數(shù)據(jù)分析和浪涌型IO高并發(fā)、低時延應用，現(xiàn)有TCP/IP軟硬件架構和應用高CPU消耗的技術特征根本不能滿足應用的需求。這主要體現(xiàn)在處理時延過大——數(shù)十微秒，多次內(nèi)存拷貝、中斷處理，上下文切換，復雜的TCP/IP協(xié)議處理，以及存儲轉(zhuǎn)發(fā)模式和丟包導致額外的時延。而RDMA通過網(wǎng)絡在兩個端點的應用軟件之間實現(xiàn)Buffer的直接傳遞，相比TCP/IP，RDMA無需操作系統(tǒng)和協(xié)議棧的介入，能夠?qū)崿F(xiàn)端點間的超低時延、超高吞吐量傳輸，不需要網(wǎng)絡數(shù)據(jù)的處理和搬移耗費過多的資源，無需OS和CPU的介入。RDMA的本質(zhì)實際上是一種內(nèi)存讀寫技術。

RDMA和TCP/IP網(wǎng)絡對比可以看出，RDMA的性能優(yōu)勢主要體現(xiàn)在：

（1）零拷貝——減少數(shù)據(jù)拷貝次數(shù)，由于沒有將數(shù)據(jù)拷貝到內(nèi)核態(tài)并處理數(shù)據(jù)包頭部到過程，傳輸延遲會顯著減少。

（2）Kernel Bypass和協(xié)議卸載——不需要內(nèi)核參與，數(shù)據(jù)通路中沒有繁瑣的處理報頭邏輯，不僅會使延遲降低，而且也節(jié)省了CPU的資源。

（2）RDMA硬件卸載方式

原生RDMA是IBTA（InfiniBand Trade Association）在2000年發(fā)布的基于InfiniBand的RDMA規(guī)范；基于TCP/IP的RDMA稱作iWARP，在2007年形成標準；基于Ethernet的RDMA叫做RoCE，在2010年發(fā)布協(xié)議，基于增強型以太網(wǎng)并將傳輸層換成IB傳輸層實現(xiàn)；在2014年，IBTA發(fā)布了RoCEv2，引入IP解決擴展性問題，可以跨二層組網(wǎng)，引入UDP解決ECMP負載分擔等問題。

InfiniBand是一種專為RDMA設計的網(wǎng)絡，從硬件級別保證可靠傳輸。全球HPC高算系統(tǒng)TOP500大效能的超級計算機中有相當多套系統(tǒng)在使用InfiniBand Architecture（IBA）。最早做InfiniBand的廠商是IBM和HP，現(xiàn)在主要是NVIDIA的Mellanox。InfiniBand從L2到L4都需要自己的專有硬件，成本非常高。

iWARP直接將RDMA實現(xiàn)在TCP上，優(yōu)點就是成本最低，只需要采購支出 iWARP的NIC即可以使用RDMA，缺點是性能不好，因為TCP協(xié)議棧本身過于重量級，即使按照iWARP廠商的通用做法將TCP卸載到硬件上實現(xiàn)，也很難超越 IB和RoCE的性能。

RoCE（RDMA over Converged Ethernet）是一個允許在以太網(wǎng)上執(zhí)行RDMA的網(wǎng)絡協(xié)議。由于底層使用的以太網(wǎng)幀頭，所以支持在以太網(wǎng)基礎設施上使用 RDMA。不過需要數(shù)據(jù)中心交換機DCB技術保證無丟包。相比IB交換機時延，交換機時延要稍高一些。由于只能應用于二層網(wǎng)絡，不能跨越IP網(wǎng)段使用，市場應用場景相對受限。

RoCEv2協(xié)議構筑于UDP/IPv4或UDP/IPv6協(xié)議之上。由于基于IP層，所以可以被路由，將RoCE從以太網(wǎng)廣播域擴展到IP可路由。由于UDP數(shù)據(jù)包不具有保序的特征，所以對于同一條數(shù)據(jù)流，即相同五元組的數(shù)據(jù)包要求不得改變順序。另外，RoCEv2還要利用IP ECN等擁塞控制機制，來保障網(wǎng)絡傳輸無損。RoCEv2也是目前主要的RDMA網(wǎng)絡技術，以NVIDIA的Mellanox和Intel為代表的廠商，均支持RoCEv2的硬件卸載能力。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴