一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA網(wǎng)絡運營商優(yōu)化Kubernetes橫向擴展GPU部署和管理

星星科技指導員 ? 來源:NVIDIA ? 作者:Itay Ozery ? 2022-04-14 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPU 加速計算在云計算、企業(yè)計算和邊緣計算領域的日益普及,越來越依賴于強健而強大的網(wǎng)絡基礎設施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延遲的連接,使 GPU 資源能夠跨節(jié)點群擴展。為了滿足對云本地 AI 工作負載的需求, NVIDIA 提供了 GPU 運營商,旨在簡化 Kubernetes 上的橫向擴展 GPU 部署和管理。

今天, NVIDIA 宣布了 NVIDIA 網(wǎng)絡運營商的 1.0 版本。作為 NVIDIA GPU 運算符 的一個模擬,網(wǎng)絡運營商通過自動化網(wǎng)絡部署和配置的各個方面簡化了 Kubernetes 的擴展網(wǎng)絡設計,否則就需要手工操作。它在具有 NVIDIA 網(wǎng)絡接口的任何集群節(jié)點上加載所需的驅(qū)動程序、庫、設備插件和 CNI 。

與 GPU 運營商配合,網(wǎng)絡運營商啟用了 GPU 直接 RDMA ,這是一項關鍵技術(shù),可將云本地 AI 工作負載加速幾個數(shù)量級。該技術(shù)在 NVIDIA GPU 之間提供了高效的零拷貝數(shù)據(jù)傳輸,同時利用了 SmartNICs 和 DPU 中的硬件引擎。圖 1 顯示了兩個 GPU 節(jié)點之間的 GPU 直接 RDMA 技術(shù)。節(jié)點 1 上的 GPU 通過網(wǎng)絡直接與節(jié)點 2 上的 GPU 通信,繞過 CPU 設備。

poYBAGJXvmKANta6AABdA5uuq1Q305.png

圖 1 。 GPU 兩個 GPU 節(jié)點之間的直接 RDMA 技術(shù)

NGC 網(wǎng)絡運營商現(xiàn)在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定義資源 ( CRD )和 操作員框架 來提供實現(xiàn)加速聯(lián)網(wǎng)所需的主機軟件。這篇文章討論了網(wǎng)絡運營商內(nèi)部的內(nèi)容,包括它的特性和功能。

易于部署和操作的 Kubernetes 網(wǎng)絡

網(wǎng)絡運營商致力于使 Kubernetes 網(wǎng)絡變得簡單和輕松。它是 Apache2 。 0 許可下的一個開源軟件項目。 1.0 版本針對運行在裸機服務器基礎設施和 Linux 虛擬化環(huán)境中的 Kubernetes 進行了驗證。以下是 1.0 版的主要功能:

在裸機 Kubernetes 環(huán)境中自動部署主機軟件組件,以實現(xiàn)以下功能:

macvlan 輔助網(wǎng)絡

SR-IOV 二次網(wǎng)絡(分配給 pod 的 VF )

主機設備輔助網(wǎng)絡(分配給 pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

在嵌套的 Kubernetes 環(huán)境(在 Linux VMs 中運行的 Kubernetes Pods )中自動部署主機軟件組件,以創(chuàng)建以下內(nèi)容:

SR-IOV 二級網(wǎng)絡(分配給 VM 的 VF 的#個,并通過不同的 POD )

主機設備輔助網(wǎng)絡(分配給 Pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

平臺支持:

Kubernetes v1 。 17 或更高版本

容器運行時: Containerd

裸機主機操作系統(tǒng)/ Linux 來賓操作系統(tǒng): Ubuntu 20 。 04

Linux KVM 虛擬化

舵圖安裝

雖然啟用了 GPU 的節(jié)點是一個主要用例,但是網(wǎng)絡運營商對于啟用獨立于 NVIDIA GPU 的加速 Kubernetes 網(wǎng)絡環(huán)境也很有用。一些示例包括設置 SR-IOV 網(wǎng)絡和 DPDK 以加速電信 NFV 應用程序、建立 RDMA 連接以快速訪問 NVMe 存儲等等。

NVIDIA 網(wǎng)絡運營商內(nèi)部

網(wǎng)絡運營商被設計成一個 Kubernetes 運營商,它利用多個定制資源為一個節(jié)點添加加速的網(wǎng)絡功能。 1 。 0 版本支持多種網(wǎng)絡模型,可適應各種 Kubernetes 網(wǎng)絡環(huán)境和不同的應用程序需求。如今,網(wǎng)絡運營商只為二級網(wǎng)絡配置 RoCE 。這意味著主吊艙網(wǎng)絡保持不變。將來的工作可能會允許為主網(wǎng)絡配置 RoCE 。

以下各節(jié)介紹網(wǎng)絡運營商打包和使用的不同組件。

節(jié)點功能發(fā)現(xiàn)

節(jié)點功能發(fā)現(xiàn) ( NFD )是一個 Kubernetes 插件,用于檢測硬件特性和系統(tǒng)配置。網(wǎng)絡運營商使用 NFD 來檢測安裝了 NVIDIA SmartNICs 和 GPU 的節(jié)點,并將它們標記為這樣的節(jié)點?;谶@些標簽,網(wǎng)絡運營商安排適當?shù)能浖Y源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器網(wǎng)絡接口( CNI )插件,支持將多個網(wǎng)絡接口連接到 pod 。通常在庫伯內(nèi)特斯,每個吊艙只有一個網(wǎng)絡接口。使用 Multus ,您可以創(chuàng)建具有多個接口的多宿主 Pod 。 Multus 充當一個 meta-plugin ,一個可以調(diào)用多個其他 CNI 插件的 CNI 插件。 NVIDIA 網(wǎng)絡運營商安裝 Multus ,將用于高速 GPU – GPU 通信的二級網(wǎng)絡添加到集裝箱吊艙中。

NVIDIA OFED 驅(qū)動器

NVIDIA OpenFabrics 企業(yè)分銷( OFED ) 網(wǎng)絡庫和驅(qū)動程序由 節(jié)點標簽 網(wǎng)絡團隊打包和測試。 NVIDIA OFED 通過 Infiniband 和以太網(wǎng)互連支持 遠程直接內(nèi)存訪問 ( RDMA )。網(wǎng)絡運營商使用 NVIDIA 將預編譯的 NVIDIA OFED 驅(qū)動程序容器部署到每個 Kubernetes 主機上。容器在啟動或停止時加載和卸載 NVIDIA OFED 驅(qū)動程序。

NVIDIA 對等內(nèi)存驅(qū)動程序

NVIDIA 對等內(nèi)存驅(qū)動程序 是一個客戶端,它與網(wǎng)絡驅(qū)動程序交互,以在 GPU 和主機內(nèi)存之間提供 RDMA 。網(wǎng)絡運營商在同時具有 ConnectX 適配器和 NVIDIA GPU 的節(jié)點上安裝 NVIDIA 對等內(nèi)存驅(qū)動程序。當容器啟動和停止時,此驅(qū)動程序也會自動加載和卸載。

RDMA 共享設備插件

Kubernetes 設備插件框架 向 Kubernetes 節(jié)點上運行的 Kubelet 代理播發(fā)系統(tǒng)硬件資源。網(wǎng)絡運營商部署 RDMA 共享設備插件 向 Kubelet 播發(fā) RDMA 資源,并向節(jié)點上運行的 pod 公開 RDMA 設備。它允許吊艙執(zhí)行 RDMA 操作。節(jié)點上運行的所有 pod 共享對相同 RDMA 設備文件的訪問。

容器網(wǎng)絡 CNI 插件

Macvlan CNI 公司 和 主機設備 CNI 是在 CNI 項目下托管的通用容器網(wǎng)絡插件。 macvlan CNI 創(chuàng)建一個新的 MAC 地址,并將所有通信轉(zhuǎn)發(fā)到容器。主機設備 CNI 將已經(jīng)存在的設備移動到容器中。網(wǎng)絡運營商使用這些 CNI 插件創(chuàng)建 macvlan 網(wǎng)絡,并將 NIC 物理功能分別分配給容器或虛擬機。

SR-IOV 設備插件和 CNI

SR-IOV 是一種在虛擬機或容器吊艙與 NIC 硬件之間提供直接接口的技術(shù)。它繞過了主機 CPU 和操作系統(tǒng),從 I / O 任務中釋放出昂貴的 CPU 資源,并大大加快了連接速度。 SR-IOV 設備插件 和 CNI 插件 啟用 Kubernetes 節(jié)點上可用的 SR-IOV 虛擬功能( VF )。這兩者都是網(wǎng)絡運營商創(chuàng)建 SR-IOV VF 并將其分配給處理 GPU -to- GPU 通信的二級網(wǎng)絡所必需的。

SR-IOV 操作員

SR-IOV 操作符旨在幫助用戶在集群中提供和配置 SR-IOV 設備插件和 SR-IOV CNI 插件。網(wǎng)絡運營商使用 SR-IOV 操作員 在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一個 IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。網(wǎng)絡運營商使用此 CNI 為承載 GPU -to- GPU 通信的二級網(wǎng)絡分配 IP 地址。

更好的結(jié)合: NVIDIA 加速計算和網(wǎng)絡

圖 2 顯示了網(wǎng)絡運營商如何與 GPU 運營商協(xié)同工作來部署和管理主機網(wǎng)絡軟件。

pYYBAGJXvmuAFa1cAALBlwdJFKQ894.png

圖 2 。網(wǎng)絡運營商與 NVIDIA GPU 運營商一起安裝,以在 EGX 堆棧上自動化 GPU 直接 RDMA 配置

以下部分描述了支持的網(wǎng)絡模型和相應的主機軟件組件。

RoCE 共享模式

共享模式意味著在節(jié)點上的多個容器 pod 之間共享單個 IB 設備的方法。此網(wǎng)絡模型針對需要高性能網(wǎng)絡的企業(yè)和邊緣環(huán)境進行了優(yōu)化,無需多租戶。網(wǎng)絡運營商安裝以下軟件組件:

Multus CNI

RoCE 共享模式設備插件

Macvlan CNI

Whereabouts IPAM CNI

網(wǎng)絡運營商還在 GPU 節(jié)點上安裝 NVIDIA OFED 驅(qū)動程序和 NVIDIA 對等內(nèi)存。

SR-IOV 、 RoCE 和 DPDK 網(wǎng)絡

如前所述, SR-IOV 是一種提供對 NIC 硬件的直接訪問的加速技術(shù)。此網(wǎng)絡模型針對運行在裸機上的多租戶 Kubernetes 環(huán)境進行了優(yōu)化。網(wǎng)絡運營商安裝以下軟件組件:

Multus CNI

SR-IOV 設備插件

SR-IOV CN

Whereabouts IPAM CNI

網(wǎng)絡運營商還在 GPU 節(jié)點上安裝 NVIDIA OFED 驅(qū)動程序和 NVIDIA 對等內(nèi)存。

NIC PF 直通

這種網(wǎng)絡模式適合要求極高的應用。網(wǎng)絡運營商可以將 NIC 物理功能分配給 Pod ,以便 Pod 充分利用它。網(wǎng)絡運營商安裝以下主機軟件組件:

Multus CNI

SR-IOV 設備插件

主機開發(fā) CNI

Whereabouts IPAM CNI

網(wǎng)絡運營商還在 GPU 節(jié)點上安裝 NVIDIA OFED 驅(qū)動程序和 NVIDIA 對等內(nèi)存。

為橫向擴展 GPU 集群優(yōu)化 Kubernetes 網(wǎng)絡

NVIDIA GPU 和網(wǎng)絡運營商都是 NVIDIA EGX 企業(yè)平臺的一部分,該平臺允許 GPU 加速計算與傳統(tǒng)企業(yè)應用程序在同一 IT 基礎設施上協(xié)同工作??偠灾?,運營商使 NVIDIA GPU 成為庫伯內(nèi)特斯的一等公民。現(xiàn)在發(fā)布用于生產(chǎn)環(huán)境,網(wǎng)絡運營商簡化了 Kubernetes 網(wǎng)絡,帶來了必要的簡單性和可擴展性級別,以便在企業(yè)中實現(xiàn)擴展培訓和邊緣推斷。

關于作者

Itay Ozery 是 NVIDIA 網(wǎng)絡產(chǎn)品營銷總監(jiān)。他為 Mellanox 的云網(wǎng)絡解決方案推動戰(zhàn)略性產(chǎn)品營銷和產(chǎn)品管理計劃。 Itay 在網(wǎng)絡安全領域領導了大規(guī)模的業(yè)務和項目,并與數(shù)據(jù)中心和電信服務提供商在 IT 系統(tǒng)和網(wǎng)絡工程領域擔任過多個職位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 運營商
    +關注

    關注

    4

    文章

    2419

    瀏覽量

    45329
  • NVIDIA
    +關注

    關注

    14

    文章

    5309

    瀏覽量

    106398
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4945

    瀏覽量

    131230
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為榮登GlobalData運營商基礎設施管理服務排名報告Leader象限第一名

    象限第一名。 報告對通信服務從商業(yè)模式、解決方案、網(wǎng)絡設計與優(yōu)化網(wǎng)絡轉(zhuǎn)型能力、服務規(guī)模、和業(yè)務敏捷性六個維度進行了全面評估,華為綜合得分第一。這印證了華為在對全球
    的頭像 發(fā)表于 05-22 18:43 ?583次閱讀
    華為榮登GlobalData<b class='flag-5'>運營商</b>基礎設施<b class='flag-5'>管理</b>服務排名報告Leader象限第一名

    Kubernetes Helm入門指南

    Helm 是 Kubernetes 的包管理工具,它允許開發(fā)者和系統(tǒng)管理員通過定義、打包和部署應用程序來簡化 Kubernetes 應用的
    的頭像 發(fā)表于 04-30 13:42 ?2278次閱讀
    <b class='flag-5'>Kubernetes</b> Helm入門指南

    英偉達GTC2025亮點:NVIDIA認證計劃擴展至企業(yè)存儲領域,加速AI工廠部署

    全新的存儲認證和參考架構(gòu)讓企業(yè) IT 部門能更輕松地選擇和部署 AI 基礎設施,實現(xiàn)最優(yōu)的性能和能效。 AI 部署的成功依靠速度、數(shù)據(jù)和規(guī)模。因此,NVIDIA 正在擴展
    的頭像 發(fā)表于 03-21 19:38 ?1093次閱讀

    5G網(wǎng)絡中,信令測試儀如何幫助提升用戶體驗?

    、會話管理失敗等問題。 精確調(diào)整網(wǎng)絡參數(shù): 信令測試儀能夠?qū)?b class='flag-5'>網(wǎng)絡中的各種參數(shù)進行細致的調(diào)整和優(yōu)化,如發(fā)射功率、小區(qū)覆蓋范圍、切換策略等。 通過精確調(diào)整這些參數(shù),信令測試儀可以幫助
    發(fā)表于 03-21 14:33

    MWC25 GTI年度大獎!愛立信5G可編程網(wǎng)絡助力運營商差異化運營,提升網(wǎng)絡價值

    GTI及業(yè)界的普遍認可。 ? 全球已經(jīng)建成200多張高性能5G網(wǎng)絡,運營商希望能充分挖掘5G網(wǎng)絡的潛力,以提高網(wǎng)絡投資的回報。在5G-A時代,愛立信希望通過幫助
    的頭像 發(fā)表于 03-06 14:40 ?433次閱讀
    MWC25  GTI年度大獎!愛立信5G可編程<b class='flag-5'>網(wǎng)絡</b>助力<b class='flag-5'>運營商</b>差異化<b class='flag-5'>運營</b>,提升<b class='flag-5'>網(wǎng)絡</b>價值

    使用 Flexus 云服務器 X 實例部署 Kubernetes 圖形化管理平臺

    Kubernetes 作為當今最流行的容器編排平臺,隨著云計算、微服務架構(gòu)和 DevOps 文化的普及,Kubernetes 在自動化部署、擴展
    的頭像 發(fā)表于 01-21 16:14 ?342次閱讀
    使用 Flexus 云服務器 X 實例<b class='flag-5'>部署</b> <b class='flag-5'>Kubernetes</b> 圖形化<b class='flag-5'>管理</b>平臺

    運營商如何實現(xiàn)差異化連接

    如今,運營商正置身于一場關于如何極致釋放5G投資的高難度挑戰(zhàn)。本期《信觀察》將聚焦于如何通過“差異化連接”推動基于性能的服務,進而實現(xiàn)可擴展、可持續(xù)的解決方案,助力運營商將5G投資的價值“最大化”。
    的頭像 發(fā)表于 11-18 14:38 ?9379次閱讀

    一文了解北美運營商Verizon認證的測試標準

    隨著近年來全球貿(mào)易的發(fā)展,越來越多的通信產(chǎn)品廠商眼光瞄向了北美地區(qū)。而通信類產(chǎn)品要想在北美地區(qū)取得使用與銷售的合規(guī)性,并且進入北美運營商網(wǎng)絡系統(tǒng)就必須取得運營商認證。而Verizon屬于北美三
    的頭像 發(fā)表于 11-08 17:25 ?785次閱讀
    一文了解北美<b class='flag-5'>運營商</b>Verizon認證的測試標準

    如何構(gòu)建及優(yōu)化GPU網(wǎng)絡

    并從計算節(jié)點成本優(yōu)化、集群網(wǎng)絡與拓撲的選擇等方面論述如何構(gòu)建及優(yōu)化GPU網(wǎng)絡。
    的頭像 發(fā)表于 11-06 16:03 ?1029次閱讀
    如何構(gòu)建及<b class='flag-5'>優(yōu)化</b><b class='flag-5'>GPU</b>云<b class='flag-5'>網(wǎng)絡</b>

    docker和k8s部署在云平臺性能要求盤點

    Docker和Kubernetes在云平臺部署時有各自的性能要求。Docker需要足夠的CPU、內(nèi)存和存儲資源,以及快速的網(wǎng)絡帶寬和優(yōu)化的鏡像大小。而
    的頭像 發(fā)表于 11-05 10:47 ?529次閱讀

    k8s可以部署私有云嗎?私有云部署全攻略

    Kubernetes(簡稱K8S)可以部署私有云。Kubernetes是一個開源的容器編排引擎,能夠自動化容器的部署、擴展
    的頭像 發(fā)表于 10-25 09:32 ?475次閱讀

    NVIDIA NIM助力企業(yè)高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM,將允許用戶通過 API 調(diào)用來大規(guī)模地部署大語言模型。
    的頭像 發(fā)表于 10-10 09:49 ?766次閱讀

    產(chǎn)品申請北美運營商AT T認證的優(yōu)勢有哪些

    產(chǎn)品進入北美市場為什么需要申請AT&T認證?產(chǎn)品申請北美運營商AT&T認證的優(yōu)勢主要體現(xiàn)在哪些方面呢?接下來請看英利檢測的分享,幫助大家了解申請AT&T認證的優(yōu)勢。市場準入
    的頭像 發(fā)表于 09-09 17:11 ?794次閱讀
    產(chǎn)品申請北美<b class='flag-5'>運營商</b>AT T認證的優(yōu)勢有哪些

    北美運營商PTCRB認證的優(yōu)勢主要體現(xiàn)在哪些方面?

    地進入北美市場,包括美國、加拿大和墨西哥等國家。運營商支持:PTCRB由北美主要運營商(如AT&T、Verizon、T-Mobile等)組成,認證的設備在運營商網(wǎng)絡
    的頭像 發(fā)表于 08-23 17:19 ?746次閱讀
    北美<b class='flag-5'>運營商</b>PTCRB認證的優(yōu)勢主要體現(xiàn)在哪些方面?

    走進北美運營商認證:解讀PTCRB與北美三大運營商的關系

    、PTCRB機構(gòu)概述PTCRB成立于1997年,是由北美移動通信運營商共同組成的聯(lián)盟。該機構(gòu)的主要任務是通過對無線設備進行測試和審核,確保其符合北美CDMA和LTE網(wǎng)絡的要求,
    的頭像 發(fā)表于 08-08 17:41 ?1257次閱讀
    走進北美<b class='flag-5'>運營商</b>認證:解讀PTCRB與北美三大<b class='flag-5'>運營商</b>的關系