NVIDIA GPU 運(yùn)營(yíng)商允許企業(yè)在 Kubernetes 上輕松擴(kuò)展 NVIDIA GPU 。
通過(guò)使用 Kubernetes 簡(jiǎn)化 GPU 的部署和管理, GPU 運(yùn)營(yíng)商使基礎(chǔ)設(shè)施團(tuán)隊(duì)能夠在幾分鐘內(nèi)自動(dòng)無(wú)誤地?cái)U(kuò)展 GPU 應(yīng)用程序。
GPU Operator 1.9 現(xiàn)已推出,其中包括幾個(gè)關(guān)鍵功能,以及其他更新,使用戶可以更快地開(kāi)始使用并保持不間斷服務(wù)。
GPU 操作員 1.9 包括:
支持使用 DGX 操作系統(tǒng)的 NVIDIA DGX A100 系統(tǒng)
簡(jiǎn)化的安裝過(guò)程
使用 DGX 操作系統(tǒng)支持 DGX A100
對(duì)于 1.9 , GPU 操作員自動(dòng)在 NVIDIA NVSwitch 系統(tǒng)上部署初始化結(jié)構(gòu)所需的軟件,包括與 DGX OS 一起使用時(shí)的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創(chuàng)建端到端可擴(kuò)展計(jì)算平臺(tái)。
DGX A100 配備了世界上最先進(jìn)的加速器,使企業(yè)能夠?qū)⑴嘤?xùn)、推理和分析整合到統(tǒng)一、易于部署的 AI 基礎(chǔ)設(shè)施中。現(xiàn)在,有了 GPU 運(yùn)營(yíng)商的支持,企業(yè)可以將其應(yīng)用程序從培訓(xùn)擴(kuò)展到與世界上最先進(jìn)的系統(tǒng)相匹配。
簡(jiǎn)化的安裝過(guò)程
對(duì)于 GPU 運(yùn)營(yíng)商的早期版本,使用 GPU 運(yùn)營(yíng)商和 OpenShift 的組織需要從 Red Hat 申請(qǐng)額外的權(quán)利,以便成功使用 GPU 運(yùn)營(yíng)商。由于授權(quán)密鑰過(guò)期,用戶需要重新應(yīng)用這些密鑰,以確保其工作流程不會(huì)中斷。
GPU Operator 1.9 現(xiàn)在支持 OpenShift 的免授權(quán)驅(qū)動(dòng)程序容器。這是通過(guò)利用 RedHat 提供的 Driver-Toolkit 映像以及為構(gòu)建 NVIDIA 內(nèi)核模塊而預(yù)先安裝的必要內(nèi)核包來(lái)實(shí)現(xiàn)的。用戶不再需要確保運(yùn)行 GPU 運(yùn)算符時(shí)始終應(yīng)用具有 RHEL 訂閱的有效證書(shū)。更重要的是,對(duì)于斷開(kāi)連接的集群,它消除了對(duì)私有包存儲(chǔ)庫(kù)的依賴。
版本 1.9 還包括對(duì)帶有 MIG Manager 的預(yù)裝驅(qū)動(dòng)程序的支持,對(duì)預(yù)裝 MOFED 使用 GPUDirect RDMA 的支持,對(duì)容器運(yùn)行時(shí)的自動(dòng)檢測(cè),以及對(duì) NOUVEAU 的自動(dòng)禁用–所有這些都旨在讓用戶更容易開(kāi)始并繼續(xù)使用 GPU 加速的 Kubernetes 。
此外, GPU Operator 1.9 會(huì)自動(dòng)檢測(cè)工作節(jié)點(diǎn)上安裝的容器運(yùn)行時(shí)。無(wú)需在安裝時(shí)指定容器運(yùn)行時(shí)。
GPU 操作員 1.9 :
helm install --wait --generate-name nvidia/gpu-operator
GPU 操作員 1.8 及更早版本:
helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd
GPU 操作員要求禁用 Nouveau 。在以前的 GPU 操作員版本中, K8s 管理員必須按照文檔 禁用 Nouveau 。 GPU 操作員 1.9 會(huì)自動(dòng)檢測(cè) Nouveau 是否已啟用并為您禁用。
GPU 操作員資源
以下資源可用于使用 NVIDIA GPU 運(yùn)營(yíng)商:
GPU 操作員 1.9 發(fā)行說(shuō)明
入門(mén)指南
GPU NGC 上的操作員舵圖
GitHub 上的 GPU 運(yùn)算符
關(guān)于作者
Erik Bohnhorst 是 NVIDIA 的高級(jí)產(chǎn)品經(jīng)理,專注于云本地技術(shù),為 edge 和數(shù)據(jù)中心構(gòu)建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構(gòu)師的身份幫助客戶構(gòu)建世界一流的虛擬化遠(yuǎn)程工作站。埃里克領(lǐng)導(dǎo)技術(shù)營(yíng)銷團(tuán)隊(duì),直到他加入了 EGX 團(tuán)隊(duì)。
Troy Estes 是 NVIDIA Edge 和企業(yè)計(jì)算解決方案的產(chǎn)品營(yíng)銷經(jīng)理。在加入 Edge & Enterprise 業(yè)務(wù)部門(mén)之前,特洛伊曾在自主汽車(chē)業(yè)務(wù)部門(mén)和 NVIDIA 電網(wǎng)產(chǎn)品集團(tuán)從事?tīng)I(yíng)銷活動(dòng)和支持產(chǎn)品 GTM 。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5193瀏覽量
105487 -
gpu
+關(guān)注
關(guān)注
28文章
4886瀏覽量
130433
發(fā)布評(píng)論請(qǐng)先 登錄
如何在Ubuntu上安裝NVIDIA顯卡驅(qū)動(dòng)?

NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)
英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署
英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

解鎖新應(yīng)用:探索GPU擴(kuò)展是如何提升渲染農(nóng)場(chǎng)的工作效率

NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
《CST Studio Suite 2024 GPU加速計(jì)算指南》
NVIDIA通過(guò)加速AWS上的機(jī)器人仿真推進(jìn)物理AI的發(fā)展
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
NVIDIA NIM助力企業(yè)高效部署生成式AI模型

英國(guó)公司實(shí)現(xiàn)英偉達(dá)CUDA軟件在AMD GPU上的無(wú)縫運(yùn)行
如何使用Kubeadm命令在PetaExpress Ubuntu系統(tǒng)上安裝Kubernetes集群

評(píng)論