越來越多的企業(yè)開始采用加速計(jì)算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了DOCA 平臺(tái)框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來釋放NVIDIA BlueField DPU的強(qiáng)大功能,并優(yōu)化 GPU 加速計(jì)算平臺(tái)。作為一種編排框架和實(shí)施藍(lán)圖,DPF 使開發(fā)者、服務(wù)提供商和企業(yè)能夠無縫構(gòu)建 BlueField 加速的云原生軟件平臺(tái)。
通過簡(jiǎn)化 DPU 配置、生命周期管理和服務(wù)編排,DPF 使 BlueField DPU 可在 Kubernetes 環(huán)境中廣泛使用,以加速 AI 和其他現(xiàn)代工作負(fù)載。此外,DPF 還增強(qiáng)了 BlueField 加速應(yīng)用程序和服務(wù)的活躍生態(tài)系統(tǒng),推動(dòng)了可擴(kuò)展云平臺(tái)的發(fā)展。
解決云基礎(chǔ)設(shè)施中的一個(gè)關(guān)鍵差距
隨著 DPF 的推出,NVIDIA 正在 DPU 上實(shí)現(xiàn)大膽的飛躍。DPF 標(biāo)志著向更現(xiàn)代化的云基礎(chǔ)設(shè)施邁出了重要的一步,有助于重新定義如何將 BlueField DPU 集成到數(shù)據(jù)中心,以應(yīng)對(duì)性能、效率和安全性方面的關(guān)鍵挑戰(zhàn)。
NVIDIA BlueField DPU 已經(jīng)提供了一種高性能、可擴(kuò)展的解決方案,從而替代傳統(tǒng)以 CPU 為中心的基礎(chǔ)設(shè)施,它可從主機(jī) CPU 卸載關(guān)鍵的網(wǎng)絡(luò)、存儲(chǔ)和安全功能,以加速數(shù)據(jù)中心運(yùn)營。然而,到目前為止,在數(shù)據(jù)中心規(guī)模管理 DPU 驅(qū)動(dòng)的服務(wù)一直是一個(gè)散碎且繁瑣的過程。
這就是 DPF 的作用所在:一個(gè)專用框架,可簡(jiǎn)化 BlueField 加速云基礎(chǔ)設(shè)施的部署、編排和擴(kuò)展。DPF 將 Kubernetes 控制平面功能擴(kuò)展到 DPU,使管理員能夠直接在 BlueField DPU 上部署和編排 NVIDIA DOCA 服務(wù)和基于 DOCA 的第三方服務(wù)。
DPF 配備了用于無縫集成的專用 SDK,可為開發(fā)者提供一致的模塊化工具包,以便在 BlueField DPU 集群中輕松管理軟件。這縮短了時(shí)間并降低了復(fù)雜性,使開發(fā)者能夠?qū)W⒂跇?gòu)建強(qiáng)大的軟件平臺(tái)和具有高影響力的應(yīng)用程序,而不是管理 DPU 的軟件編排。
此外,DPF 在生態(tài)系統(tǒng)中發(fā)揮著至關(guān)重要的作用,使基礎(chǔ)設(shè)施獨(dú)立軟件供應(yīng)商(ISV)能夠滿懷信心地構(gòu)建和集成 BlueField 應(yīng)用程序。通過提供標(biāo)準(zhǔn)化的 API 和工具,DPF 可確保這些應(yīng)用程序在 BlueField 加速的基礎(chǔ)設(shè)施上無縫運(yùn)行。這也使服務(wù)提供商和企業(yè)受益,使他們能夠利用強(qiáng)大的加速服務(wù)組合來構(gòu)建高性能、安全且高效的云平臺(tái)。
為了簡(jiǎn)化和優(yōu)化云原生環(huán)境的 DPU 管理,DPF 解決了兩個(gè)主要工作流程:
DPU 配置和生命周期管理:涵蓋部署 BlueField DPU 的初始步驟,包括固件和軟件的安裝和配置,以及持續(xù)的維護(hù)任務(wù)。
DPU 服務(wù)管理和編排:涉及部署和管理基礎(chǔ)設(shè)施服務(wù),如 SDN 控制器軟件、存儲(chǔ)目標(biāo)軟件、防火墻、負(fù)載均衡器等,包括服務(wù)功能鏈。
高效的 DPU 配置和生命周期管理
DPF 為 BlueField DPU 配置和生命周期管理提供端到端支持,自動(dòng)執(zhí)行固件更新、刷寫和配置等流程,以簡(jiǎn)化設(shè)置并減少停機(jī)時(shí)間。BlueField DPU 的配置、設(shè)置、監(jiān)測(cè)和故障排除等關(guān)鍵任務(wù)均已得到簡(jiǎn)化,從而更輕松地大規(guī)模集成和運(yùn)行 BlueField DPU。
DPF 為整個(gè)數(shù)據(jù)中心內(nèi)的每個(gè) BlueField 維護(hù)更新狀態(tài),從而實(shí)現(xiàn)對(duì) DPU 運(yùn)行狀況做出動(dòng)態(tài)響應(yīng)。當(dāng) DPU 需要維護(hù)時(shí),DPF 可以主動(dòng)以受控方式刪除節(jié)點(diǎn),從而最大限度地減少或消除對(duì)活動(dòng)生產(chǎn)工作負(fù)載的影響。通過滾動(dòng)更新功能,管理員可以通過指定一次要更新的 BlueField DPU 百分比來控制批量更新,從而避免可能影響系統(tǒng)穩(wěn)定性的大規(guī)模更新。實(shí)時(shí)運(yùn)行狀況監(jiān)測(cè)和警報(bào)使管理員能夠快速識(shí)別和解決問題,這對(duì)于電信和 AI 驅(qū)動(dòng)的數(shù)據(jù)中心等高可靠性環(huán)境至關(guān)重要。
通過公開的 API 和自定義資源定義(CRD),DPF 可實(shí)現(xiàn) BlueField DPU 生命周期的自動(dòng)化,使云運(yùn)營商能夠從其標(biāo)準(zhǔn) K8s 控制平面管理與 BlueField 綁定的服務(wù),從而為 K8s 工作節(jié)點(diǎn)和 DPU 提供統(tǒng)一的“單一界面”視圖和控制。
DPF 實(shí)施藍(lán)圖基于上游 Kubernetes,其允許技術(shù)合作伙伴根據(jù)不同的基礎(chǔ)設(shè)施需求和企業(yè)產(chǎn)品來調(diào)整和擴(kuò)展框架。
全面的 DPU 服務(wù)管理和編排
DPF 將 BlueField DPU 無縫集成到基于 Kubernetes 的工作流程中,從而將云原生環(huán)境的復(fù)雜性提升到新的水平。通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 NVIDIA DOCA 服務(wù)和基于 DOCA 的第三方應(yīng)用程序。DPF Operator 自主管理此輔助 DPU Kubernetes 控制平面,監(jiān)督服務(wù)部署、監(jiān)測(cè)和生命周期管理的各個(gè)方面。
DPF 旨在將 DPU 管理的復(fù)雜性抽象化,使管理員僅使用熟悉的 Kubernetes 結(jié)構(gòu)與主 Kubernetes 控制平面進(jìn)行交互,從而無需直接管理 DPU 控制層。DPF 還為 ISV 提供了靈活性,使他們能夠?qū)崿F(xiàn)自己的 Kubernetes 控制平面,以實(shí)現(xiàn)自定義的 BlueField 服務(wù)管理和編排。
通過優(yōu)化 BlueField DPU 集群中的服務(wù)編排,DPF 簡(jiǎn)化了復(fù)雜分布式工作負(fù)載的部署和管理。憑借強(qiáng)大的生命周期管理功能,DPF 支持無縫的服務(wù)更新、擴(kuò)展和回滾,確保管理員可以高效地管理更改,而不會(huì)中斷正在進(jìn)行的操作。結(jié)合 DOCA 服務(wù)功能鏈(SFC),DPF 可促進(jìn)安全、高效的服務(wù)鏈(例如加速網(wǎng)絡(luò)(CNIs)、高性能數(shù)據(jù)服務(wù)(CSIs)和防火墻功能),以處理復(fù)雜的多步驟任務(wù)。
為確保順利部署,DPF 提供了部署前驗(yàn)證,確認(rèn) DPU 可以托管所需的服務(wù),并在未滿足要求時(shí)返回有意義的錯(cuò)誤消息。此外,DPF 還提供監(jiān)測(cè)和調(diào)試功能,幫助管理員實(shí)時(shí)管理和排除故障服務(wù),從而更輕松地實(shí)現(xiàn)高可靠性和透明度。
通過 DPF,管理員可以獲得直觀的云原生工具,用于在 BlueField DPU 上配置、管理和編排服務(wù)。這種與現(xiàn)有 Kubernetes 工作流程的無縫集成加快了高級(jí) BlueField 加速應(yīng)用程序在電信、云和企業(yè)環(huán)境等領(lǐng)域的部署速度。
模塊化架構(gòu)有助于簡(jiǎn)化集成
DPF 采用模塊化架構(gòu)設(shè)計(jì),可簡(jiǎn)化集成并為 BlueField 加速基礎(chǔ)設(shè)施提供定制功能。這種靈活的設(shè)計(jì)基于一系列核心組件和工具,為開發(fā)者、服務(wù)提供商和企業(yè)提供了一種在云原生環(huán)境中配置和管理 BlueField DPU 的簡(jiǎn)化方法。
圖 1 展示了 DPF 軟件堆棧,突出顯示了在主機(jī)和 BlueField DPU 上運(yùn)行的 DPF 功能。它還包括用于網(wǎng)絡(luò)、存儲(chǔ)和安全的各種基礎(chǔ)設(shè)施軟件服務(wù),其中一些服務(wù)通過 Kubernetes 插件(CNI 和 CSI)將向容器化工作負(fù)載公開加速 IO 接口。
圖 1:NVIDIA DPF 堆棧
這些通過容器、Helm 圖表和實(shí)施藍(lán)圖提供的工具和服務(wù),為開發(fā)者提供了集成和構(gòu)建 DPF 所需的一切。
DPF Operator
DPF 編排層的核心是DPF Operator,它可以自動(dòng)執(zhí)行 DPU 配置、生命周期管理和服務(wù)編排。它為 Kubernetes 用戶提供了一個(gè)熟悉的云原生接口,簡(jiǎn)化了復(fù)雜的配置,并使 BlueField DPU 能夠像其他集群資源一樣進(jìn)行部署和管理。DPF Operator 內(nèi)置對(duì)自動(dòng)更新和資源管理的支持,可讓您在生產(chǎn)環(huán)境中輕松部署和維護(hù) BlueField DPU。
DOCA for Host
DOCA for Host軟件提供了一套全面的配置工具,可簡(jiǎn)化 BlueField DPU 的部署和配置。DOCA for Host 可處理 DPU 與主機(jī)環(huán)境集成所需的固件、BIOS 和系統(tǒng)配置,從而確保在各種部署中實(shí)現(xiàn)一致且可靠的設(shè)置。
OVS-DOCA
OVS-DOCA是 DPF 中的核心網(wǎng)絡(luò)堆棧,為 BlueField 加速應(yīng)用程序提供安全、高性能的網(wǎng)絡(luò)連接。它在 Kubernetes 環(huán)境中提供高級(jí)網(wǎng)絡(luò)功能和高效的流量路由,確保在不影響性能或安全性的情況下充分利用 BlueField 資源。這一基礎(chǔ)使開發(fā)者能夠輕松構(gòu)建高吞吐量、延遲敏感的應(yīng)用程序。
DOCA 服務(wù)
NVIDIA NGC上托管的精選DOCA 服務(wù)集增強(qiáng)了 BlueField DPU 的功能,DPF 提供了直接在 BlueField 上獲取和部署這些服務(wù)的工具,并作為 Kubernetes 集群的一部分。這些即用型服務(wù)涵蓋高級(jí)監(jiān)測(cè)、網(wǎng)絡(luò)、存儲(chǔ)、安全等,可擴(kuò)展 BlueField 的功能,從而實(shí)現(xiàn)關(guān)鍵服務(wù)的快速部署。通過 NVIDIA NGC,用戶可以無縫訪問不斷擴(kuò)展的 NVIDIA 認(rèn)證服務(wù)和應(yīng)用程序庫,這些服務(wù)和應(yīng)用程序與 DPF 完全集成。
DPF 的初始版本包括 HBN、OVN-Kubernetes、Telemetry 和 BlueMan 作為第一套 DOCA 服務(wù)集,后續(xù)版本將引入對(duì)其他服務(wù)的支持,以進(jìn)一步增強(qiáng)功能并擴(kuò)展集成功能。
除了 NVIDIA 服務(wù)之外,DPF 還編排了第三方 DOCA 服務(wù),為 BlueField 環(huán)境引入了專用功能。從網(wǎng)絡(luò)安全解決方案到負(fù)載均衡和防火墻應(yīng)用程序,第三方服務(wù)使用戶能夠根據(jù)其特定需求打造強(qiáng)大的生態(tài)系統(tǒng)。DPF 采用開放式模塊化架構(gòu),可促進(jìn)與服務(wù)供應(yīng)商的合作,為用戶提供更廣泛的功能和靈活性。
DPF 為開發(fā)者提供所需的工具和服務(wù)(打包在容器、Helm 圖表和實(shí)施藍(lán)圖中),以輕松與 DPF 集成,并構(gòu)建、定制和部署先進(jìn)的 BlueField 加速軟件平臺(tái)。
利用 DPF 引領(lǐng) DPU 加速云計(jì)算的未來
NVIDIA DOCA 平臺(tái)框架(DPF)重新定義了 BlueField 加速環(huán)境的云基礎(chǔ)設(shè)施,徹底改變了云服務(wù)的配置和管理方式。此外,NVIDIA DPF 路線圖也預(yù)示著即將推出激動(dòng)人心的功能。即將推出的功能將為裸機(jī) BlueField 加速的基礎(chǔ)設(shè)施帶來零信任功能,從硬件層上保護(hù)環(huán)境。
我們鼓勵(lì)開發(fā)者、電信公司和企業(yè)探索 DPF 的功能,下載藍(lán)圖,并嘗試構(gòu)建針對(duì)高性能和可擴(kuò)展基礎(chǔ)設(shè)施優(yōu)化的應(yīng)用程序。立即開始使用 DPF,引領(lǐng) BlueField 加速的云基礎(chǔ)設(shè)施的未來。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5188瀏覽量
105444 -
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274259 -
DPU
+關(guān)注
關(guān)注
0文章
386瀏覽量
24597
原文標(biāo)題:利用 NVIDIA DOCA 平臺(tái)框架助力新一代 DPU 加速的云基礎(chǔ)設(shè)施
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用
在NVIDIA BlueField-3 DPU上運(yùn)行WEKA客戶端的實(shí)際優(yōu)勢(shì)

《CST Studio Suite 2024 GPU加速計(jì)算指南》
NVIDIA將亮相亞馬遜云科技re:Invent 2024
NVIDIA加速全球大多數(shù)超級(jí)計(jì)算機(jī)推動(dòng)科技進(jìn)步

NVIDIA加速計(jì)算如何推動(dòng)醫(yī)療健康
未來智慧城市發(fā)展的四大引領(lǐng)方向
利用NVIDIA RAPIDS加速DolphinDB Shark平臺(tái)提升計(jì)算性能

NVIDIA在加速計(jì)算和生成式AI領(lǐng)域的創(chuàng)新
如何理解云計(jì)算?
IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書
借助NVIDIA DOCA 2.7增強(qiáng)AI 云數(shù)據(jù)中心和NVIDIA Spectrum-X
NVIDIA DPU編程入門開課儀式在澳門科技大學(xué)成功舉辦
NVIDIA 通過 CUDA-Q 平臺(tái)為全球各地的量子計(jì)算中心提供加速

評(píng)論