當(dāng)今的數(shù)據(jù)中心正在迅速地發(fā)展,這就需要一種被稱為DPU(數(shù)據(jù)處理器)的新型處理器。新數(shù)據(jù)中心的一些應(yīng)用需要的是一種可卸載、加速和隔離的特定類型DPU架構(gòu)。8月23日,在Hot Chips 33大會(huì)上,NVIDIA芯片架構(gòu)師Idan Burstein探討了數(shù)據(jù)中心不斷變化的需求,以及這些需求如何推動(dòng)NVIDIA BlueField DPU系列產(chǎn)品的架構(gòu)。
為何需要DPU?
以前的數(shù)據(jù)中心需在專用服務(wù)器集群上獨(dú)自運(yùn)行應(yīng)用,現(xiàn)如今已不同從前?,F(xiàn)在,CPU計(jì)算、GPU計(jì)算和存儲(chǔ)等資源已被解聚,可以根據(jù)需求將資源組合(分配和組裝),還可以根據(jù)應(yīng)用和工作負(fù)載的變化對(duì)資源進(jìn)行重新組合或重新分配。
GPU加速的AI正在成為主流,其增強(qiáng)了大量的商業(yè)應(yīng)用,而不僅僅是科學(xué)應(yīng)用。以虛擬化為主的服務(wù)器,現(xiàn)在很可能是在裸金屬服務(wù)器上的容器中運(yùn)行,盡管這些服務(wù)器不再有管理程序或虛擬機(jī),其仍然需要軟件定義的基礎(chǔ)設(shè)施。為支持保證信息安全的零信任方法,防火墻代理和反惡意軟件過濾器等網(wǎng)絡(luò)安全工具必須在每臺(tái)服務(wù)器上運(yùn)行。這些變化對(duì)網(wǎng)絡(luò)、安全和管理所需的工作方式產(chǎn)生了巨大影響,進(jìn)而推動(dòng)了每臺(tái)服務(wù)器對(duì)DPU的需求。
DPU任務(wù)的最佳定義:卸載、加速和隔離基礎(chǔ)設(shè)施應(yīng)用。
卸載:從服務(wù)器CPU中接管基礎(chǔ)設(shè)施任務(wù),這樣就可以讓盡可能多的CPU計(jì)算能力來運(yùn)行應(yīng)用。
加速:運(yùn)用DPU芯片硬件中的加速,以比CPU更快的速度運(yùn)行基礎(chǔ)設(shè)施功能。
隔離:將關(guān)鍵的數(shù)據(jù)面和控制面功能轉(zhuǎn)移到DPU上,這既減輕CPU的工作,同時(shí)還可以在CPU或其軟件被破壞時(shí)保護(hù)這些功能。
一個(gè)DPU需要具備完成以上三個(gè)任務(wù)的能力。
圖1:數(shù)據(jù)中心已發(fā)展成為軟件定義、容器化和可組合的特性。卸載基礎(chǔ)設(shè)施任務(wù)至DPU可提高服務(wù)器性能,效率與安全。
僅移動(dòng)CPU核是不夠的
一些DPU廠商所嘗試的一種方法是,在DPU上放置大量的CPU核以用于卸載服務(wù)器CPU的應(yīng)用。無論是Arm、RISC、X86還是其他類型的CPU核,這種方法都具有根本缺陷,因?yàn)榉?wù)器的CPU或GPU對(duì)于CPU最優(yōu)或GPU最優(yōu)的應(yīng)用已是高效的。雖然DPU上的Arm(或RISC及其他)核確實(shí)可能比一般的服務(wù)器CPU更節(jié)能,但除非Arm核有一個(gè)用于該特定應(yīng)用的加速器,否則不值得為了節(jié)能而增加復(fù)雜性。
此外,目前市面上已出現(xiàn)基于Arm CPU的服務(wù)器,例如基于Amazon EC2 Graviton的實(shí)例、Oracle A1 實(shí)例,基于Ampere Computing 的Altra CPU,以及Fujitsu的 A64FX CPU的服務(wù)器。在Arm上高效運(yùn)行的應(yīng)用,均可部署在Arm服務(wù)器上。只有在某些功能必須與服務(wù)器 CPU 隔離的情況下,例如控制平面或基礎(chǔ)設(shè)施應(yīng)用程序的一部分,才需要移動(dòng)到DPU的Arm核上。
無論從技術(shù)角度出發(fā),還是從經(jīng)濟(jì)角度出發(fā),將一個(gè)標(biāo)準(zhǔn)應(yīng)用的工作負(fù)載從服務(wù)器的N個(gè)X86核卸載到N個(gè)或2N個(gè)DPU的Arm 核上都毫無意義。將AI或機(jī)器學(xué)習(xí)應(yīng)用從服務(wù)器GPU卸載到DPU的Arm核上亦是如此。將應(yīng)用從服務(wù)器的CPU和GPU轉(zhuǎn)移到DPU的CPU上,并且不進(jìn)行任何類型的加速的舉動(dòng),充其量只是虛晃,最壞的情況還會(huì)降低服務(wù)器的性能和效率。
圖2:將應(yīng)用從服務(wù)器的CPU轉(zhuǎn)移到無加速DPU的CPU核上,除了滿足將這些應(yīng)用與CPU服務(wù)器域中隔離的需求外,其他場景都毫無益處。
DPU最適合的加速類型
很明顯,一個(gè)合適的DPU必須通過硬件加速來增加數(shù)據(jù)中心的最大效益。它應(yīng)該加速什么?卸載涉及數(shù)據(jù)移動(dòng)和安全性的應(yīng)用,DPU是最佳選擇。 例如,網(wǎng)絡(luò)與遠(yuǎn)程直接內(nèi)存訪問 (RDMA) 都最適合卸載到 DPU 芯片,RDMA常用于加速 AI、HPC、大數(shù)據(jù)和存儲(chǔ)應(yīng)用的服務(wù)器之間的數(shù)據(jù)移動(dòng)。
對(duì)比CPU,如果DPU 具有針對(duì)特定任務(wù)的加速硬件,卸載和運(yùn)行效率將會(huì)提高很多。 若應(yīng)用滿足于 DPU 的硬件加速能力時(shí),一個(gè)設(shè)計(jì)合理的 DPU 可以執(zhí)行 30個(gè)、100個(gè) 甚至 是300 個(gè) CPU 的工作。
DPU 的 CPU 核非常適合運(yùn)行必須與服務(wù)器應(yīng)用程序,以及操作系統(tǒng)域隔離開的控制平面,或安全應(yīng)用。 例如,在裸金屬服務(wù)器中,租戶不希望在他們的服務(wù)器上運(yùn)行管理程序,或虛擬機(jī)來進(jìn)行遠(yuǎn)程管理、遙測或安全,因?yàn)檫@會(huì)損害性能,或干擾到應(yīng)用程序。 然而,云運(yùn)營商仍然需要能夠監(jiān)控服務(wù)器的性能并檢測、阻止或隔離入侵該服務(wù)器的安全威脅。
DPU 可以獨(dú)立于應(yīng)用程序域來運(yùn)行此軟件,提供安全和控制,同時(shí)不干擾服務(wù)器的性能或操作。
關(guān)于作者
John Kim 是 NVIDIA 網(wǎng)絡(luò)事業(yè)部的存儲(chǔ)市場總監(jiān),致力于幫助客戶和供應(yīng)商從高性能網(wǎng)絡(luò)連接、智能網(wǎng)卡卸載和遠(yuǎn)程直接數(shù)據(jù)存取 (RDMA) 中獲益,尤其是在存儲(chǔ)、大數(shù)據(jù)和人工智能領(lǐng)域。
審核編輯:郭婷
-
cpu
+關(guān)注
關(guān)注
68文章
11080瀏覽量
217062 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106397 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
87978
發(fā)布評(píng)論請(qǐng)先 登錄
簡單認(rèn)識(shí)安森美AI數(shù)據(jù)中心電源解決方案

小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
第三屆NVIDIA DPU黑客松開啟報(bào)名
利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
數(shù)據(jù)中心液冷技術(shù)和風(fēng)冷技術(shù)的比較

適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

在NVIDIA BlueField-3 DPU上運(yùn)行WEKA客戶端的實(shí)際優(yōu)勢(shì)

如何選擇數(shù)據(jù)中心服務(wù)
簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變
英特爾至強(qiáng)6能效核處理器助力數(shù)據(jù)中心變革

怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心
非穩(wěn)壓中間總線轉(zhuǎn)換器在數(shù)據(jù)中心中的應(yīng)用

評(píng)論