一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

DPU如何改造大型數(shù)據(jù)中心?

麗臺科技 ? 來源:芯東西 ? 作者:芯東西 ? 2022-12-20 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

將HPC的超高算力搬到云上,什么技術(shù)路子這么強?

沒有云計算廠商,會輕易放過大降成本的機會。

云是未來,這在全球各大科技巨頭的最新財報中已經(jīng)得到明確的驗證。最新財季,AWS凈銷售額同比增長27%,微軟智能云收入同比增長20%,谷歌云收入同比增長37%,阿里云營收同比增長4%,百度智能云營收同比增長24%……

承載著“讓算力資源大眾化”使命的云計算,形成了撐起科技巨頭未來的新型支柱業(yè)務。而要持續(xù)拉高算力峰值、提高客戶上云服務體驗,推進架構(gòu)層的變革已是箭在弦上。

技術(shù)迭代的洪流滾滾向前,被冠以數(shù)據(jù)中心“第三顆主力芯片”的DPU,正成為傳統(tǒng)云計算架構(gòu)向云原生超級計算升級的“底牌”。

01.

數(shù)據(jù)中心下一站:云原生超級計算

云是未來,已是無可爭議。但如何通過云服務向暴漲的用戶同時提供更大規(guī)模的算力支持,是擺在每個云大廠面前的核心議題。

0699e282-7ffa-11ed-8abf-dac502259ad0.png

▲當前云和數(shù)據(jù)中心面臨平衡性能與能耗的挑戰(zhàn)(圖源:NVIDIA)

云服務的優(yōu)勢是隨用隨取、按需分配算力,高性能計算則擁有強大算力。一種“優(yōu)勢互補”的思路開始走向落地:如果將兩者的技術(shù)路線結(jié)合,是不是就能在云上提供媲美超級計算機的性能?

乍一想可行,但落到實處,需解決很多的技術(shù)挑戰(zhàn)。在傳統(tǒng)云原生的算力基礎設施中,CPU是事無巨細的芯片“大總管”,既要處理計算任務,又要監(jiān)管通信和存儲,忙著這頭,就顧不上那頭,中間造成大量的排隊等待時間和算力資源浪費。

這就好比餐廳,規(guī)模小、顧客少時,一位大廚還能忙得過來。此時這位大廚包攬了后廚的所有工作,除了忙著炒菜外,還操心采買、倉儲、切配、端菜等等。然而等顧客越來越多,如果還靠他一手包辦,那么炒菜效率就低了,每個顧客的等菜時間都長,體驗都不好。

為解決這些痛點而生的云原生超級計算架構(gòu),正在云計算數(shù)據(jù)中心流行開來。

06d65668-7ffa-11ed-8abf-dac502259ad0.png

▲云原生超級計算架構(gòu)(圖源:NVIDIA)

云原生超級計算的核心思路是“分而治之”,相當于給廚師配上幫廚、服務員等專業(yè)幫手,這樣一來,廚師能夠?qū)P陌巡顺吹糜挚煊趾谩?/p>

如今,越來越多的商業(yè)云開始提供高性能計算(HPC)云服務,大型算力中心也產(chǎn)生更多的上云需求。主要承擔HPC和大型人工智能AI)訓練任務的算力中心,本身算力資源池非常大,存在算力資源閑置問題。

而引入云原生超級計算技術(shù),可以將算力資源切分供給多用戶多業(yè)務,通過編排調(diào)度,讓每個業(yè)務都能享有堪比獨占所有資源時的高性能。

無論是從提升性能、優(yōu)化設計,亦或是從節(jié)能減排的角度,云原生超級計算對于商業(yè)云和大型算力中心的架構(gòu)優(yōu)化思路都很有借鑒價值。

02.

給高性能業(yè)務上云開路!

解讀云原生超級計算的靈魂

云原生超級計算請的專業(yè)幫手,就是DPU。

作為替CPU分攤工作的輔助“大腦”,DPU接手了通信、存儲、安全等任務,讓CPU能專心處理用戶業(yè)務,這樣各種計算和通信任務就可以同步進行,不再像以往那樣出現(xiàn)擁堵問題。

06f994c0-7ffa-11ed-8abf-dac502259ad0.png

▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)

經(jīng)過兩年發(fā)展,這個被AI計算巨頭NVIDIA(英偉達)帶火的芯片新秀,已經(jīng)開始廣泛落地于云計算和高性能計算的算力基礎設施建設大潮中。

具體而言,NVIDIA BlueField DPU對數(shù)據(jù)中心的最大價值,就是實現(xiàn)性能和能效的顯著提升。

首先是性能,提升數(shù)據(jù)中心整體性能的一大關鍵阻力是網(wǎng)絡。原本計算能力有十成,多個任務同時處理后,CPU處理這個計算任務或者管理調(diào)配通信、存儲等資源時,另一個計算任務就只能浪費時間等待。此外,如果兩個任務在通信過程中狹路相逢,造成網(wǎng)絡阻塞,那么就會造成延時。在金融銀行等對延時高度敏感的應用場景中,這可能給客戶交易造成損失。

而在 NVIDIA BlueField DPU主管網(wǎng)絡、存儲等基礎架構(gòu)功能后,不僅CPU可以將更多計算資源用在云服務客戶的業(yè)務上,整體網(wǎng)絡阻塞問題得到明顯改善,而且BlueField DPU本身攜帶的計算資源也可以輔助加速計算。

0719d096-7ffa-11ed-8abf-dac502259ad0.png

0719d096-7ffa-11ed-8abf-dac502259ad0.png

▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)

再從能效來看,隨著數(shù)據(jù)中心規(guī)模越來越大,改善耗電量、降低基礎設施采購和降低電力成本,已經(jīng)是優(yōu)化現(xiàn)代數(shù)據(jù)中心和主要目標。

引入NVIDIA BlueField DPU,已是較大數(shù)據(jù)中心提升系統(tǒng)能效的有效途徑之一。在運行基礎設施任務時,內(nèi)置專用硬件引擎的NVIDIA BlueField DPU,效率要比CPU高得多。此外,NVIDIA BlueField DPU上的CPU核心采用Arm架構(gòu),天然比多數(shù)x86服務器CPU更加節(jié)能,并且可以直接訪問網(wǎng)絡管線。

換個角度來看,同樣的CPU數(shù)量,將計算資源更集中的供給云服務業(yè)務后,能夠提供更高性能。反過來,實現(xiàn)相同的性能,其實要比以前消耗更少的CPU,這相當于減少了硬件采購成本,進而有助于大幅降低總體擁有成本(TCO)。

根據(jù)《NVIDIA BlueField DPU能效白皮書》,通過用NVIDIA BlueField DPU卸載,在3年期間將1萬臺服務器的每臺服務器耗電量降低200W,可在中國地區(qū)節(jié)省的成本估算值接近400萬美元(近2800萬人民幣)。

07619930-7ffa-11ed-8abf-dac502259ad0.png

▲根據(jù)2020/2021年電價,在不同國家/地區(qū),通過使用DPU卸載在3年期間將1萬臺服務器的每臺服務器耗電量降低200瓦,可節(jié)省的成本估算值(圖源:NVIDIA DPU能效白皮書)

如果為擁有1萬臺服務器的大型數(shù)據(jù)中心計算,將IPsec加密/解密卸載到NVIDIA DPU,那么大型數(shù)據(jù)中心的3年TCO有望節(jié)省約2630萬美元(折合約1.8億人民幣)。

077eacfa-7ffa-11ed-8abf-dac502259ad0.png

▲為擁有1萬臺服務器的大型數(shù)據(jù)中心計算將IPSec加密/解密卸載到BlueField DPU的TCO(圖源:NVIDIA DPU能效白皮書)

如此顯著的成本優(yōu)化,得益于英偉達極有遠見的前瞻性布局:將硬件做到業(yè)界性能標桿,用軟件培養(yǎng)開發(fā)者習慣,從而構(gòu)建一個普適的高性能生態(tài)環(huán)境。

03.

開業(yè)界先例

實現(xiàn)公有云上的業(yè)務性能隔離

GPU如出一轍,提及DPU,英偉達絕對是被最先想起的公司,足見英偉達在業(yè)界的影響力。

而軟硬“雙劍合璧”,加上在生態(tài)合作和口碑方面的優(yōu)勢滾雪球般越滾越大,長期是英偉達能夠站在潮頭、難以復制的殺手锏。

硬件上,NVIDIA BlueField DPU在本地Host Memory和遠端Host Memory之間建立了一條直接的通信通道,整個過程不需要CPU分神參與任何通信操作,并通過提供Pre-Active擁塞控制技術(shù)實現(xiàn)性能隔離。

07adab86-7ffa-11ed-8abf-dac502259ad0.png

▲DPU硬件與DOCA軟件協(xié)作(圖源:NVIDIA)

而硬件性能的充分發(fā)揮,離不開大量的軟件工作。針對BlueField DPU,英偉達打造了NVIDIA DOCA來提供各種加速庫及標準編程接口,為其客戶不斷降低相應應用的DPU開發(fā)門檻。

再加上與英偉達其他先進網(wǎng)絡技術(shù)的協(xié)同配合,數(shù)據(jù)中心的網(wǎng)絡頑疾得以有效優(yōu)化,能夠更充分地發(fā)揮硬件資源的性能。

這些優(yōu)勢的疊加,推動云原生超級計算技術(shù)走向落地。最新典例便是在HPC云服務方面一馬當先的云巨頭微軟智能云Azure,在英偉達BlueField DPU相關產(chǎn)品及技術(shù)的支持下,它在業(yè)界率先實現(xiàn)了公有云上的業(yè)務性能隔離。

也就是說,讓業(yè)務在云上擁有像獨享資源時一樣的高性能水平,已經(jīng)從設想轉(zhuǎn)變?yōu)楝F(xiàn)實。

07d3753c-7ffa-11ed-8abf-dac502259ad0.png

▲借助云原生超級計算技術(shù),Azure在業(yè)界率先實現(xiàn)公有云上的業(yè)務性能隔離(圖源:NVIDIA)

NVIDIA網(wǎng)絡亞太區(qū)高級總監(jiān)宋慶春告訴芯東西,如果現(xiàn)有公有云想將計算平臺升級向云原生超級計算,可以先從英偉達BlueField DPU或標準網(wǎng)卡著手,在體驗到相應的技術(shù)優(yōu)勢后,在逐步演進至更多網(wǎng)絡計算技術(shù)的替換,最終改造成基于云原生超級計算的最優(yōu)計算平臺。

目前云原生超級計算主要應用于面向高性能業(yè)務的上云,包括傳統(tǒng)高性能計算業(yè)務(如氣象預測、石油勘探、生命科學等應用)、大規(guī)模AI訓練任務、推薦任務等,并通過多項測試,驗證了NVIDIA BlueField DPU在提升數(shù)據(jù)中心性能和能效的真本事。

例如,VMware和英偉達在服務器上測試Redis鍵值存儲的測試表明,在25Gb/s網(wǎng)絡上運行Redis工作負載的VMware vSphere分布式服務引擎時,將網(wǎng)絡功能卸載到NVIDIA BlueField DPU上,可釋放12個CPU核心,同時提高Redis的性能。

相比不使用DPU,使用NVIDIA BlueField DPU卸載,可為近萬臺服務器3年節(jié)省約5650萬美元(近4億人民幣)的總體擁有成本。

07faa5da-7ffa-11ed-8abf-dac502259ad0.png

▲將VMware ESX網(wǎng)絡功能卸載到DPU后的TCO計算結(jié)果,其中Redis工作負載最初運行在1萬臺服務器上,并支持每臺服務器每秒處理1400萬個Redis事務(圖源:NVIDIA DPU能效白皮書)

面向大型科研項目,通過DPU加速通信,分子動力學模型性能可提升20%,數(shù)據(jù)建模應用實現(xiàn)26%的性能提升,天氣預告模型實現(xiàn)約24%的性能提升。即將走向市場的NVIDIA BlueField-3 DPU將支持400G帶寬,內(nèi)存平衡較上一代提升4倍。

0862b594-7ffa-11ed-8abf-dac502259ad0.png

▲DPU卸載和加速帶來的高性能計算性能優(yōu)勢(圖源:NVIDIA)

內(nèi)置NVIDIA BlueField DPU的NVIDIA Quantum InfiniBand網(wǎng)絡平臺,也已經(jīng)在超級計算領域功勛赫赫,并在全球超算榜單中展現(xiàn)出越來越高的存在感。以最新全球IO500高性能存儲網(wǎng)絡方案榜單為例,10節(jié)點測試中,前4名系統(tǒng)均采用NVIDIA Quantum InfiniBand網(wǎng)絡。

08825b1a-7ffa-11ed-8abf-dac502259ad0.png

▲2022年11月全球IO500高性能存儲網(wǎng)絡方案榜單(圖源:NVIDIA)

04.

結(jié)語:釋放云的力量

奔赴新型數(shù)據(jù)中心未來

2020年秋季,當“芯片圈知名帶貨王”NVIDIA首席執(zhí)行官黃仁勛在GTC大會上亮出DPU時,DPU對于不少云計算及超級計算從業(yè)者來說還是一個新鮮但不確定有多大價值的新概念。

今天,再談起DPU,你也許會想起AWS Nitro,也許會想起阿里云CIPU,會想起英特爾IPU,抑或是這兩年突然涌起的DPU創(chuàng)業(yè)與投資熱潮。而引爆DPU概念的NVIDIA,已經(jīng)低調(diào)地將重心轉(zhuǎn)向部署,讓“第三顆主力芯片”真槍實彈地進入一線數(shù)據(jù)中心客戶的真實業(yè)務戰(zhàn)場,作為云原生超級計算的靈魂,為數(shù)據(jù)中心展現(xiàn)新的架構(gòu)可能。

如今,DPU正呈“神仙打架”之勢,通過推動網(wǎng)絡和計算架構(gòu)的創(chuàng)新,它將幫助大型數(shù)據(jù)中心的建設者們穿越周期,奔赴一個高計算密度、智能集約、綠色低碳、安全可靠的數(shù)據(jù)中心未來。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7976

    瀏覽量

    140083
  • 數(shù)據(jù)中心

    關注

    16

    文章

    5230

    瀏覽量

    73527
  • DPU
    DPU
    +關注

    關注

    0

    文章

    393

    瀏覽量

    24937

原文標題:三年節(jié)省上億人民幣!DPU如何改造大型數(shù)據(jù)中心?

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中型數(shù)據(jù)中心中的差分晶體振蕩器應用與匹配方案

    中型數(shù)據(jù)中心的定義與特點 中型數(shù)據(jù)中心通常服務于中大型企業(yè)、科研機構(gòu)或地方行業(yè)節(jié)點,具備50至200個機柜,部署多臺服務器、交換設備、存儲系統(tǒng)與光通信鏈路等,強調(diào)高帶寬、低延遲與高可用性。關鍵設備
    發(fā)表于 07-01 16:33

    數(shù)據(jù)中心都在用的差分晶振,看完你就懂了

    數(shù)據(jù)中心
    FCom富士晶振
    發(fā)布于 :2025年05月30日 13:12:30

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計算和網(wǎng)絡壓力。從大語言模型(LLM)訓練到生成式AI應用,海量數(shù)據(jù)處理需求推動了網(wǎng)絡帶寬的快速增長。在此背景下,800G網(wǎng)絡技術(shù)應運而生
    發(fā)表于 03-25 17:35

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    隨著技術(shù)的飛速發(fā)展,數(shù)據(jù)中心正在從100G和400G演進到800G時代,對高速數(shù)據(jù)傳輸?shù)男枨笈c日俱增。因此,選擇高效且可靠的布線解決方案對于800G數(shù)據(jù)中心至關重要。本文將深入探討800G數(shù)據(jù)
    發(fā)表于 03-24 14:20

    數(shù)據(jù)中心發(fā)展與改造

    全球多數(shù)數(shù)據(jù)中心基礎設施已超六年,能耗高而效率低。隨著AI的發(fā)展,企業(yè)正致力于整合與提升能效的現(xiàn)代化改造。同時數(shù)據(jù)中心呈現(xiàn)規(guī)?;?、高密化、綠色化發(fā)展趨勢。19821800313 一、目前數(shù)據(jù)中
    的頭像 發(fā)表于 02-28 16:50 ?389次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展與<b class='flag-5'>改造</b>

    大型數(shù)據(jù)中心影響周邊電力質(zhì)量

    近日,據(jù)最新監(jiān)測數(shù)據(jù)顯示,美國本土約一百萬個住宅電力質(zhì)量傳感器發(fā)現(xiàn),大型數(shù)據(jù)中心附近的電力質(zhì)量正呈現(xiàn)下降趨勢。這一發(fā)現(xiàn)引起了廣泛關注。 報告指出,電力質(zhì)量下降最為嚴重的區(qū)域通常位于大型
    的頭像 發(fā)表于 12-30 14:17 ?509次閱讀

    施耐德電氣助力數(shù)據(jù)中心運維管理

    上至企業(yè)配備的大型、超大型數(shù)據(jù)中心,下至街邊的路燈、地鐵的運營、便利店的24小時服務,數(shù)據(jù)中心已與我們每個人的生活深刻交織,成為社會與生活正常運轉(zhuǎn)背后不可獲取的重要組成。
    的頭像 發(fā)表于 12-13 15:01 ?563次閱讀

    速看!Atlassian云版與數(shù)據(jù)中心版的創(chuàng)新進展

    數(shù)據(jù)中心
    龍智DevSecOps
    發(fā)布于 :2024年11月22日 17:29:05

    改造數(shù)據(jù)中心需要遵循這五大規(guī)則

    數(shù)據(jù)中心改造過程中,數(shù)據(jù)存儲問題可能是最艱巨的障礙,以下關于實現(xiàn)數(shù)據(jù)中心改造的五大規(guī)則,可能會對您有所啟發(fā)。 ? 1.使存儲虛擬化更容易
    的頭像 發(fā)表于 10-31 11:02 ?429次閱讀

    淺析如何降低數(shù)據(jù)中心電力能耗

    摘要:“新基建”為數(shù)據(jù)中心的建設開辟了廣闊的發(fā)展前景。然而,鑒于數(shù)據(jù)中心巨大的能源消耗,政府和業(yè)界對其給予了高度關注。一些省份和城市對新建或改造數(shù)據(jù)中心設定了嚴格的PUE(能源使用效
    的頭像 發(fā)表于 09-02 12:31 ?609次閱讀
    淺析如何降低<b class='flag-5'>數(shù)據(jù)中心</b>電力能耗

    怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

    數(shù)據(jù)中心配電系統(tǒng)
    安科瑞王金晶
    發(fā)布于 :2024年08月29日 14:51:36

    數(shù)據(jù)中心使用智能負載組是個好主意#負載 #負載組

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月19日 07:43:30

    混合冷卻在數(shù)據(jù)中心中仍將是必不可少的#混合冷卻

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月06日 06:58:06

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡、存儲、安全等處理性能,助力服務器運行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設時,圍繞 DPU 構(gòu)建
    發(fā)表于 07-24 15:32

    戴爾科技如何幫助巴克利改造升級數(shù)據(jù)中心

    都會選擇對老舊數(shù)據(jù)中心進行“改造升級”——如通過升級設備、優(yōu)化更新系統(tǒng)、調(diào)整物理布局、采用模塊化設計等。
    的頭像 發(fā)表于 07-19 10:54 ?812次閱讀