NVIDIA為全球最快的10臺超級計算機(jī)中的8臺提供加速。NVIDIA Selene成為美國速度最快的工業(yè)系統(tǒng),同時具有領(lǐng)先水平的能效表現(xiàn)。
最新TOP500超級計算機(jī)榜單展現(xiàn)了現(xiàn)代科學(xué)計算的整體情況:通過AI和數(shù)據(jù)分析進(jìn)行擴(kuò)展并使用NVIDIA技術(shù)提供加速。
目前,全球排名前十的超級計算機(jī)中有8臺采用了NVIDIA GPU、InfiniBand網(wǎng)絡(luò)技術(shù),或同時采用了兩種技術(shù)。其中包括美國、歐洲和中國最強(qiáng)大的超級計算機(jī)系統(tǒng)。
在TOP500榜單的所有系統(tǒng)中,有三分之二的系統(tǒng)(333套)采用了NVIDIA(現(xiàn)已與Mellanox合并)為其賦力。而在2017年6月發(fā)布的榜單上,采用兩家公司的系統(tǒng)占比總和還不到一半(203套)。
如今,榜單上有將近四分之三(74%)的全新InfiniBand系統(tǒng)采用了NVIDIA Mellanox HDR 200G InfiniBand,這也展現(xiàn)了該最新智能高速數(shù)據(jù)互連技術(shù)的迅速普及。
自2019年以來,榜單上使用HDR InfiniBand的TOP500系統(tǒng)數(shù)量幾乎增加了一倍。共有141臺超級計算機(jī)使用了InfiniBand,自2019年6月以來增長了12%。
越來越多TOP500系統(tǒng)采用了NVIDIA GPU、Mellanox網(wǎng)絡(luò)技術(shù),或同時采用了這兩種技術(shù)。
在TOP500超級計算機(jī)中,有305套系統(tǒng)使用了NVIDIA Mellanox InfiniBand和Ethernet網(wǎng)絡(luò)(占61%),包括所有141套InfiniBand系統(tǒng)和164套(占63%)使用Ethernet的系統(tǒng)。
在能效方面,使用NVIDIA GPU的系統(tǒng)表現(xiàn)也都脫穎而出。與不使用NVIDIA GPU的系統(tǒng)相比,其能效(以gigaflops/watt為單位)平均高出2.8倍。
這也是為何排在TOP500榜單前25的超級計算機(jī)中有20臺系統(tǒng)都選擇采用NVIDIA GPU的原因之一。
NVIDIA GPU提高了TOP500超級計算機(jī)的能效。
最能夠證明此能效表現(xiàn)的是NVIDIA內(nèi)部研究集群的新成員—— Selene(如上圖所示)。該系統(tǒng)在Linpack基準(zhǔn)測試中以27.5 petaflops的性能表現(xiàn),在最新Green500榜單中排名第二,在整個TOP500榜單中排名第七。
Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差甚微,但排名第一的系統(tǒng)體積更小,其性能表現(xiàn)僅排在第394位。
Selene是排名前100系統(tǒng)中唯一突破20 gigaflops/watt能效表現(xiàn)大關(guān)的系統(tǒng),同時也是全球性能排名第二的工業(yè)超級計算機(jī),僅次于意大利能源巨頭Eni S.p.A.的NO. 6 系統(tǒng)(同樣使用了NVIDIA GPU)。
在能效方面,相比于未使用NVIDIA GPU的其它TOP500系統(tǒng)的平均能效表現(xiàn),Selene的能效高出了6.8倍。Selene的優(yōu)異性能和能效均要?dú)w功于NVIDIA A100 GPU中的第三代Tensor Core核心。該核心可以為傳統(tǒng)的64位數(shù)學(xué)模擬及精度較低的AI工作提供加速。
Selene所取得的名次對于它來說已經(jīng)是一項了不起的成就了,畢竟該系統(tǒng)只用了不到4周的時間就構(gòu)建完成了。工程師們可以使用NVIDIA的模塊化參照架構(gòu),快速構(gòu)建Selene。
該參考架構(gòu)既NVIDIA的DGX SuperPOD。該系統(tǒng)基于強(qiáng)大而靈活的現(xiàn)代數(shù)據(jù)中心構(gòu)建模塊 —— NVIDIA DGX A100系統(tǒng)。
高度靈活的DGX A100系統(tǒng)現(xiàn)已上市。該系統(tǒng)在一臺6U服務(wù)器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)技術(shù),可以為高性能計算、數(shù)據(jù)分析和AI工作(包括訓(xùn)練和推理)等多種組合提供加速,并實現(xiàn)快速部署。
從系統(tǒng)擴(kuò)展至SuperPOD
參照該參考架構(gòu)設(shè)計,任何企業(yè)機(jī)構(gòu)都可以快速搭建屬于其自己的世界級計算集群。參照設(shè)計展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機(jī)連接20臺DGX A100系統(tǒng)。
InfiniBand為排名前10的超級計算機(jī)中的7臺提速,其中包括中國、歐洲和美國性能最強(qiáng)大的系統(tǒng)。
4名操作人員僅需不到1個小時,就能組裝起一套由20臺系統(tǒng)組成的DGX A100集群,創(chuàng)建出一套性能可以達(dá)到2-petaflops的系統(tǒng),如此性能表現(xiàn)足以被列入TOP500榜單當(dāng)中了。此類系統(tǒng)能夠在標(biāo)準(zhǔn)數(shù)據(jù)中心的功率和散熱能力承擔(dān)范圍內(nèi)輕松運(yùn)行。
通過添加NVIDIA Mellanox InfiniBand交換機(jī)層,工程師將14套分別配置有20臺DGX A100系統(tǒng)的模塊組相連接,從而創(chuàng)造出了Selene。Selene系統(tǒng)具有:
280臺 DGX A100系統(tǒng)
2240顆NVIDIA A100 GPU
494臺NVIDIA Mellanox Quantum 200G InfiniBand交換機(jī)
56 TB/s的網(wǎng)絡(luò)架構(gòu)
7PB的高性能全閃存
Selene最重要的性能規(guī)格之一是可以提供超過1 exaflops的AI性能。此外,在TPCx-BB關(guān)鍵數(shù)據(jù)分析基準(zhǔn)測試中,其僅使用了16臺DGX A100系統(tǒng)就創(chuàng)造了新紀(jì)錄,其性能表現(xiàn)高出其他系統(tǒng)20倍。
如今,AI和分析已成為科學(xué)計算中的新需求,因此這些結(jié)果也顯得格外重要。
在全球各地,研究者正在使用深度學(xué)習(xí)和數(shù)據(jù)分析預(yù)測各種最具潛力的領(lǐng)域,并進(jìn)而開展實驗。這一方法能夠幫助研究者減少成本高昂且費(fèi)時的實驗量,從而加快取得科學(xué)成果的速度。
例如,目前有6臺在建系統(tǒng)雖然沒有出現(xiàn)在此次TOP500榜單中,但它們都采用了NVIDIA于上月發(fā)布的A100 GPU。這些系統(tǒng)將被用于加速HPC和AI的融合,開辟科學(xué)研究的新時代。
TOP500擴(kuò)展科學(xué)計算應(yīng)用
在這些系統(tǒng)當(dāng)中,其中一臺位于美國阿貢國家實驗室(Argonne National Laboratory)。該機(jī)構(gòu)的研究者將使用24臺NVIDIA DGX A100系統(tǒng)組成的集群對數(shù)十億種藥物進(jìn)行掃描,以尋找COVID-19的治療方法。
阿貢國家實驗室的計算生物學(xué)家Arvind Ramanathan在有關(guān)A100 GPU的首批用戶報告中表示:“這項工作中的一大難點(diǎn)在于在計算機(jī)上進(jìn)行模擬,因此我們運(yùn)用AI來指導(dǎo)下一步的采樣地點(diǎn)和時間?!?/p>
美國國家能源研究科學(xué)計算中心(NERSC)正在將AI應(yīng)用于幾個針對Perlmutter的項目中,Perlmutter是該中心的pre-exascale系統(tǒng),擁有6200顆A100 GPU。
例如,其中一個項目將使用強(qiáng)化學(xué)習(xí)來控制光源實驗,另有一個項目將使用生成模型在高能物理探測器上重現(xiàn)復(fù)雜的模擬。
為了加快新冠病毒蛋白的分析速度,慕尼黑的研究者們正在依靠Summit超級計算機(jī)中的6000顆GPU訓(xùn)練自然語言模型。有跡象表明,領(lǐng)先的TOP500系統(tǒng)正在超越使用雙精度數(shù)學(xué)運(yùn)行的傳統(tǒng)模擬。
AI、數(shù)據(jù)分析和邊緣串流正在重新定義科學(xué)計算。
隨著向深度學(xué)習(xí)和分析的擴(kuò)展,科學(xué)家們也在運(yùn)用云計算服務(wù),甚至運(yùn)用來自于網(wǎng)絡(luò)邊緣的遠(yuǎn)程儀器的流式數(shù)據(jù)。這些要素共同構(gòu)成了NVIDIA所加速的現(xiàn)代科學(xué)計算的四個支柱:
模擬:在抗擊新冠病毒的過程中,橡樹嶺國家實驗室(Oak Ridge National Laboratory)的研究者使用Summit超級計算機(jī)的內(nèi)置GPU運(yùn)行AutoDock,在24小時內(nèi)模擬了20億種化合物。
AI和數(shù)據(jù)分析:Spark 3.0 為關(guān)鍵且耗時的機(jī)器學(xué)習(xí)處理流程前端提供GPU加速。
科學(xué)邊緣串流:歐洲核子研究所(CERN)最近宣布,NVIDIA GPU將使其大型強(qiáng)子對撞機(jī)內(nèi)粒子碰撞事件產(chǎn)生的數(shù)據(jù)量減少500倍。
可視化:NVIDIA的IndeX和Magnum IO軟件幫助增強(qiáng)火星登陸者號的可視化功能,這是全球規(guī)模最大的交互式實時立體可視化項目。
這些都表明研究者和企業(yè)都迫切需要從云到網(wǎng)絡(luò)邊緣的AI和分析加速,這也是為什么全球最大的云服務(wù)提供商以及全球頂尖的OEM廠商們都在采用NVIDIA GPU的原因。
此外,最新的TOP500榜單也以另一這種方式說明了NVIDIA為實現(xiàn)AI和HPC民主化所付出的努力。任何想要在計算能力上領(lǐng)先一步的公司都可以使用NVIDIA技術(shù),如為全球最強(qiáng)大的系統(tǒng)提供支持的DGX系統(tǒng)。
最后,NVIDIA要向排名第一的日本Fugaku超級計算機(jī)的幕后工程師們表示祝賀,這表明Arm正在變得日益實用并且已經(jīng)成為高性能計算的可行選擇。這也是NVIDIA在去年宣布為Arm處理器架構(gòu)提供CUDA加速計算軟件的原因之一。
責(zé)任編輯:pj
-
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131250 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
472瀏覽量
42477 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279991
發(fā)布評論請先 登錄
NVIDIA驅(qū)動的現(xiàn)代超級計算機(jī)如何突破速度極限并推動科學(xué)發(fā)展

Blue Lion超級計算機(jī)將在NVIDIA Vera Rubin上運(yùn)行
NVIDIA技術(shù)賦能歐洲最快超級計算機(jī)JUPITER
NVIDIA助力全球最大量子研究超級計算機(jī)
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機(jī)

NVIDIA推出個人AI超級計算機(jī)Project DIGITS
云端超級計算機(jī)使用教程
NVIDIA加速全球大多數(shù)超級計算機(jī)推動科技進(jìn)步

NVIDIA助力xAI打造全球最大AI超級計算機(jī)
NVIDIA Colossus超級計算機(jī)集群突破10萬顆Hopper GPU
NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機(jī)

NVIDIA助力丹麥發(fā)布首臺AI超級計算機(jī)
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽
TPL7407L提高了外圍驅(qū)動的散熱和能效

評論