在不到18個(gè)月的時(shí)間里,密歇根大學(xué)的一個(gè)團(tuán)隊(duì)采用GPU,為一個(gè)基于復(fù)雜數(shù)學(xué)的程序?qū)崿F(xiàn)了20倍的提速。該程序?yàn)榱孔涌茖W(xué)奠定了基礎(chǔ)。
Vikram Gavini 的實(shí)驗(yàn)室以創(chuàng)紀(jì)錄的速度,跨越了微觀世界的一座重要里程碑。
這支由三人組成的密歇根大學(xué)團(tuán)隊(duì)創(chuàng)建了一個(gè)使用復(fù)雜的數(shù)學(xué)來深入觀察原子世界的程序。該程序?qū)⑼苿?dòng)許多科學(xué)領(lǐng)域的發(fā)展,以及多重領(lǐng)域的設(shè)計(jì)工作——從更輕的汽車到更高效的藥物。
憑借 GPU ,該團(tuán)隊(duì)開放源碼庫中的代碼在短短18個(gè)月內(nèi)實(shí)現(xiàn)了20倍速度提升。
通往Summit的旅程
2018年年中,當(dāng)該團(tuán)隊(duì)正準(zhǔn)備發(fā)布一個(gè)在 CPU 上運(yùn)行的代碼版本時(shí),他們收到了橡樹嶺國家實(shí)驗(yàn)室 GPU 黑客馬拉松的邀請。全球最快的超級計(jì)算機(jī)之一—— Summit 就位于該實(shí)驗(yàn)室。
機(jī)械工程和材料科學(xué)教授 Gavini 表示:“我們當(dāng)時(shí)的想法是看看我們能實(shí)現(xiàn)什么?!?/p>
該實(shí)驗(yàn)室的博士后 Sambit Das 參加了這場為期五天的活動(dòng)。他認(rèn)為:“我們很快意識到我們的代碼可以充分發(fā)揮GPU大規(guī)模并行處理的能力?!?/p>
在活動(dòng)結(jié)束前, Das 和另一位實(shí)驗(yàn)室成員 Phani Motamarri 將代碼轉(zhuǎn)移到 CUDA 及其庫中,實(shí)現(xiàn)了5倍速度提升。這也讓他們意識到,未來能實(shí)現(xiàn)的還有更多。
6個(gè)月內(nèi)實(shí)現(xiàn)從5倍到20倍的速度提升
在接下來的幾個(gè)月里,該實(shí)驗(yàn)室繼續(xù)對該程序進(jìn)行調(diào)優(yōu),使其能夠?qū)?萬個(gè)鎂原子中的10萬個(gè)電子進(jìn)行分析。到2019年初,該程序已經(jīng)可以在 Summit 上運(yùn)行。
隨著 Summit 的節(jié)點(diǎn)數(shù)量不斷增加,該實(shí)驗(yàn)室采用迭代法,在節(jié)點(diǎn)上運(yùn)行越來越多的代碼。截止4月,該實(shí)驗(yàn)室使用了該系統(tǒng)27,000個(gè) GPU 中的大部分,實(shí)現(xiàn)了近 46 petaflops 的性能,達(dá)到了之前的20倍。
對于一個(gè)基于密度泛函理論(DFT)的程序來說,這是一個(gè)前所未有的結(jié)果。密度函數(shù)理論是一項(xiàng)解釋亞原子粒子之間量子相互作用的復(fù)雜數(shù)學(xué)理論。
適用于高難度算法的分布式計(jì)算
DFT 算法的復(fù)雜性和基礎(chǔ)性使其目前占用了所有公共研究計(jì)算機(jī)四分之一的時(shí)間。在被引用次數(shù)最多的100篇科學(xué)論文中,有12篇是 DFT 為主題的。該計(jì)算還被用來分析從天體物理學(xué)到 DNA 鏈的一切。
最初,根據(jù)該實(shí)驗(yàn)室的報(bào)告,該程序使用了 Summit 的頂尖理論性能的近30%,這是一個(gè)異常高的效率。相比之下,大多數(shù)其他 DFT 代碼除了能夠使用數(shù)個(gè)處理器之外,很難實(shí)現(xiàn)進(jìn)一步的擴(kuò)展,因此就連效率報(bào)告都沒有。
Gavini 表示:“能實(shí)現(xiàn)這一前所未有的效率令我們感到非常高興?!?/p>
聲名鵲起
2019年底,該團(tuán)隊(duì)被提名為戈登貝爾獎(jiǎng)的入圍者。這是該實(shí)驗(yàn)室首次參加這一“高性能計(jì)算領(lǐng)域諾貝爾獎(jiǎng)”的評選。
Gavini 表示:“這為我們的實(shí)驗(yàn)室和大學(xué)帶來了很高的知名度,我認(rèn)為這次努力還只是一個(gè)開始?!?/p>
事實(shí)上,自評選以來,實(shí)驗(yàn)室在 Summit 上,將代碼的性能提升到了 64 petaflops ,效率亦達(dá)到38%。并且該實(shí)驗(yàn)室已經(jīng)在探索在其他系統(tǒng)和應(yīng)用上的使用。
尋求更多的應(yīng)用和更高的性能
最初,這項(xiàng)工作被用于分析鎂。這種比當(dāng)今汽車和飛機(jī)使用的鋼和鋁輕得多的金屬有望大幅節(jié)省燃料。去年,該實(shí)驗(yàn)室與另一團(tuán)隊(duì)合作,研究電子在 DNA 中的移動(dòng)方式,這項(xiàng)工作可以幫助其他研究者研發(fā)出更有效的藥物。
接下來重要的一步是在 Perlmutter 上運(yùn)行代碼。這是一臺使用最新 NVIDIA A100 Tensor Core GPU 的超級計(jì)算機(jī)。根據(jù)Das的報(bào)告,基于A100 GPU對TensorFloat-32的支持,與 Summit GPU 相比,這臺計(jì)算機(jī)目前已經(jīng)實(shí)現(xiàn)了4倍速度提升。TensorFloat-32 是一種既能提供快速結(jié)果,又能實(shí)現(xiàn)高精度的混合精度格式。
與其他 DFT 代碼相比,該實(shí)驗(yàn)室程序已實(shí)現(xiàn)100倍的速度提升,但 Gavini 并沒有就此止步。他已經(jīng)在考慮在 Fugaku 上測試它。Fugaku 是基于 Arm 系統(tǒng)的全球最快的超級計(jì)算機(jī)。
他表示:“眼下的收獲總會(huì)令人欣喜,但‘路漫漫其修遠(yuǎn)兮,吾將上下而求索’。這次的成果也是我們新征程的開始?!?/p>
原文標(biāo)題:借助數(shù)學(xué)的力量:密歇根團(tuán)隊(duì)破解亞原子世界的密碼
文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
gpu
+關(guān)注
關(guān)注
28文章
4886瀏覽量
130428 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7611瀏覽量
89881 -
代碼
+關(guān)注
關(guān)注
30文章
4882瀏覽量
70046
原文標(biāo)題:借助數(shù)學(xué)的力量:密歇根團(tuán)隊(duì)破解亞原子世界的密碼
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
加州理工學(xué)院開發(fā)出超100GHz時(shí)鐘速度的全光計(jì)算機(jī)
NVIDIA 推出高性價(jià)比的生成式 AI 超級計(jì)算機(jī)

云端超級計(jì)算機(jī)使用教程
量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

丹麥推出首臺AI超級計(jì)算機(jī)Gefion
NVIDIA助力丹麥發(fā)布首臺AI超級計(jì)算機(jī)
云端超級計(jì)算機(jī)怎么用
計(jì)算機(jī)接口位于什么之間
計(jì)算機(jī)進(jìn)行程序控制工作的基本原理是怎樣的
借助NVIDIA超級計(jì)算機(jī)加速量子計(jì)算發(fā)展
Quantinuum推出業(yè)界首款離子阱56量子位計(jì)算機(jī),打破關(guān)鍵基準(zhǔn)記錄
工業(yè)計(jì)算機(jī)與普通計(jì)算機(jī)的區(qū)別
NVIDIA和Recursion利用AI超級計(jì)算機(jī)加快新藥研發(fā)

評論