去年11月,Nvidia憑借一款名為Eos的系統(tǒng)突然出現(xiàn)在全球最快超級計算機500強榜單的第9位,引起了一些人的注意。Eos是以每天打開黎明大門的希臘女神命名的,是英偉達的企業(yè)級AI訓(xùn)練系統(tǒng),該公司現(xiàn)在首次發(fā)布了一段視頻向公眾展示它。
Eos本質(zhì)上是英偉達自己的超級計算機,員工每天都可以用它來進行AI訓(xùn)練,或者在午休時間玩《孤島危機》。它包括一個由576臺DGX H100服務(wù)器組成的集群,由于每臺服務(wù)器都有8個H100 GPU,因此總共有4608臺H100與其Quantum-2 InfiniBand技術(shù)連接在一起。這基本上是英偉達展示其DGX SuperPod設(shè)計的極端版本,是一種企業(yè)規(guī)模的AI訓(xùn)練,它希望將其出售給擁有巨額預(yù)算和大量AI模型的公司。
英偉達將Eos描述為一個可以為“AI工廠”提供動力的系統(tǒng),因為它是一個非常大規(guī)模的SuperPod DGX H100系統(tǒng)。該公司表示,正是這一點讓它能夠在AI方面有所突破,并展示了英偉達最新技術(shù)在放大到超大規(guī)模時的強大功能。
DGX H100服務(wù)器使用英特爾Xeon Platinum8480C CPU,具有56核和112線程。與4608個H100 GPU相結(jié)合,它提供了121 PetaFLOPS的Linpack性能,僅足以在Top500中排名第9,但這更像是一個通用指標。如果純粹以AI訓(xùn)練來衡量,它很容易成為目前世界上最快的系統(tǒng)之一。
當(dāng)該系統(tǒng)去年首次亮相時,英偉達展示了比之前基于Ampere的A100系統(tǒng)的巨大改進。例如,在一個模擬訓(xùn)練GPT-3模型的測試中,Eos只花了4分鐘,而基于A100的系統(tǒng)花了11分鐘。然而,之前的系統(tǒng)只使用512個GPU,而Eos更大、使用更強大的GPU,所以預(yù)期會有顯著的提升。
然而,我們在研究英偉達的最新聲明時發(fā)現(xiàn)了一個差異。早在2023年11月,英偉達就表示Eos配備了10,752個H100GPU。在最新的公告中,這個數(shù)字已經(jīng)減少到4608,所以我們不確定發(fā)生了什么變化,或者Eos是否已經(jīng)縮小了一些。
我們通過電子郵件向英偉達尋求澄清,一位發(fā)言人回應(yīng)說:“為了提供一些清晰的信息,用于MLPerf LLM訓(xùn)練的超級計算機具有10,752個H100 GPU,是使用相同DGX SuperPOD架構(gòu)構(gòu)建的不同系統(tǒng)。在2023年TOP500榜單上排名第九的系統(tǒng)是現(xiàn)在博客和視頻中介紹的4608 GPU Eos系統(tǒng)。”
當(dāng)問及為什么這兩個系統(tǒng)都被命名為Eos時,發(fā)言人回答說:“我們在Eos一代中部署了多個系統(tǒng),它們都基于相同的NVIDIA DGX SuperPOD架構(gòu)?!?/p>
審核編輯:黃飛
-
超級計算機
+關(guān)注
關(guān)注
2文章
472瀏覽量
42479 -
AI
+關(guān)注
關(guān)注
88文章
35166瀏覽量
280096 -
英偉達
+關(guān)注
關(guān)注
22文章
3953瀏覽量
93815
原文標題:揭秘:英偉達用于AI訓(xùn)練的Eos超級計算機!
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論