比40臺基于GPU的服務(wù)器更牛的是什么?一臺有40個GPU的服務(wù)器!來自伊利諾伊州立大學(xué)計算機工程副教授及其團隊將于2月,為包含多達40個GPU的晶圓級計算機提供案例。這個多處理器“怪物”將計算速度提高了近19倍,并將能耗和信號延遲的總和降低了140倍以上。
搭載40個GPU的服務(wù)器,就問你怕不怕!
早在20世紀80年代,并行計算先驅(qū)Gene Amdahl就策劃了一項加速大型機計算的計劃:一種硅晶片大小的處理器。通過將大部分數(shù)據(jù)保存在處理器本身,而不是將其通過電路板傳輸?shù)絻?nèi)存和其他芯片上,計算速度會更快,能源效率也會更高。
Amdahl從風(fēng)投那里獲得了2.3億美元的投資,這在當時是最多的。而后他創(chuàng)立了Trilogy Systems公司,將自己的夢想變成了現(xiàn)實。
這是“晶圓級集成”的首次商業(yè)嘗試,結(jié)果成了一場災(zāi)難。
伊利諾伊大學(xué)厄巴納-香檳分校和加州大學(xué)洛杉磯分校的工程師們認為,現(xiàn)在是時候再嘗試一次了。
在2月即將舉行的IEEE高性能計算機體系結(jié)構(gòu)國際研討會上,伊利諾伊州立大學(xué)計算機工程副教授Rakesh Kumar及其合作者將為包含多達40個GPU的晶圓級計算機提供案例。
這個多處理器“怪物”將計算速度提高了近19倍,并將能耗和信號延遲的總和降低了140倍以上。
Kumar表示:“我們試圖解決的一個大問題是計算單元之間的通信開銷。”
基于保證質(zhì)量的普通尺寸芯片,尋找連接技術(shù)是關(guān)鍵
超級計算機通常將應(yīng)用程序分布在數(shù)百個GPU上,這些GPU位于不同的印刷電路板上,并通過長途數(shù)據(jù)鏈路進行通信。
與芯片本身內(nèi)部的互連相比,這些鏈路吸收能量并且速度慢。更重要的是,由于芯片和印刷電路板的機械特性之間不匹配,處理器必須保存在嚴格限制其可以使用的輸入和輸出數(shù)量的封裝中。
因此,將數(shù)據(jù)從一個GPU轉(zhuǎn)移到另一個GPU需要大量的開銷。
所需要的是GPU模塊之間的連接,這些連接與芯片上的互連一樣快,低能耗且豐富。如此快速的連接將把這40個GPU集成到一起,成為一個巨大的GPU。
一種解決方案是:使用標準的芯片制造技術(shù)在同一塊硅片上構(gòu)建所有40個GPU,并在它們之間添加互連。
但正是這種思路扼殺了Amdahl在20世紀80年代的嘗試。
當你在制作一個芯片時,總是有出現(xiàn)缺陷的可能性,而出現(xiàn)缺陷的可能性會隨著芯片的大小而增加。如果你的芯片大小與餐盤一樣大小,幾乎可以保證在它上面有一個系統(tǒng)“殺戮”的缺陷。
因此,從已經(jīng)通過質(zhì)量測試的普通尺寸的GPU芯片開始,尋找一種更好地連接它們的技術(shù),是更有意義的。
這個團隊相信他們的silicon interconnect fabric(SiIF)的技術(shù),用硅代替電路板,芯片與電路板之間沒有機械上的不匹配,因此不需要芯片封裝。
SiIF晶圓上有一層或多層2微米寬的銅互連,間距最小可達4微米。這相當于芯片上最高級別的互連。
在要插入GPU的點中,硅片上的銅柱間距約為5微米。GPU在這些上方對齊,按下并加熱。
這種成熟的工藝稱為熱壓結(jié)合(thermal compression bonding),使銅柱與GPU的銅互連線融合。伊利諾斯州和加州大學(xué)洛杉磯分校的研究人員表示,窄小的互連和緊密的間距意味著你可以在一塊芯片上壓縮至少25倍的輸入和輸出。
Kumar和他的同事在設(shè)計晶圓級GPU時,必須考慮許多限制因素,包括可以從晶圓上移除多少熱量、晶圓處理器如何能夠最快速地相互通信,以及如何在整個晶圓上傳輸電力。
結(jié)果證明,功率是其中一個較為有限的約束條件。
在芯片的標準1伏電源下,SiIF晶圓片的布線將消耗整整2千瓦。相反,Kumar的團隊將電壓供應(yīng)提高到48伏,減少了所需的電流,從而減少了電力損失。這種解決方案需要在晶圓片周圍分布電壓調(diào)節(jié)器和信號調(diào)理電容器,從而占用原本可以用于更多GPU模塊的空間。
盡管如此,在一個設(shè)計中,他們還是能夠擠進41個GPU。他們測試了這種設(shè)計模擬的情況,發(fā)現(xiàn)它在消耗比40臺標準GPU服務(wù)器更少的能量的情況下,加快了計算和數(shù)據(jù)移動。
SiIF晶圓級GPU克服了早期晶圓級工作無法解決的問題
Horst技術(shù)咨詢公司的Robert W. Horst說:“SiIF晶圓級GPU克服了早期晶圓級工作無法解決的問題?!?/p>
二十多年前,在Tandem Computer公司,Horst參與開發(fā)了唯一一款商業(yè)化的晶圓級產(chǎn)品——一種在證券交易所取代高速硬盤的內(nèi)存系統(tǒng)。他預(yù)計降溫將是最具挑戰(zhàn)性的方面之一。“如果你在這么近的距離內(nèi)加入這么多邏輯,功耗可能會相當高,”他說。
Kumar表示,該團隊已經(jīng)開始著手構(gòu)建一個晶圓級原型處理器系統(tǒng)。
-
芯片
+關(guān)注
關(guān)注
460文章
52505瀏覽量
440791 -
gpu
+關(guān)注
關(guān)注
28文章
4945瀏覽量
131228 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
87972
原文標題:ISU教授瘋狂實驗:搭建40個GPU晶圓級計算機,能耗、延遲降低140倍!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
硅谷GPU云服務(wù)器是什么意思?使用指南詳解
高性能GPU服務(wù)器推薦
影響服務(wù)器GPU租用價格的因素
GPU加速云服務(wù)器怎么用的
GPU云服務(wù)器租用費用貴嗎
GPU云服務(wù)器租用多少錢
租用GPU服務(wù)器一般多少錢
GPU服務(wù)器和傳統(tǒng)的服務(wù)器有什么區(qū)別
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

GPU高性能服務(wù)器配置
多個網(wǎng)站放在同一臺服務(wù)器ip有什么影響?
GPU云服務(wù)器架構(gòu)解析及應(yīng)用優(yōu)勢
主機托管是多個用戶共享一臺服務(wù)器嗎?有什么優(yōu)勢
gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了!
算力服務(wù)器為什么選擇GPU

評論