自在1965年被提出以來,摩爾定律在過去幾十年里驅(qū)動計算產(chǎn)業(yè)經(jīng)歷了一段顯著的增長和穩(wěn)定時期。晶體管密度和處理器性能也在過去五十年李獲得了大幅度的提升,也推動了通用計算模型的興起。然而按照MIT計算機科學(xué)與人工智能實驗室的Neil Thompson和哈佛大學(xué)的客座教授Svenja Spanuth的說法,這一切都將要結(jié)束了。
他們表示,通用計算不可能一直是常態(tài)。在超級計算的早期階段,來自Cray等公司的定制矢量架構(gòu)主導(dǎo)了HPC行業(yè)。目前,NEC還在基于矢量系統(tǒng)打造相關(guān)產(chǎn)品。但感謝摩爾定律,晶體管的性價比在過去幾十年里有了大幅度的攀升,其帶來的經(jīng)濟優(yōu)勢就趨勢產(chǎn)業(yè)界走進了通用計算的時代。
這主要是因為開發(fā)和制造定制芯片的成本在3000萬到8000萬美元之間。因此,即使用戶需要高性能的微處理器,但通用處理器的微縮速度,會將定制處理器帶來的差距快速拉近。同時,晶體管微縮的成本可以被數(shù)百萬個處理器攤銷,因此而成本問題也會使得采用專用架構(gòu)的好處也很快消失。
但摩爾定律所帶來的計算經(jīng)濟學(xué)正在發(fā)生變化。
近年來,隨著半導(dǎo)體材料的物理限制開始凸顯,縮小的晶體管變得越來越昂貴。據(jù)了解,在過去的25年中,建立一個領(lǐng)先的晶圓廠的成本每年增長11%。2017年,半導(dǎo)體行業(yè)協(xié)會估計建造一座新工廠需要花費約70億美元。這不僅推高了芯片制造商的固定成本,還將先進半導(dǎo)體制造商的數(shù)量從2002年的25家減少到今天的三家:英特爾,***半導(dǎo)體制造公司(TSMC)和三星。
美國勞工統(tǒng)計局(BLS)也在其一份報告中試圖量化每微美元的微處理器性能。按照他們的統(tǒng)計,這個數(shù)據(jù)的提升率從2000 - 2004年的48%下降到2004 - 2008年的29%,而2008 - 2013年,數(shù)字又下降到每年8%。
所有這些都從根本上改變了縮小晶體管的成本/效益。
由于建造和運營新工廠的費用不斷上升,英特爾的固定成本有史以來第一次超過其可變成本。更令人不安的是,連三星和高通這樣的公司現(xiàn)在都認為,在最新工藝節(jié)點上制造的晶體管成本正在迅速增加,這進一步阻礙了產(chǎn)業(yè)界對更小尺寸的追求。這也可能是GlobalFoundries 最近放棄其7nm技術(shù)計劃背后的原因。
這不僅僅是摩爾定律的惡化。專用處理器的另一個驅(qū)動因素是一些通用計算不能滿足需求的新應(yīng)用程序的產(chǎn)生。如移動設(shè)備和物聯(lián)網(wǎng)(IoT)這樣的平臺,他們在能源效率和成本方面要求很高,并且需要大量部署,這就催生了定制芯片的需求。而某些具有更嚴格要求的低容量應(yīng)用,例如軍用和航空硬件,也有是特殊用途設(shè)計芯片的市場鎖著。
但在筆者看來,橫跨移動,桌面,嵌入式,云計算和超級計算等幾乎所有計算環(huán)境的應(yīng)用程序類別的深度學(xué)習(xí)的問世,才是行業(yè)真正的分水嶺。
深度學(xué)習(xí)及其首選硬件平臺GPU是計算從通用處理器走向?qū)S锰幚砥鞯囊粋€最明顯的例子。因為能夠比CPU更有效地進行數(shù)據(jù)并行處理,這種可以被視為半專業(yè)計算架構(gòu)的GPU已經(jīng)成為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的首選平臺。
但對于深度學(xué)習(xí),GPU可能只是“入門藥”(gateway drug)?,F(xiàn)在,英特爾,富士通和數(shù)十家創(chuàng)業(yè)公司已經(jīng)提供了人工智能和深度學(xué)習(xí)專用芯片,谷歌專門用于訓(xùn)練和使用神經(jīng)網(wǎng)絡(luò)的TPU目前也更新到了第三代。
“創(chuàng)建一個定制的處理器對谷歌而言非常昂貴,估計固定成本為數(shù)千萬美元,”專家說到,然而,好處也很大。按照他們的說法,三代TPU的性能增長相當于摩爾定律的七年。
Thompson和Spanuth還指出,專用處理器越來越多地被應(yīng)用于超級計算。他們指出,2018年11月的TOP500排名中,專用處理器(主要是Nvidia GPU)首次超越CPU,成為大部分增加的性能的來源。在這里,我們還對其列表進行了回歸分析,結(jié)果顯示,具有專用處理器的超級計算機每瓦特可以執(zhí)行的計算次數(shù)幾乎是使用通用處理器的超算的五倍,這一結(jié)果非常具有統(tǒng)計意義。
Thompson和Spanuth提供了一個數(shù)學(xué)模型,用于確定專用處理器的成本/收益。在這個模型中,他們同時考慮到了開發(fā)定制芯片的固定成本,芯片數(shù)量,定制實施提供的加速以及處理器改進的速度。由于后者與摩爾定律聯(lián)系在一起,因此速度放緩意味著即使預(yù)期的加速比較適中,專用芯片的合理化也會變得更加容易。
“因此,對于許多(但不是全部)應(yīng)用,現(xiàn)在獲得專用處理器在經(jīng)濟上是可行的,至少在硬件方面,”專家表示。“另一種看待這種情況的方法是在2000 - 2004年期間,市場規(guī)模約為83,000臺處理器的應(yīng)用程序如果需要專用處理器,那么則需要性能提升100倍才劃算,但在2008 - 2013年,這樣的處理器只需要2倍的提升,就足夠了。
Thompson和Spanuth還考慮到了專用處理器重新定位應(yīng)用軟件的額外費用,他們認為每行代碼的價格為11美元。這在一定程度上使模型復(fù)雜化,因為您必須考慮代碼庫的大小,但這并不總是很容易追蹤。在這里,他們還指出,一旦代碼重新開發(fā)完成,它往往會阻止代碼庫移回通用平臺。
Thompson和Spanuth還為專用處理器納入了重新定位應(yīng)用軟件的額外費用,他們認為每行代碼的價格為11美元。這在一定程度上使模型復(fù)雜化,因為您必須考慮代碼庫的大小,這并不總是很容易追蹤。在這里,他們還指出,一旦代碼重新開發(fā)完成,它往往會阻止代碼庫移回通用平臺。
最重要的是,摩爾定律的緩慢消亡正在揭示過去的創(chuàng)新,市場擴張和再投資是一個很好的良性循環(huán)。但隨著越來越多的專業(yè)芯片開始蠶食計算行業(yè),這個周期變得支離破碎。由于較少的用戶采用最新的制造節(jié)點,晶圓廠的的融資也變得更加困難,這進一步減緩了技術(shù)進步。這將推動業(yè)界將計算行業(yè)分割成多個專門領(lǐng)域。
其中如深度學(xué)習(xí)等領(lǐng)域,由于其規(guī)模和對專用硬件的適用性,他們將率先進入快車道。而像數(shù)據(jù)庫處理這樣的領(lǐng)域雖然被廣泛使用,但可能會成為死水,因為這種類型的計算并不需要專用芯片。盡管可能從中受益,但類似氣候模型則因為應(yīng)用面太窄,并不需要去做定制芯片。
我們也應(yīng)該清楚認識到,這并不意味著CPU甚至GPU會失敗。盡管作者對此沒有太深入的研究,但我認為,未來專用,半專業(yè)和通用計算引擎都會被集成到同一芯片或處理器封裝中,而一些芯片制造商也已經(jīng)走上了這條道路。
例如,Nvidia在其新一代GPU Volta中采用了Tensor Cores,后者是其專門用于深度學(xué)習(xí)的專用電路。通過這樣做,Nvidia能夠提供一個既能滿足傳統(tǒng)超級計算模擬又能深度學(xué)習(xí)應(yīng)用的平臺。同樣,CPU正在與專用邏輯塊集成,用于加密/解密,圖形加速,信號處理,當然還有深度學(xué)習(xí)。
-
處理器
+關(guān)注
關(guān)注
68文章
19873瀏覽量
234655 -
芯片
+關(guān)注
關(guān)注
459文章
52424瀏覽量
439595
發(fā)布評論請先 登錄
工業(yè)電機行業(yè)現(xiàn)狀及未來發(fā)展趨勢分析
未來,是大數(shù)據(jù)的時代
嵌入式系統(tǒng)和通用計算機系統(tǒng)的最大區(qū)別是什么
通用計算機總線儀器
嵌入式系統(tǒng)與通用計算機操作系統(tǒng)的區(qū)別
嵌入式系統(tǒng)與通用計算機操作系統(tǒng)的區(qū)別
云計算產(chǎn)業(yè)發(fā)展現(xiàn)狀及趨勢
中國人工智能的現(xiàn)狀與未來
關(guān)于MEMS現(xiàn)狀以及未來的發(fā)展分析
嵌入式操作系統(tǒng)和通用計算機系統(tǒng)的區(qū)別是什么
天數(shù)智芯發(fā)布國內(nèi)首個通用計算應(yīng)用開發(fā)及評測平臺—DeepSpark
國產(chǎn)化FMC接口通用計算平臺設(shè)計原理圖:2367-基于FMQL45T900 FMC接口通用計算平臺

評論