賴斯大學(xué)的研究人員已經(jīng)展示了設(shè)計創(chuàng)新的以數(shù)據(jù)為中心的計算硬件以及與機器學(xué)習(xí)算法共同設(shè)計硬件的方法,這些算法可以共同將能源效率提高兩個數(shù)量級。
機器學(xué)習(xí)的進步,無人駕駛汽車背后的人工智能形式以及許多其他高科技應(yīng)用,已經(jīng)開創(chuàng)了計算的新時代(以數(shù)據(jù)為中心的時代),并迫使工程師們重新考慮具有消失了75年
“問題在于,對于當今機器學(xué)習(xí)最先進的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)而言,運行整個系統(tǒng)所需的90%以上的電力都消耗在內(nèi)存和處理器之間的數(shù)據(jù)移動中”,電氣與計算機工程學(xué)助理教授林穎妍說。
林和合作者提出了優(yōu)化數(shù)據(jù)中心處理的兩個互補的方法,這兩者都呈現(xiàn)6月3日在國際研討會上的計算機體系結(jié)構(gòu)(ISCA),最大的會議為新的思路和研究的一個計算機體系結(jié)構(gòu)。
以數(shù)據(jù)為中心的體系結(jié)構(gòu)的驅(qū)動與一個稱為von Neumann瓶頸的問題有關(guān),這種效率低下的原因是自數(shù)學(xué)家約翰·馮·諾伊曼(John von Neumann)于1945年發(fā)明內(nèi)存以來,計算結(jié)構(gòu)中內(nèi)存和處理的分離一直占主導(dǎo)地位。從程序和數(shù)據(jù)來看,馮·諾伊曼(von Neumann)架構(gòu)使單臺計算機具有難以置信的通用性。根據(jù)從內(nèi)存中加載的存儲程序,可以使用計算機進行視頻通話,準備電子表格或模擬火星上的天氣。
但是將內(nèi)存與處理分開也意味著即使簡單的操作(如加2加2)也需要計算機處理器多次訪問內(nèi)存。深度神經(jīng)網(wǎng)絡(luò)中的大量操作使這種記憶瓶頸變得更糟,深度神經(jīng)網(wǎng)絡(luò)是通過“研究”大量先前示例來學(xué)習(xí)做出人性化決策的系統(tǒng)。網(wǎng)絡(luò)越大,它可以完成的任務(wù)就越困難,并且顯示的網(wǎng)絡(luò)示例越多,它的執(zhí)行效果就越好。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練可能需要專門的處理器庫,這些處理器需要全天候運行一周以上?;?a target="_blank">智能網(wǎng)絡(luò)在智能手機上執(zhí)行任務(wù)可以在不到一個小時的時間內(nèi)耗盡電池電量。
賴斯的高效和智能計算(EIC)實驗室主任Lin說:“對于機器學(xué)習(xí)時代的以數(shù)據(jù)為中心的算法,我們需要創(chuàng)新的以數(shù)據(jù)為中心的硬件體系結(jié)構(gòu)?!?“但是,機器學(xué)習(xí)的最佳硬件架構(gòu)是什么?
“沒有一個萬能的答案,因為不同的應(yīng)用需要機器學(xué)習(xí)算法,這些算法在算法結(jié)構(gòu)和復(fù)雜性方面可能有很大差異,同時具有不同的任務(wù)準確性和資源消耗(例如能源成本,延遲和吞吐量),需要權(quán)衡取舍要求?!彼f?!霸S多研究人員正在為此進行研究,像英特爾,IBM和Google這樣的大公司都有自己的設(shè)計。”
Lin小組在ISCA 2020上的演講之一在TIMELY上提供了結(jié)果,TIMELY是她和她的學(xué)生為“內(nèi)存中處理”(PIM)開發(fā)的一種創(chuàng)新架構(gòu),這種非馮·諾依曼方法將處理引入內(nèi)存陣列。一個有前途的PIM平臺是“ 電阻式隨機存取存儲器 ”(ReRAM),類似于閃存的非易失性存儲器。雖然提出了其他ReRAM PIM加速器架構(gòu),但Lin表示,在10多個深度神經(jīng)網(wǎng)絡(luò)模型上進行的實驗發(fā)現(xiàn),TIMELY的能源效率高18倍,并且交付的計算密度是最有競爭力的最新技術(shù)的30倍以上ReRAM PIM加速器。
TIMELY代表“時域,內(nèi)存中執(zhí)行,LocalitY”,它通過消除導(dǎo)致效率低下的主要因素來實現(xiàn)其性能,這種效率低下是由于頻繁訪問主存儲器以處理中間輸入和輸出以及本地和主存儲器之間的接口而引起的?;貞?。
在主存儲器中,數(shù)據(jù)以數(shù)字方式存儲,但是當將其帶入本地存儲器以進行內(nèi)存中處理時,必須將其轉(zhuǎn)換為模擬量。在以前的ReRAM PIM加速器中,結(jié)果值從模擬轉(zhuǎn)換為數(shù)字,然后發(fā)送回主存儲器。如果將它們從主存儲器調(diào)用到本地ReRAM以進行后續(xù)操作,則它們將再次轉(zhuǎn)換為模擬信號,依此類推。
通過使用本地存儲器中的模擬格式緩沖區(qū),及時避免了不必要的訪問主存儲器和接口數(shù)據(jù)轉(zhuǎn)換的開銷。這樣,TIMELY幾乎可以將所需的數(shù)據(jù)保留在本地存儲陣列中,從而大大提高了效率。
該小組在ISCA 2020上提出的第二個建議是SmartExchange,該設(shè)計結(jié)合了算法和加速器硬件創(chuàng)新以節(jié)省能源。
“訪問主存儲器 DRAM的能量要比執(zhí)行計算多花費200倍,因此SmartExchange的關(guān)鍵思想是在算法中強制執(zhí)行結(jié)構(gòu),使我們可以將成本較高的內(nèi)存換成成本更低的內(nèi)存,成本計算?!?/p>
她舉例說:“例如,我們的算法有1000個參數(shù)?!?“在傳統(tǒng)方法中,我們將所有1,000個存儲在DRAM中,并根據(jù)計算需要進行訪問。使用SmartExchange,我們搜索以找到這1,000個中的某些結(jié)構(gòu)。然后,我們只需要存儲10個,因為如果我們知道它們之間的關(guān)系, 10和其余的990,我們可以計算990中的任何一個,而不必從DRAM調(diào)用它們。
她說:“我們將這10個稱為“基礎(chǔ)”子集,其想法是將它們存儲在靠近處理器的本地位置,以避免或大幅度減少為訪問DRAM而支付的費用。
研究人員使用SmartExchange算法及其自定義的硬件加速器對七個基準深度神經(jīng)網(wǎng)絡(luò)模型和三個基準數(shù)據(jù)集進行了實驗。他們發(fā)現(xiàn),與最先進的深度神經(jīng)網(wǎng)絡(luò)加速器相比,該組合將等待時間減少了多達19倍。
-
計算機
+關(guān)注
關(guān)注
19文章
7662瀏覽量
90790 -
AI
+關(guān)注
關(guān)注
88文章
35136瀏覽量
279795
發(fā)布評論請先 登錄


硬件工程師看了只會找個角落默默哭泣#硬件工程師 #MDD #MDD辰達半導(dǎo)體 #產(chǎn)品經(jīng)理 #軟件工程師
物聯(lián)網(wǎng)工程師為什么要學(xué)Linux?




電子工程師如何利用AI革新設(shè)計范式

硬件工程師的終極幻想:焊板子焊上人生巔峰!#半導(dǎo)體器件 #硬件工程師 #MDD辰達半導(dǎo)體

不同時期的硬件工程師,最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過于真實 #YXC晶振 #揚興科技


FPGA算法工程師、邏輯工程師、原型驗證工程師有什么區(qū)別?

評論