神經(jīng)網(wǎng)絡(luò)可以被歸類(lèi)為一組大致模仿人腦建模方式的算法,能夠通過(guò)引入新數(shù)據(jù)來(lái)完成“學(xué)習(xí)”過(guò)程。因此,開(kāi)發(fā)專(zhuān)用的“計(jì)算高效型”神經(jīng)網(wǎng)絡(luò)模型,會(huì)為機(jī)器學(xué)習(xí)帶來(lái)諸多好處。
然而,如何才能確保模型的高效性,關(guān)鍵點(diǎn)之一是在實(shí)現(xiàn)推斷加速器(廣義的硬件加速器)時(shí)應(yīng)采用何種方式訪問(wèn)存儲(chǔ)器,特別是要考慮如何將權(quán)重和中間激活值一起儲(chǔ)存。幾項(xiàng)關(guān)鍵考量包括:
時(shí)延
對(duì) L1、L2 和 L3 存儲(chǔ)器的訪問(wèn)表現(xiàn)出相對(duì)較低的時(shí)延。如果與下一個(gè)圖形運(yùn)算有關(guān)的權(quán)重和激活值被緩存起來(lái),那么我們就能保持合理水平的效率。然而,如果我們要從外部 DDR 提取數(shù)據(jù),就會(huì)發(fā)生流水線停頓,進(jìn)而影響時(shí)延和效率。
功耗
訪問(wèn)外部存儲(chǔ)器的能耗至少比訪問(wèn)內(nèi)部存儲(chǔ)器大一個(gè)數(shù)量級(jí)。
計(jì)算飽和
一般而言,應(yīng)用要么受計(jì)算限制,要么受存儲(chǔ)器限制。這可能會(huì)影響給定推斷范式中可實(shí)現(xiàn)的 GOP/TOP,而且在某些情況下,這種影響不可小視。如果被部署的具體網(wǎng)絡(luò)的實(shí)際性能是 1 TOP,那么使用能達(dá)到 10 TOP 峰值性能的推斷引擎價(jià)值就不大。
What's more?
更進(jìn)一步,考慮到訪問(wèn)現(xiàn)代賽靈思器件里的內(nèi)部 SRAM(熟悉賽靈思 SoC 的人也稱(chēng)其為 BRAM 或 UltraRAM),其能耗大約在幾微微焦耳,與訪問(wèn)外部 DRAM 的能耗相比,低大約兩個(gè)數(shù)量級(jí)。
過(guò)去幾年里已有多種方法投入使用并獲得不同程度的成功,相關(guān)的架構(gòu)選擇帶來(lái)的影響十分顯著。本文將以 TPUv1 架構(gòu)為例,詳細(xì)闡述如何運(yùn)用專(zhuān)門(mén)構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步提升機(jī)器學(xué)習(xí)推斷的效率。
原文標(biāo)題:提升效率的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)了!
文章出處:【微信公眾號(hào):FPGA開(kāi)發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7649瀏覽量
167322 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103551
原文標(biāo)題:提升效率的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)了!
文章出處:【微信號(hào):FPGA-EETrend,微信公眾號(hào):FPGA開(kāi)發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
無(wú)刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測(cè)方法的研究
基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型
深度學(xué)習(xí)入門(mén):簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實(shí)現(xiàn)
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評(píng)論