物聯(lián)網(wǎng)端點位于嵌入式視覺的前沿。而且,與其他前沿領域一樣,也存在挑戰(zhàn),其中最重要的是電源效率。
機器視覺已經迅速在世界上找到了自己的位置。從樹上看到和摘下橙子。注視檢測針對危險的無意識駕駛員。在工廠車間內移動的工業(yè)機器人依靠它進行安全的障礙物檢測。
物聯(lián)網(wǎng)端點位于嵌入式視覺的前沿。而且,與其他前沿領域一樣,也存在挑戰(zhàn),其中最重要的是電源效率。是否可以在不超出節(jié)點功率容量的情況下在極端邊緣進行推理?
這個問題值得考慮。這是因為在邊緣進行推理可以避免不分青紅皂白地將數(shù)據(jù)(其中只有一部分是可操作的)傳輸?shù)皆七M行分析。這樣可以降低存儲成本。此外,訪問云會損害延遲并抑制實時功能。傳輸數(shù)據(jù)是易受攻擊的數(shù)據(jù),因此最好進行端點處理。這對于降低支付給網(wǎng)絡運營商的成本也是有利的。
全新的 SoC 架構方法
然而,對于所有這些好處,一個主要的絆腳石已經存在。使用傳統(tǒng)微控制器的設備的功耗限制阻礙了神經網(wǎng)絡在極端邊緣的推理。
傳統(tǒng)的微控制器(MCU)性能無法滿足周期密集型操作。方法喚醒解決方案可能依賴于機器視覺進行對象分類,這反過來又需要卷積神經網(wǎng)絡 (CNN) 執(zhí)行矩陣乘法運算,這些運算轉化為數(shù)百萬乘法累加 (MAC) 計算(圖 1)。
圖1.到目前為止,微控制器不具備承擔大容量乘法累加(MAC)的效率的問題一直是一個絆腳石。
MCU存在各種各樣的神經網(wǎng)絡。但是,這些未能作為生產就緒型解決方案流行起來,因為所需的性能無法超越電源障礙。
克服功耗-性能困境是為什么采用全新方法處理處理器角色和 SoC 架構的解決方案是有意義的。采用這種新方法需要了解 IoT 終結點需要處理三個工作負載才能成功推理。一個是程序性的,一個是數(shù)字信號處理,一個是執(zhí)行大量MAC操作的。滿足每個工作負載獨特需求的一種方法是在 SoC 中組合一個用于信號處理和機器學習的雙 MAC 16 位 DSP,以及一個用于程序負載的 Arm Cortex-M CPU。
這種混合多核架構充分利用了 DSP 雙存儲器組、零環(huán)路開銷和復雜地址生成。有了它,可以處理工作負載的任何組合:例如,網(wǎng)絡堆棧、RTOS、數(shù)字濾波器、時頻轉換、RNN、CNN 以及傳統(tǒng)的類似人工智能的搜索、決策樹和線性回歸。圖 2 顯示了當 DSP 架構優(yōu)勢發(fā)揮作用時,神經網(wǎng)絡計算性能如何提高 2 倍甚至 3 倍。
圖2.矩陣乘法 (NxN) 基準測試。
僅靠架構更改是不夠的
無論是對于嵌入式視覺系統(tǒng)還是依賴于顯著提高神經網(wǎng)絡效率的任何其他系統(tǒng),實施混合多核架構都很重要。但是,當目標是將功耗降至mW范圍時,必須做更多的工作。認識到這一需求,Eta Compute獲得了連續(xù)電壓和頻率縮放(CVFS)的專利。
CVFS克服了動態(tài)電壓頻率調節(jié)(DVFS)遇到的問題。DVFS確實利用了降低功耗的選項,即降低電壓。缺點是行使此選項時最大頻率會降低。這個問題將DVFS的有效性鎖定在一個狹窄的范圍內 - 一個由嚴格限制數(shù)量的預定義離散電壓電平定義并限制在幾百mV的電壓范圍內。
相比之下,為了在最有效的電壓下實現(xiàn)一致的SoC操作,CVFS使用自定時邏輯。通過自定時邏輯,每個器件都可以連續(xù)自動調整電壓和頻率。CVFS比DVFS更有效,也比亞閾值設計更容易實施,CVFS在另一個重要方面也與這些不同。關鍵區(qū)別在于,上面提到的混合多核架構使CVFS已經做的好事成倍增加。
處于最前沿的生產級
最邊緣的終結點(例如用于人員檢測的終結點)具有特定需求。雖然已發(fā)布的神經網(wǎng)絡可供任何人用于這些物聯(lián)網(wǎng)端點,但它們并沒有優(yōu)先針對這些需求。使用領先的設計技術優(yōu)化這些網(wǎng)絡可以解決這個問題。
除了使用先進的設計方法外,我們在 Eta Compute 采用的神經網(wǎng)絡優(yōu)化方法以生產級神經傳感器處理器 ECM3532 為中心(圖 3)。它融合了混合多核架構和 CVFS 技術的所有優(yōu)勢。
圖3.Eta Compute ECM3532神經傳感器處理器的混合多核架構將Arm Cortex-M3處理器、恩智浦CoolFlux DSP、512KB閃存、352KBSRAM和支持外設集成在SoC中,可實現(xiàn)mW范圍內最邊緣的推理。
獲得的知識
如圖4所示的測試結果顯示,為了將深度學習引入嵌入式視覺系統(tǒng),電力成本不必上升到不可接受的水平。雖然沒有一根魔杖可以為高功耗的神經網(wǎng)絡供電,但將MCU功耗效率和DSP優(yōu)勢與網(wǎng)絡優(yōu)化相結合的方法可以幫助應用避免僅依賴云計算導致的安全性、延遲和低效率問題。
圖4.在對人員檢測模型的測試中,包括相機在內的平均系統(tǒng)功耗為5.6mW。對于此測試,速率為每秒 1.3 個審核編輯:郭婷
-
控制器
+關注
關注
114文章
17113瀏覽量
184386 -
物聯(lián)網(wǎng)
+關注
關注
2931文章
46251瀏覽量
392769 -
機器視覺
+關注
關注
163文章
4597瀏覽量
122927
發(fā)布評論請先 登錄
物聯(lián)網(wǎng)技術促進能量收集創(chuàng)新應用落地

Aux-Think打破視覺語言導航任務的常規(guī)推理范式

物聯(lián)網(wǎng)藍牙模塊有哪些優(yōu)勢?
物聯(lián)網(wǎng)的應用范圍有哪些?
村田NPO電容在哪些頻率范圍內具有較好的性能?
蜂窩物聯(lián)網(wǎng)怎么選
為什么選擇蜂窩物聯(lián)網(wǎng)
宇樹科技在物聯(lián)網(wǎng)方面
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
ad7124上電開啟診斷結果,顯示LDO不在范圍內,是哪里出錯了?
ADS1230怎么處理才能使信號在芯片量程范圍內?
ADS131A02 0-50的溫度范圍內,ADC輸出漂移0.1%是怎么回事?
中國蜂窩物聯(lián)網(wǎng)連接數(shù)領跑全球

全天候全覆蓋的衛(wèi)星通訊方案如何在物聯(lián)網(wǎng)系統(tǒng)中應用

評論