一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)化ML模型與硬件實現(xiàn)TinyML?Arm歸納出5種作法

jf_cVC5iyAO ? 來源:易心Microbit編程 ? 2023-01-07 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近幾年,因應(yīng)AI與ML應(yīng)用趨勢浪潮,越來越多企業(yè)開始嘗試將這樣的能力帶到靠近數(shù)據(jù)源的邊緣設(shè)備或IoT裝置,來發(fā)展各種Edge AI或AIoT應(yīng)用。例如結(jié)合語音指令來控制機(jī)器人作業(yè),或是透過AI邊緣攝影機(jī)來偵測機(jī)臺設(shè)備有無故障。但受限于CPU效能、數(shù)據(jù)吞吐量、內(nèi)存及數(shù)據(jù)儲存的影響,想要在資源有限的IoT或嵌入式裝置跑AI或ML推論模型,現(xiàn)在仍然不是一件容易的事。

近年來,一種微型機(jī)器學(xué)習(xí)新技術(shù)TinyML順勢而起,試圖從優(yōu)化硬件或模型來實現(xiàn)裝置上的AI或ML應(yīng)用,讓ML的推論功能能夠在資源有限的終端裝置上來實現(xiàn),可說是加速實現(xiàn)Edge AI或AIoT應(yīng)用的重要關(guān)鍵。

TinyML是什么?引用GoogleTensorflow 行動部門負(fù)責(zé)人Pete Warden的定義,指的是每次執(zhí)行ML模型推論時,其功耗必須小于1毫瓦(1mW)。

除了考慮到功耗,運算力不足也是實現(xiàn)Edge AI或AIoT應(yīng)用的關(guān)鍵問題。以Inception v4深度學(xué)習(xí)模型為例,硬件能力需要的運算量就有240個GOPS(每秒執(zhí)行10億次運算) 但一般singleissue處理器,僅提供個位數(shù)的GOPS,甚至不只運算能力,連在內(nèi)存中存取數(shù)據(jù)也會影響功耗,例如要從SRAM高速緩存來存取1TB的數(shù)據(jù),一顆16奈米CPU每秒所消耗的功耗就超過1瓦。這些都是TinyML的挑戰(zhàn)。

現(xiàn)階段TinyML技術(shù)發(fā)展,主要是從ML模型與硬件優(yōu)化來實現(xiàn)低功耗裝置上的ML應(yīng)用。歸納起來實現(xiàn)TinyML的5種常見ML模型架構(gòu)和優(yōu)化的方法,包括降低精度(Reduce Precision)、數(shù)據(jù)重復(fù)利用(Data re-use)、權(quán)重壓縮(Weight compression)、轉(zhuǎn)換(Transforms)、稀疏運算(Sparse computation)。

第一種作法是轉(zhuǎn)換ML模型及權(quán)重的數(shù)據(jù)單元格式,來降低推論執(zhí)行所需的運算量,例如將模型的權(quán)重從高精度FP32轉(zhuǎn)成較低精度的FP16或INT8格式。因ML模型需要很多乘加法運算,而高精度ML模型又比低精度ML模型需要的運算量更高,也因此,改用較低精度的ML模型來執(zhí)行運算,能大幅降低功耗,甚至因運算數(shù)據(jù)變少,也能因應(yīng)更高的吞吐量需求。這是第一個可以運用到TinyML的方法。

除了從數(shù)據(jù)單元格式著手,減少數(shù)據(jù)重復(fù)使用是另一個可行方法。例如可以將CNN神經(jīng)網(wǎng)絡(luò)模型中經(jīng)常重復(fù)使用的權(quán)重參數(shù)的數(shù)值,暫時集中存放到一處,不用每次都從內(nèi)存來撈取數(shù)據(jù),減少不必要任務(wù)處理,也能達(dá)到降低功耗的作用。

由于現(xiàn)在神經(jīng)網(wǎng)絡(luò)模型體積越來越大,結(jié)構(gòu)越來越復(fù)雜,因推論執(zhí)行需處理的模型參數(shù)數(shù)量也就越多,大量使用內(nèi)存來存放這些龐大數(shù)據(jù),也造成了不少功耗的損失,也因此有了第3種作法是,透過權(quán)重壓縮技術(shù),對于存入內(nèi)存前的權(quán)重參數(shù)先進(jìn)行壓縮,需要時再解壓縮拿來使用,,這樣做好處是,一來可以減少內(nèi)存的用量,二來能獲得更高的帶寬和更低功耗。

第4種作法則是采用轉(zhuǎn)換矩陣運算domain的方式,來降低乘法運算的復(fù)雜度。一般AI或ML模型運算過程有6成以上都是矩陣的乘法運算,所以只要讓乘法運算變少,就能減少運算量,這是能夠降低運算和功耗的另一種方式。例如將復(fù)雜的矩陣運算domain轉(zhuǎn)換到較簡易Winograd卷積算法的domain做運算,就能降低乘法運算的復(fù)雜度。

最后一種方法是稀疏運算,像是運用Relu的激勵函數(shù),在CNN模型運算過程中,使其部分神經(jīng)元的輸出為零,可以讓神經(jīng)網(wǎng)絡(luò)變得稀疏,在運算時只針對激勵函數(shù)輸入數(shù)值非零部分做運算,不處理數(shù)值為零的部分,透過這樣的處理方式,同樣能達(dá)到運算量與功耗降低的效果。

除了優(yōu)化ML模型和架構(gòu)外,現(xiàn)在硬件設(shè)計過程中,也有一些新作法,來因應(yīng)TinyML需求。常見3種TinyML硬件平臺,前兩種是以低功耗和AI加速或優(yōu)化的硬件設(shè)計為主,包括有低功耗通用SoC、低功耗micro-NPU,可分別對應(yīng)到Arm Cortex-M55與Arm Ethos-U55系列IP產(chǎn)品。Arm Cortex-M55最大特色是支持最新的向量擴(kuò)充指令,與Cortex-M44相比,在語音模型處理性能表現(xiàn)高出8倍之多。Arm Ethos-U55是ARM推出的另一款神經(jīng)網(wǎng)絡(luò)處理器IP產(chǎn)品,不僅省電,在AI處理效能獲得百倍提升,甚至最新一款A(yù)rm Ethos-U6產(chǎn)品中,其運算能力可達(dá)到1 TOPS。

其中第3種硬件平臺是采取內(nèi)存運算的硬件架構(gòu)平臺,如Mythic IPU處理器等,就是采用閃存內(nèi)運算來執(zhí)行ML推論,足以支撐113M (百萬)權(quán)重數(shù)量和每瓦4 TOPs運算能力。

目前TinyML技術(shù)上遇到的挑戰(zhàn),越來越多AI與ML應(yīng)用,開始追求更高準(zhǔn)確度,需要使用資源越來越多,包括運算、內(nèi)存、功耗等,「但TinyML卻又是要在有限資源下來實現(xiàn)或執(zhí)行不同的模型或神經(jīng)網(wǎng)絡(luò),這就是最大的Gap?!?/p>

舉例來說,想要提高神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度,除了需要有大量的數(shù)據(jù)做訓(xùn)練,數(shù)據(jù)量越大需要做的矩陣運算就更多,還有大量的參數(shù)需要調(diào)整,而且隨著架構(gòu)越復(fù)雜,需要做很多層神經(jīng)網(wǎng)絡(luò)計算,使用海量存儲器存取數(shù)據(jù)、參數(shù)和每一層計算結(jié)果。

盡管TinyML發(fā)展才剛起步,隨著AIoT或Edge AI應(yīng)用越來越火紅,未來將會有越來越多嵌入式裝置結(jié)合AI或ML功能,想要真正實現(xiàn)TinyML,這些裝置硬件必須具備每秒兆次(trillions)的乘加法運算能力,而且這樣的運算能力須考慮到硬件空間設(shè)計,還有兼顧功耗才行。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9353

    瀏覽量

    377625
  • ML
    ML
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    35079
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134635
  • TinyML
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    1560

原文標(biāo)題:如何優(yōu)化ML模型與硬件實現(xiàn)TinyML?Arm歸納出5種作法

文章出處:【微信號:易心Microbit編程,微信公眾號:易心Microbit編程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    Nordic Semiconductor 于 2025 年收購了 Neuton.AI,這是一家專注于超小型機(jī)器學(xué)習(xí)(TinyML)解決方案的公司。 Neuton 開發(fā)了一獨特的神經(jīng)網(wǎng)絡(luò)框架,能夠
    發(fā)表于 06-28 14:18

    STM32U5?(超低功耗MCU,支持TinyML)全面解析

    :在電機(jī)或設(shè)備中部署STM32U5,通過振動傳感器數(shù)據(jù)訓(xùn)練TinyML模型,預(yù)測設(shè)備故障,避免停機(jī)損失。智能傳感器 :集成14位ADC與MDF,實現(xiàn)高精度信號采集(如工業(yè)流量計),結(jié)
    的頭像 發(fā)表于 04-08 17:38 ?1772次閱讀
    STM32U<b class='flag-5'>5</b>?(超低功耗MCU,支持<b class='flag-5'>TinyML</b>)全面解析

    Raspberry Pi Pico 2 上實現(xiàn):實時機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能

    Arm公司的首席軟件工程師SandeepMistry為我們展示了一全新的巧妙方法:在RaspberryPiPico2上如何將音頻噪音抑制應(yīng)用于麥克風(fēng)輸入。機(jī)器學(xué)習(xí)(ML)技術(shù)徹底改變了許多軟件應(yīng)用
    的頭像 發(fā)表于 03-25 09:46 ?385次閱讀
    Raspberry Pi Pico 2 上<b class='flag-5'>實現(xiàn)</b>:實時機(jī)器學(xué)習(xí)(<b class='flag-5'>ML</b>)音頻噪音抑制功能

    Vgg16模型無法使用模型優(yōu)化器重塑怎么解決?

    Vgg16 模型無法使用模型優(yōu)化器重塑。
    發(fā)表于 03-06 06:29

    使用OpenVINO?進(jìn)行優(yōu)化后,為什么DETR模型在不同的硬件上測試時顯示不同的結(jié)果?

    通過模型優(yōu)化優(yōu)化了 DETR 模型。 在 SPR 計算機(jī)上使用優(yōu)化模型(DETR
    發(fā)表于 03-05 10:27

    熵基科技實現(xiàn)BioCV TinyML與DeepSeek大模型融合

    近日,熵基科技宣布了一項重大技術(shù)突破。該公司自主研發(fā)的“BioCV TinyML模型”已成功與全球知名的LLM大模型DeepSeek實現(xiàn)接入與融合。 這一融合成果不僅彰顯了熵基科技在智
    的頭像 發(fā)表于 02-19 16:15 ?811次閱讀

    ARM主板定制:打造專屬智能硬件

    在競爭激烈的市場環(huán)境中,標(biāo)準(zhǔn)化產(chǎn)品已無法滿足企業(yè)日益增長的個性化需求。ARM主板定制服務(wù)應(yīng)運而生,為企業(yè)提供量身定制的硬件解決方案,助力企業(yè)打造差異化競爭優(yōu)勢,引領(lǐng)行業(yè)未來。為何選擇ARM主板定制
    的頭像 發(fā)表于 02-05 14:14 ?479次閱讀
    <b class='flag-5'>ARM</b>主板定制:打造專屬智能<b class='flag-5'>硬件</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    生成回答。在特定領(lǐng)域或任務(wù)中,可以通過微調(diào)Embedding模型來提高檢索的相關(guān)性和準(zhǔn)確性。Embedding在大模型RAG技術(shù)中發(fā)揮著至關(guān)重要的作用。它不僅實現(xiàn)了文本向量化,還為信息檢索和文本生成提供了基礎(chǔ)。通過不斷
    發(fā)表于 01-17 19:53

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型基礎(chǔ)上,使用新的、特定任務(wù)相關(guān)的數(shù)據(jù)
    發(fā)表于 01-14 16:51

    Arm Corstone-320 FVP仿真平臺介紹

    開發(fā)機(jī)器學(xué)習(xí) (ML) 應(yīng)用頗具挑戰(zhàn),尤其是涉及專用硬件時。好消息是,Arm Corstone-320 固定虛擬平臺 (Fixed Virtual Platform, FVP) 簡化了這個過程,無需物理
    的頭像 發(fā)表于 12-24 14:20 ?877次閱讀

    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升 A
    的頭像 發(fā)表于 12-23 09:19 ?1060次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術(shù)<b class='flag-5'>實現(xiàn)</b>PyTorch<b class='flag-5'>優(yōu)化</b>

    如何通過OSI七層模型優(yōu)化網(wǎng)絡(luò)性能

    OSI(Open Systems Interconnection)七層模型是一標(biāo)準(zhǔn)的網(wǎng)絡(luò)分層模型,將網(wǎng)絡(luò)功能分為七個不同的層次,每個層次都有獨立的功能和協(xié)議,可以獨立地實現(xiàn)和升級。通
    的頭像 發(fā)表于 11-24 11:14 ?1017次閱讀

    ML307A 4G模組硬件設(shè)計手冊

    基于ML307A ?4G模組的硬件設(shè)計指導(dǎo)手冊
    發(fā)表于 10-24 16:50 ?43次下載

    AI大模型的性能優(yōu)化方法

    AI大模型的性能優(yōu)化是一個復(fù)雜而關(guān)鍵的任務(wù),涉及多個方面和策略。以下是一些主要的性能優(yōu)化方法: 一、模型壓縮與優(yōu)化
    的頭像 發(fā)表于 10-23 15:01 ?2425次閱讀

    如何利用ARMxy ARM嵌入式計算機(jī)的NPU進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和優(yōu)化

    在正文開始前,我們先大致了解鋇錸的ARMxy ARM嵌入式計算機(jī),再來說說我們?nèi)绾卫肁RMxy ARM嵌入式計算機(jī)的NPU來實現(xiàn)深度學(xué)習(xí)模型的訓(xùn)練和
    的頭像 發(fā)表于 08-20 13:43 ?761次閱讀
    如何利用ARMxy <b class='flag-5'>ARM</b>嵌入式計算機(jī)的NPU進(jìn)行深度學(xué)習(xí)<b class='flag-5'>模型</b>的訓(xùn)練和<b class='flag-5'>優(yōu)化</b>?