三级黄色香焦视频,操逼片高清无码大陆一级不卡AV

近幾年，因應(yīng)AI與ML應(yīng)用趨勢(shì)浪潮，越來(lái)越多企業(yè)開(kāi)始嘗試將這樣的能力帶到靠近數(shù)據(jù)源的邊緣設(shè)備或IoT裝置，來(lái)發(fā)展各種Edge AI或AIoT應(yīng)用。例如結(jié)合語(yǔ)音指令來(lái)控制機(jī)器人作業(yè)，或是透過(guò)AI邊緣攝影機(jī)來(lái)偵測(cè)機(jī)臺(tái)設(shè)備有無(wú)故障。但受限于CPU效能、數(shù)據(jù)吞吐量、內(nèi)存及數(shù)據(jù)儲(chǔ)存的影響，想要在資源有限的IoT或嵌入式裝置跑AI或ML推論模型，現(xiàn)在仍然不是一件容易的事。

近年來(lái)，一種微型機(jī)器學(xué)習(xí)新技術(shù)TinyML順勢(shì)而起，試圖從優(yōu)化硬件或模型來(lái)實(shí)現(xiàn)裝置上的AI或ML應(yīng)用，讓ML的推論功能能夠在資源有限的終端裝置上來(lái)實(shí)現(xiàn)，可說(shuō)是加速實(shí)現(xiàn)Edge AI或AIoT應(yīng)用的重要關(guān)鍵。

TinyML是什么？引用GoogleTensorflow 行動(dòng)部門負(fù)責(zé)人Pete Warden的定義，指的是每次執(zhí)行ML模型推論時(shí)，其功耗必須小于1毫瓦（1mW）。

除了考慮到功耗，運(yùn)算力不足也是實(shí)現(xiàn)Edge AI或AIoT應(yīng)用的關(guān)鍵問(wèn)題。以Inception v4深度學(xué)習(xí)模型為例，硬件能力需要的運(yùn)算量就有240個(gè)GOPS（每秒執(zhí)行10億次運(yùn)算）但一般singleissue處理器，僅提供個(gè)位數(shù)的GOPS，甚至不只運(yùn)算能力，連在內(nèi)存中存取數(shù)據(jù)也會(huì)影響功耗，例如要從SRAM高速緩存來(lái)存取1TB的數(shù)據(jù)，一顆16奈米CPU每秒所消耗的功耗就超過(guò)1瓦。這些都是TinyML的挑戰(zhàn)。

現(xiàn)階段TinyML技術(shù)發(fā)展，主要是從ML模型與硬件優(yōu)化來(lái)實(shí)現(xiàn)低功耗裝置上的ML應(yīng)用。歸納起來(lái)實(shí)現(xiàn)TinyML的5種常見(jiàn)ML模型架構(gòu)和優(yōu)化的方法，包括降低精度（Reduce Precision）、數(shù)據(jù)重復(fù)利用（Data re-use）、權(quán)重壓縮（Weight compression）、轉(zhuǎn)換（Transforms）、稀疏運(yùn)算（Sparse computation）。

第一種作法是轉(zhuǎn)換ML模型及權(quán)重的數(shù)據(jù)單元格式，來(lái)降低推論執(zhí)行所需的運(yùn)算量，例如將模型的權(quán)重從高精度FP32轉(zhuǎn)成較低精度的FP16或INT8格式。因ML模型需要很多乘加法運(yùn)算，而高精度ML模型又比低精度ML模型需要的運(yùn)算量更高，也因此，改用較低精度的ML模型來(lái)執(zhí)行運(yùn)算，能大幅降低功耗，甚至因運(yùn)算數(shù)據(jù)變少，也能因應(yīng)更高的吞吐量需求。這是第一個(gè)可以運(yùn)用到TinyML的方法。

除了從數(shù)據(jù)單元格式著手，減少數(shù)據(jù)重復(fù)使用是另一個(gè)可行方法。例如可以將CNN神經(jīng)網(wǎng)絡(luò)模型中經(jīng)常重復(fù)使用的權(quán)重參數(shù)的數(shù)值，暫時(shí)集中存放到一處，不用每次都從內(nèi)存來(lái)?yè)迫?shù)據(jù)，減少不必要任務(wù)處理，也能達(dá)到降低功耗的作用。

由于現(xiàn)在神經(jīng)網(wǎng)絡(luò)模型體積越來(lái)越大，結(jié)構(gòu)越來(lái)越復(fù)雜，因推論執(zhí)行需處理的模型參數(shù)數(shù)量也就越多，大量使用內(nèi)存來(lái)存放這些龐大數(shù)據(jù)，也造成了不少功耗的損失，也因此有了第3種作法是，透過(guò)權(quán)重壓縮技術(shù)，對(duì)于存入內(nèi)存前的權(quán)重參數(shù)先進(jìn)行壓縮，需要時(shí)再解壓縮拿來(lái)使用，，這樣做好處是，一來(lái)可以減少內(nèi)存的用量，二來(lái)能獲得更高的帶寬和更低功耗。

第4種作法則是采用轉(zhuǎn)換矩陣運(yùn)算domain的方式，來(lái)降低乘法運(yùn)算的復(fù)雜度。一般AI或ML模型運(yùn)算過(guò)程有6成以上都是矩陣的乘法運(yùn)算，所以只要讓乘法運(yùn)算變少，就能減少運(yùn)算量，這是能夠降低運(yùn)算和功耗的另一種方式。例如將復(fù)雜的矩陣運(yùn)算domain轉(zhuǎn)換到較簡(jiǎn)易Winograd卷積算法的domain做運(yùn)算，就能降低乘法運(yùn)算的復(fù)雜度。

最后一種方法是稀疏運(yùn)算，像是運(yùn)用Relu的激勵(lì)函數(shù)，在CNN模型運(yùn)算過(guò)程中，使其部分神經(jīng)元的輸出為零，可以讓神經(jīng)網(wǎng)絡(luò)變得稀疏，在運(yùn)算時(shí)只針對(duì)激勵(lì)函數(shù)輸入數(shù)值非零部分做運(yùn)算，不處理數(shù)值為零的部分，透過(guò)這樣的處理方式，同樣能達(dá)到運(yùn)算量與功耗降低的效果。

除了優(yōu)化ML模型和架構(gòu)外，現(xiàn)在硬件設(shè)計(jì)過(guò)程中，也有一些新作法，來(lái)因應(yīng)TinyML需求。常見(jiàn)3種TinyML硬件平臺(tái)，前兩種是以低功耗和AI加速或優(yōu)化的硬件設(shè)計(jì)為主，包括有低功耗通用SoC、低功耗micro-NPU，可分別對(duì)應(yīng)到Arm Cortex-M55與Arm Ethos-U55系列IP產(chǎn)品。Arm Cortex-M55最大特色是支持最新的向量擴(kuò)充指令，與Cortex-M44相比，在語(yǔ)音模型處理性能表現(xiàn)高出8倍之多。Arm Ethos-U55是ARM推出的另一款神經(jīng)網(wǎng)絡(luò)處理器IP產(chǎn)品，不僅省電，在AI處理效能獲得百倍提升，甚至最新一款A(yù)rm Ethos-U6產(chǎn)品中，其運(yùn)算能力可達(dá)到1 TOPS。

其中第3種硬件平臺(tái)是采取內(nèi)存運(yùn)算的硬件架構(gòu)平臺(tái)，如Mythic IPU處理器等，就是采用閃存內(nèi)運(yùn)算來(lái)執(zhí)行ML推論，足以支撐113M （百萬(wàn)）權(quán)重?cái)?shù)量和每瓦4 TOPs運(yùn)算能力。

目前TinyML技術(shù)上遇到的挑戰(zhàn)，越來(lái)越多AI與ML應(yīng)用，開(kāi)始追求更高準(zhǔn)確度，需要使用資源越來(lái)越多，包括運(yùn)算、內(nèi)存、功耗等，「但TinyML卻又是要在有限資源下來(lái)實(shí)現(xiàn)或執(zhí)行不同的模型或神經(jīng)網(wǎng)絡(luò)，這就是最大的Gap?！?/p>

舉例來(lái)說(shuō)，想要提高神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度，除了需要有大量的數(shù)據(jù)做訓(xùn)練，數(shù)據(jù)量越大需要做的矩陣運(yùn)算就更多，還有大量的參數(shù)需要調(diào)整，而且隨著架構(gòu)越復(fù)雜，需要做很多層神經(jīng)網(wǎng)絡(luò)計(jì)算，使用海量存儲(chǔ)器存取數(shù)據(jù)、參數(shù)和每一層計(jì)算結(jié)果。

盡管TinyML發(fā)展才剛起步，隨著AIoT或Edge AI應(yīng)用越來(lái)越火紅，未來(lái)將會(huì)有越來(lái)越多嵌入式裝置結(jié)合AI或ML功能，想要真正實(shí)現(xiàn)TinyML，這些裝置硬件必須具備每秒兆次（trillions）的乘加法運(yùn)算能力，而且這樣的運(yùn)算能力須考慮到硬件空間設(shè)計(jì)，還有兼顧功耗才行。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ARM

ARM

+關(guān)注

關(guān)注
134

文章
9270

瀏覽量
373521
ML

ML

+關(guān)注

關(guān)注
0

文章
149

瀏覽量
34907
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8481

瀏覽量
133855
TinyML

TinyML

+關(guān)注

關(guān)注
0

文章
43

瀏覽量
1432

原文標(biāo)題：如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML？Arm歸納出5種作法

文章出處：【微信號(hào)：易心Microbit編程，微信公眾號(hào)：易心Microbit編程】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

STM32U5?（超低功耗MCU，支持TinyML）全面解析

：在電機(jī)或設(shè)備中部署STM32U5，通過(guò)振動(dòng)傳感器數(shù)據(jù)訓(xùn)練TinyML模型，預(yù)測(cè)設(shè)備故障，避免停機(jī)損失。智能傳感器：集成14位ADC與MDF，實(shí)現(xiàn)高精度信號(hào)采集（如工業(yè)流量計(jì)），結(jié)

發(fā)表于 04-08 17:38 ?812次閱讀

STM32U<b class='flag-5'>5</b>?（超低功耗MCU，支持<b class='flag-5'>TinyML</b>）全面解析

Raspberry Pi Pico 2 上實(shí)現(xiàn)：實(shí)時(shí)機(jī)器學(xué)習(xí)（ML）音頻噪音抑制功能

Arm公司的首席軟件工程師SandeepMistry為我們展示了一種全新的巧妙方法：在RaspberryPiPico2上如何將音頻噪音抑制應(yīng)用于麥克風(fēng)輸入。機(jī)器學(xué)習(xí)（ML）技術(shù)徹底改變了許多軟件應(yīng)用

發(fā)表于 03-25 09:46 ?186次閱讀

Raspberry Pi Pico 2 上<b class='flag-5'>實(shí)現(xiàn)</b>：實(shí)時(shí)機(jī)器學(xué)習(xí)（<b class='flag-5'>ML</b>）音頻噪音抑制功能

Vgg16模型無(wú)法使用模型優(yōu)化器重塑怎么解決？

Vgg16 模型無(wú)法使用模型優(yōu)化器重塑。

發(fā)表于 03-06 06:29

使用OpenVINO?進(jìn)行優(yōu)化后，為什么DETR模型在不同的硬件上測(cè)試時(shí)顯示不同的結(jié)果？

通過(guò)模型優(yōu)化優(yōu)化了 DETR 模型。在 SPR 計(jì)算機(jī)上使用優(yōu)化模型（DETR

發(fā)表于 03-05 10:27

使用各種TensorFlow模型運(yùn)行模型優(yōu)化器時(shí)遇到錯(cuò)誤非法指令怎么解決？

使用各種 TensorFlow 模型運(yùn)行模型優(yōu)化器時(shí)遇到 [i]錯(cuò)誤非法指令

發(fā)表于 03-05 09:56

熵基科技實(shí)現(xiàn)BioCV TinyML與DeepSeek大模型融合

近日，熵基科技宣布了一項(xiàng)重大技術(shù)突破。該公司自主研發(fā)的“BioCV TinyML模型”已成功與全球知名的LLM大模型DeepSeek實(shí)現(xiàn)接入與融合。這一融合成果不僅彰顯了熵基科技在智

發(fā)表于 02-19 16:15 ?539次閱讀

ARM主板定制：打造專屬智能硬件

在競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境中，標(biāo)準(zhǔn)化產(chǎn)品已無(wú)法滿足企業(yè)日益增長(zhǎng)的個(gè)性化需求。ARM主板定制服務(wù)應(yīng)運(yùn)而生，為企業(yè)提供量身定制的硬件解決方案，助力企業(yè)打造差異化競(jìng)爭(zhēng)優(yōu)勢(shì)，引領(lǐng)行業(yè)未來(lái)。為何選擇ARM主板定制

發(fā)表于 02-05 14:14 ?325次閱讀

<b class='flag-5'>ARM</b>主板定制：打造專屬智能<b class='flag-5'>硬件</b>

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

生成回答。在特定領(lǐng)域或任務(wù)中，可以通過(guò)微調(diào)Embedding模型來(lái)提高檢索的相關(guān)性和準(zhǔn)確性。Embedding在大模型RAG技術(shù)中發(fā)揮著至關(guān)重要的作用。它不僅實(shí)現(xiàn)了文本向量化，還為信息檢索和文本生成提供了基礎(chǔ)。通過(guò)不斷

發(fā)表于 01-17 19:53

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù)，它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型基礎(chǔ)上，使用新的、特定任務(wù)相關(guān)的數(shù)據(jù)

發(fā)表于 01-14 16:51

Arm Corstone-320 FVP仿真平臺(tái)介紹

開(kāi)發(fā)機(jī)器學(xué)習(xí) (ML) 應(yīng)用頗具挑戰(zhàn)，尤其是涉及專用硬件時(shí)。好消息是，Arm Corstone-320 固定虛擬平臺(tái) (Fixed Virtual Platform, FVP) 簡(jiǎn)化了這個(gè)過(guò)程，無(wú)需物理

發(fā)表于 12-24 14:20 ?577次閱讀

利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

PyTorch 是一個(gè)廣泛應(yīng)用的開(kāi)源機(jī)器學(xué)習(xí) (ML) 庫(kù)。近年來(lái)，Arm 與合作伙伴通力協(xié)作，持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升 A

發(fā)表于 12-23 09:19 ?741次閱讀

如何通過(guò)OSI七層模型優(yōu)化網(wǎng)絡(luò)性能

OSI（Open Systems Interconnection）七層模型是一種標(biāo)準(zhǔn)的網(wǎng)絡(luò)分層模型，將網(wǎng)絡(luò)功能分為七個(gè)不同的層次，每個(gè)層次都有獨(dú)立的功能和協(xié)議，可以獨(dú)立地實(shí)現(xiàn)和升級(jí)。通

發(fā)表于 11-24 11:14 ?758次閱讀

ML307A 4G模組硬件設(shè)計(jì)手冊(cè)

基于ML307A ?4G模組的硬件設(shè)計(jì)指導(dǎo)手冊(cè)

發(fā)表于 10-24 16:50 ?37次下載

AI大模型的性能優(yōu)化方法

AI大模型的性能優(yōu)化是一個(gè)復(fù)雜而關(guān)鍵的任務(wù)，涉及多個(gè)方面和策略。以下是一些主要的性能優(yōu)化方法：一、模型壓縮與優(yōu)化

發(fā)表于 10-23 15:01 ?1893次閱讀

如何利用ARMxy ARM嵌入式計(jì)算機(jī)的NPU進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和優(yōu)化？

在正文開(kāi)始前，我們先大致了解鋇錸的ARMxy ARM嵌入式計(jì)算機(jī)，再來(lái)說(shuō)說(shuō)我們?nèi)绾卫肁RMxy ARM嵌入式計(jì)算機(jī)的NPU來(lái)實(shí)現(xiàn)深度學(xué)習(xí)模型的訓(xùn)練和

發(fā)表于 08-20 13:43 ?595次閱讀

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML？Arm歸納出5種作法

評(píng)論

STM32U5?（超低功耗MCU，支持TinyML）全面解析

Raspberry Pi Pico 2 上實(shí)現(xiàn)：實(shí)時(shí)機(jī)器學(xué)習(xí)（ML）音頻噪音抑制功能

Vgg16模型無(wú)法使用模型優(yōu)化器重塑怎么解決？

使用OpenVINO?進(jìn)行優(yōu)化后，為什么DETR模型在不同的硬件上測(cè)試時(shí)顯示不同的結(jié)果？

使用各種TensorFlow模型運(yùn)行模型優(yōu)化器時(shí)遇到錯(cuò)誤非法指令怎么解決？

熵基科技實(shí)現(xiàn)BioCV TinyML與DeepSeek大模型融合

ARM主板定制：打造專屬智能硬件

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

Arm Corstone-320 FVP仿真平臺(tái)介紹

利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

如何通過(guò)OSI七層模型優(yōu)化網(wǎng)絡(luò)性能

ML307A 4G模組硬件設(shè)計(jì)手冊(cè)

AI大模型的性能優(yōu)化方法

如何利用ARMxy ARM嵌入式計(jì)算機(jī)的NPU進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和優(yōu)化？

搜索歷史

如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML？Arm歸納出5種作法

評(píng)論

如何優(yōu)化ML模型與硬件實(shí)現(xiàn)TinyML？Arm歸納出5種作法