一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能否在邊緣進(jìn)行訓(xùn)練(on-device training),使設(shè)備不斷的自我學(xué)習(xí)?

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-12-05 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

該研究提出了第一個(gè)在單片機(jī)上實(shí)現(xiàn)訓(xùn)練的解決方案,并且系統(tǒng)協(xié)同設(shè)計(jì)(System-Algorithm Co-design)大大減少了訓(xùn)練所需內(nèi)存。

說(shuō)到神經(jīng)網(wǎng)絡(luò)訓(xùn)練,大家的第一印象都是 GPU + 服務(wù)器 + 云平臺(tái)。傳統(tǒng)的訓(xùn)練由于其巨大的內(nèi)存開(kāi)銷,往往是云端進(jìn)行訓(xùn)練而邊緣平臺(tái)僅負(fù)責(zé)推理。然而,這樣的設(shè)計(jì)使得 AI 模型很難適應(yīng)新的數(shù)據(jù):畢竟現(xiàn)實(shí)世界是一個(gè)動(dòng)態(tài)的,變化的,發(fā)展的場(chǎng)景,一次訓(xùn)練怎么能覆蓋所有場(chǎng)景呢?

為了使得模型能夠不斷的適應(yīng)新數(shù)據(jù),我們能否在邊緣進(jìn)行訓(xùn)練(on-device training),使設(shè)備不斷的自我學(xué)習(xí)?在這項(xiàng)工作中,我們僅用了不到 256KB 內(nèi)存就實(shí)現(xiàn)了設(shè)備上的訓(xùn)練,開(kāi)銷不到 PyTorch 的 1/1000,同時(shí)在視覺(jué)喚醒詞任務(wù)上 (VWW) 達(dá)到了云端訓(xùn)練的準(zhǔn)確率。該項(xiàng)技術(shù)使得模型能夠適應(yīng)新傳感器數(shù)據(jù)。用戶在享受定制的服務(wù)的同時(shí)而無(wú)需將數(shù)據(jù)上傳到云端,從而保護(hù)隱私。

bc68a0d6-73e2-11ed-8abf-dac502259ad0.png

網(wǎng)站:https://tinytraining.mit.edu/

論文:https://arxiv.org/abs/2206.15472

Demo: https://www.bilibili.com/video/BV1qv4y1d7MV

代碼: https://github.com/mit-han-lab/tiny-training

背景

設(shè)備上的訓(xùn)練(On-device Training)允許預(yù)訓(xùn)練的模型在部署后適應(yīng)新環(huán)境。通過(guò)在移動(dòng)端進(jìn)行本地訓(xùn)練和適應(yīng),模型可以不斷改進(jìn)其結(jié)果并為用戶定制模型。例如,微調(diào)語(yǔ)言模型讓其能從輸入歷史中學(xué)習(xí);調(diào)整視覺(jué)模型使得智能相機(jī)能夠不斷識(shí)別新的物體。通過(guò)讓訓(xùn)練更接近終端而不是云端,我們能有效在提升模型質(zhì)量的同時(shí)保護(hù)用戶隱私,尤其是在處理醫(yī)療數(shù)據(jù)、輸入歷史記錄這類隱私信息時(shí)。

然而,在小型的 IoT 設(shè)備進(jìn)行訓(xùn)練與云訓(xùn)練有著本質(zhì)的區(qū)別,非常具有挑戰(zhàn)性,首先, AIoT 設(shè)備(MCU)的 SRAM 大小通常有限(256KB)。這種級(jí)別的內(nèi)存做推理都十分勉強(qiáng),更不用說(shuō)訓(xùn)練了。再者,現(xiàn)有的低成本高效轉(zhuǎn)移學(xué)習(xí)算法,例如只訓(xùn)練最后一層分類器 (last FC),只進(jìn)行學(xué)習(xí) bias 項(xiàng),往往準(zhǔn)確率都不盡如人意,無(wú)法用于實(shí)踐,更不用說(shuō)現(xiàn)有的深度學(xué)習(xí)框架無(wú)法將這些算法的理論數(shù)字轉(zhuǎn)化為實(shí)測(cè)的節(jié)省。最后,現(xiàn)代深度訓(xùn)練框架(PyTorch,TensorFlow)通常是為云服務(wù)器設(shè)計(jì)的,即便把 batch-size 設(shè)置為 1,訓(xùn)練小模型 (MobileNetV2-w0.35) 也需要大量的內(nèi)存占用。因此,我們需要協(xié)同設(shè)計(jì)算法和系統(tǒng),以實(shí)現(xiàn)智能終端設(shè)備上的訓(xùn)練。

bc7fe14c-73e2-11ed-8abf-dac502259ad0.png

方法與結(jié)果

我們發(fā)現(xiàn)設(shè)備上訓(xùn)練有兩個(gè)獨(dú)特的挑戰(zhàn):(1)模型在邊緣設(shè)備上是量化的。一個(gè)真正的量化圖(如下圖所示)由于低精度的張量和缺乏批量歸一化層而難以優(yōu)化;(2)小型硬件的有限硬件資源(內(nèi)存和計(jì)算)不允許完全反向傳播,其內(nèi)存用量很容易超過(guò)微控制器的 SRAM 的限制(一個(gè)數(shù)量級(jí)以上),但如果只更新最后一層,最后的精度又難免差強(qiáng)人意。

bc95c3f4-73e2-11ed-8abf-dac502259ad0.png

為了應(yīng)對(duì)優(yōu)化的困難,我們提出了 Quantization-Aware Scaling (QAS) 來(lái)自動(dòng)縮放不同位精度的張量的梯度(如下左圖所示)。QAS 在不需要額外超參數(shù)的同時(shí),可以自動(dòng)匹配梯度和參數(shù) scale 并穩(wěn)定訓(xùn)練。在 8 個(gè)數(shù)據(jù)集上,QAS 均可以達(dá)到與浮點(diǎn)訓(xùn)練一致的性能(如下右圖)。

bcae282c-73e2-11ed-8abf-dac502259ad0.png

為了減少反向傳播所需要的內(nèi)存占用,我們提出了 Sparse Update,以跳過(guò)不太重要的層和子張的梯度計(jì)算。我們開(kāi)發(fā)了一種基于貢獻(xiàn)分析的自動(dòng)方法來(lái)尋找最佳更新方案。對(duì)比以往的 bias-only, last-k layers update, 我們搜索到的 sparse update 方案擁有 4.5 倍到 7.5 倍的內(nèi)存節(jié)省,在 8 個(gè)下游數(shù)據(jù)集上的平均精度甚至更高。

bcc3e6ee-73e2-11ed-8abf-dac502259ad0.png

為了將算法中的理論減少轉(zhuǎn)換為實(shí)際數(shù)值,我們?cè)O(shè)計(jì)了 Tiny Training Engine(TTE):它將自動(dòng)微分的工作轉(zhuǎn)到編譯時(shí),并使用 codegen 來(lái)減少運(yùn)行時(shí)開(kāi)銷。它還支持 graph pruning 和 reordering,以實(shí)現(xiàn)真正的節(jié)省與加速。與 Full Update 相比,Sparse Update 有效地減少了 7-9 倍的峰值內(nèi)存,并且可以通過(guò) reorder 進(jìn)一步提升至 20-21 倍的總內(nèi)存節(jié)省。相比于 TF-Lite,TTE 里經(jīng)過(guò)優(yōu)化的內(nèi)核和 sparse update 使整體訓(xùn)練速度提高了 23-25 倍。

bcdce52c-73e2-11ed-8abf-dac502259ad0.png

bcef21d8-73e2-11ed-8abf-dac502259ad0.png

結(jié)論

本文中,我們提出了第一個(gè)在單片機(jī)上實(shí)現(xiàn)訓(xùn)練的解決方案(僅用 256KB 內(nèi)存和 1MB 閃存)。我們的算法系統(tǒng)協(xié)同設(shè)計(jì)(System-Algorithm Co-design)大大減少了訓(xùn)練所需內(nèi)存(1000 倍 vs PyTorch)和訓(xùn)練耗時(shí)(20 倍 vs TF-Lite),并在下游任務(wù)上達(dá)到較高的準(zhǔn)確率。Tiny Training 可以賦能許多有趣的應(yīng)用,例如手機(jī)可以根據(jù)用戶的郵件 / 輸入歷史來(lái)定制語(yǔ)言模型,智能相機(jī)可以不斷地識(shí)別新的面孔 / 物體,一些無(wú)法聯(lián)網(wǎng)的 AI 場(chǎng)景也能持續(xù)學(xué)習(xí)(例如農(nóng)業(yè),海洋,工業(yè)流水線)。通過(guò)我們的工作,小型終端設(shè)備不僅可以進(jìn)行推理,還可以進(jìn)行訓(xùn)練。在這過(guò)程中個(gè)人數(shù)據(jù)永遠(yuǎn)不會(huì)上傳到云端,從而沒(méi)有隱私風(fēng)險(xiǎn),同時(shí) AI 模型也可以不斷自我學(xué)習(xí),以適應(yīng)一個(gè)動(dòng)態(tài)變化的世界

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    3124

    瀏覽量

    75269
  • IOT
    IOT
    +關(guān)注

    關(guān)注

    187

    文章

    4305

    瀏覽量

    201831

原文標(biāo)題:用少于256KB內(nèi)存實(shí)現(xiàn)邊緣訓(xùn)練,開(kāi)銷不到PyTorch千分之一

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    學(xué)習(xí)如何訓(xùn)練模型、導(dǎo)出模型,并在基于Linux的系統(tǒng)上運(yùn)行實(shí)時(shí)推理,并通過(guò)MQTT發(fā)布結(jié)果。這是一個(gè)簡(jiǎn)單但完整的流程——從工作站上的建模到邊緣設(shè)備
    的頭像 發(fā)表于 06-11 17:22 ?337次閱讀
    <b class='flag-5'>邊緣</b>計(jì)算中的機(jī)器<b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場(chǎng)景,用戶采集照片或視頻,通過(guò)AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練樣本,通過(guò)AI
    發(fā)表于 04-28 11:11

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供了一套開(kāi)放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化AI 應(yīng)用場(chǎng)景,自己采集樣本數(shù)據(jù),進(jìn)行AI特征標(biāo)定,AI模型訓(xùn)練,AI應(yīng)用部署的
    發(fā)表于 04-28 11:05

    大模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個(gè)用于簡(jiǎn)化和加速深度學(xué)習(xí)模型訓(xùn)練的庫(kù),它支持多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 C
    的頭像 發(fā)表于 01-14 14:24 ?715次閱讀

    邊緣設(shè)備上設(shè)計(jì)和部署深度神經(jīng)網(wǎng)絡(luò)的實(shí)用框架

    ???? 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用程序正越來(lái)越多地從云端轉(zhuǎn)移到靠近數(shù)據(jù)源頭的嵌入式設(shè)備。隨著邊緣計(jì)算市場(chǎng)的快速擴(kuò)張,多種因素正在推動(dòng)邊緣人工智
    的頭像 發(fā)表于 12-20 11:28 ?893次閱讀

    邊緣學(xué)習(xí):降本增效,開(kāi)啟物流新未來(lái)

    展現(xiàn)出獨(dú)特優(yōu)勢(shì)。 邊緣學(xué)習(xí)作為深度學(xué)習(xí)的一個(gè)子集,具有易于部署和成本效益高的特點(diǎn)。它不需要復(fù)雜的編程知識(shí),只需通過(guò)簡(jiǎn)單的配置和訓(xùn)練,即可快速投入使用。其
    的頭像 發(fā)表于 12-20 09:07 ?397次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    網(wǎng)絡(luò)(DenseNet)等創(chuàng)新設(shè)計(jì)都是為了克服深層網(wǎng)絡(luò)訓(xùn)練中的挑戰(zhàn)而提出的。 3 邊緣設(shè)備部署 邊緣
    發(fā)表于 12-19 14:33

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實(shí)現(xiàn)手寫數(shù)字識(shí)別

    了量化操作。這意味著整個(gè)訓(xùn)練過(guò)程中,模型會(huì)“學(xué)習(xí)”如何更好地適應(yīng)量化后的環(huán)境。 步驟包括: 模擬量化:在前向傳播時(shí),模擬量化過(guò)程,即用低精度數(shù)值代替高精度數(shù)值來(lái)進(jìn)行計(jì)算。 反向傳播與
    發(fā)表于 12-06 17:20

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    訓(xùn)練方法 LLM: 預(yù)訓(xùn)練和微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)的方法。預(yù)訓(xùn)練階段,模
    的頭像 發(fā)表于 11-08 09:25 ?1887次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度
    的頭像 發(fā)表于 11-05 17:43 ?1406次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練
    的頭像 發(fā)表于 10-28 14:05 ?656次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>訓(xùn)練</b>的方法

    邊緣計(jì)算與邊緣設(shè)備的關(guān)系

    邊緣計(jì)算與邊緣設(shè)備之間存在著密切的關(guān)系,它們是相互依存、相互促進(jìn)的。以下是對(duì)這兩者關(guān)系的介紹: 一、定義與功能 邊緣計(jì)算 邊緣計(jì)算是一種分布
    的頭像 發(fā)表于 10-24 14:33 ?946次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    電子領(lǐng)域,F(xiàn)PGA 可能需要在性能、成本和功耗之間進(jìn)行更精細(xì)的平衡,以滿足市場(chǎng)需求。 ? 市場(chǎng)競(jìng)爭(zhēng):隨著深度學(xué)習(xí)市場(chǎng)的不斷發(fā)展,其他技術(shù)(如 GPU、ASIC 等)也
    發(fā)表于 09-27 20:53

    如何使物聯(lián)網(wǎng)邊緣設(shè)備高效節(jié)能?

    電源效率對(duì)于物聯(lián)網(wǎng)的成功至關(guān)重要。設(shè)備的效率越高,其功能壽命就越長(zhǎng),用戶體驗(yàn)就越好。您是否組織中實(shí)施了物聯(lián)網(wǎng)解決方案,以提高物聯(lián)網(wǎng)邊緣設(shè)備的能源效率?本文重點(diǎn)介紹了您應(yīng)該考慮的15個(gè)
    的頭像 發(fā)表于 09-24 15:18 ?831次閱讀
    如何<b class='flag-5'>使</b>物聯(lián)網(wǎng)<b class='flag-5'>邊緣</b><b class='flag-5'>設(shè)備</b>高效節(jié)能?

    如何利用AI進(jìn)行提升自我呢?

    支持,包括稀疏計(jì)算、圖學(xué)習(xí)和語(yǔ)音處理等。選擇適合你學(xué)習(xí)目標(biāo)和項(xiàng)目需求的框架。 預(yù)訓(xùn)練模型 :如文心ERNIE 3.0 Tiny v2,它是一個(gè)開(kāi)源的小模型,適用于端側(cè)等低資源場(chǎng)景,可以用于各種自然語(yǔ)言處理任務(wù)。 理解并應(yīng)用AI技
    的頭像 發(fā)表于 07-19 10:46 ?1144次閱讀