一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型壓縮技術(shù),加速AI大模型在終端側(cè)的應(yīng)用

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-04-24 01:26 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)當(dāng)前,全球眾多科技企業(yè)都在積極研究AI大模型,然而因?yàn)閰?shù)規(guī)模太大,要想實(shí)現(xiàn)AI大模型在邊/端側(cè)部署,需要用到模型壓縮技術(shù)。當(dāng)前谷歌、微軟、騰訊等廠商在該領(lǐng)域均有布局,加速AI技術(shù)智能終端的融合。

為什么需要模型壓縮技術(shù)

模型壓縮是一種縮小訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的技術(shù),目的是保證模型預(yù)測(cè)效果的前提下,盡可能地降低模型的大小。模型壓縮之后,所需要的計(jì)算資源變小,有利于在移動(dòng)端部署。

有一個(gè)很形象的例子,深度學(xué)習(xí)變臉業(yè)務(wù),假設(shè)在模型優(yōu)化前,原始模型處理每個(gè)視頻要30秒,那么一張GPU卡一分鐘只能處理2個(gè)視頻。假設(shè)APP的使用峰值是1000人同時(shí)使用,那么這家公司至少要有500張GPU卡才能滿足需求。

如果模型壓縮技術(shù)能讓模型變小許多,使得每個(gè)視頻處理只需要10秒,那么這個(gè)客戶可能只需要150張卡就能滿足業(yè)務(wù)需求。每年的成本可以從原來(lái)的3000萬(wàn)控制在1000萬(wàn)左右,省下的2000萬(wàn),就是模型壓縮技術(shù)的價(jià)值。

量化、網(wǎng)絡(luò)剪枝和知識(shí)蒸餾

模型壓縮的方法主要有量化、網(wǎng)絡(luò)剪枝、知識(shí)蒸餾。量化的意思是,將浮點(diǎn)計(jì)算轉(zhuǎn)成低比特定點(diǎn)計(jì)算,模型由大量的浮點(diǎn)型權(quán)重組成,如果能用float32替代原有的float64表示,模型就近乎減小一倍,量化也是最容易實(shí)現(xiàn)的一種壓縮方式。

傳統(tǒng)意義上的量化即為將連續(xù)信號(hào)轉(zhuǎn)換為離散信號(hào),在神經(jīng)網(wǎng)絡(luò)的量化中,即將浮點(diǎn)數(shù)float32→int8,int4,int2等,量化其本質(zhì)就是低精度,常規(guī)精度一般使用FP32存儲(chǔ)模型權(quán)重,低精度則表示FP16,或INT8等數(shù)值格式,不過(guò)目前低精度往往指的是INT8。

模型壓縮,使得原本只能在云端運(yùn)行大模型,也能夠部署在終端設(shè)備上。比如,近年來(lái)很流行的基礎(chǔ)模型 Stable Diffusion ,它是一個(gè)非常出色的從文本到圖像的生成式 AI 模型,能夠基于任何文本輸入,在數(shù)十秒內(nèi)創(chuàng)作出逼真圖像。Stable Diffusion 的參數(shù)超過(guò) 10 億,此前主要限于在云端運(yùn)行。

高通 AI Research 利用高通 AI 軟件棧(Qualcomm AI Stack)執(zhí)行全棧 AI 優(yōu)化,首次實(shí)現(xiàn)了在Android智能手機(jī)上部署 Stable Diffusion,其中就用到了模型壓縮技術(shù)量化的方法。

據(jù)介紹,高通的全棧 AI 研究指跨應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件進(jìn)行優(yōu)化。針對(duì) Stable Diffusion,他們從 Hugging Face 的 FP32 1-5 版本開(kāi)源模型入手,通過(guò)量化、編譯和硬件加速進(jìn)行優(yōu)化,使其能在搭載第二代驍龍 8 移動(dòng)平臺(tái)的手機(jī)上運(yùn)行。

為了把模型從 FP32 壓縮為 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的訓(xùn)練后量化。自適應(yīng)舍入 (AdaRound) 等先進(jìn)的高通 AIMET 量化技術(shù)能夠在更低精度水平保持模型準(zhǔn)確性,無(wú)需進(jìn)行重新訓(xùn)練。

這些技術(shù)能夠應(yīng)用于構(gòu)成 Stable Diffusion 的所有組件模型,即基于 Transformer 的文本編碼器、VAE 解碼器和 UNet。這對(duì)于讓模型適合于在終端上運(yùn)行至關(guān)重要。

網(wǎng)絡(luò)剪枝,是指除神經(jīng)網(wǎng)絡(luò)中冗余的通道、神經(jīng)元節(jié)點(diǎn)等。深度學(xué)習(xí)模型可以看作是一個(gè)復(fù)雜樹(shù)狀結(jié)構(gòu),如果能減去一些對(duì)結(jié)果沒(méi)什么影響的旁枝,就可以實(shí)現(xiàn)模型的減小。

模型的構(gòu)成是由許多浮點(diǎn)型的神經(jīng)元相連接,每一層根據(jù)神經(jīng)元的權(quán)重將信息向下傳遞。但是有一些神經(jīng)元的權(quán)重非常小,這類神經(jīng)元對(duì)整個(gè)模型加載的信息影響微乎其微。如果可以把這些權(quán)重較小的神經(jīng)元?jiǎng)h減掉,既減少了模型大小,也不會(huì)對(duì)模型的效果帶來(lái)大的影響。

每一層把數(shù)值小的神經(jīng)元去掉,但是剪枝粒度維持到多大也是有講究的,比如可以把每層最小的5個(gè)減掉,也可能只剪3個(gè),或者每層有每層不同的策略。剪多了,模型精度影響會(huì)比較大,剪少了沒(méi)有效果。所以這里面需要大量的嘗試和迭代。

知識(shí)蒸餾,是指將大模型作為教師模型,用其輸出訓(xùn)練性能接近、結(jié)構(gòu)更簡(jiǎn)的學(xué)生模型。一般而言,大模型往往是單個(gè)復(fù)雜網(wǎng)絡(luò)或者是若干網(wǎng)絡(luò)的集合,擁有良好的性能和泛化能力,而小模型因?yàn)榫W(wǎng)絡(luò)規(guī)模較小,表達(dá)能力有限。

因此,可以利用大模型學(xué)習(xí)到的知識(shí)去指導(dǎo)小模型訓(xùn)練,使得小模型具有與大模型相當(dāng)?shù)男阅?,但是參?shù)數(shù)量大幅降低,從而實(shí)現(xiàn)模型壓縮。

小結(jié)

當(dāng)下,AI大模型發(fā)展如火如荼,然而因?yàn)閰?shù)規(guī)模太大,不僅僅是訓(xùn)練,大模型的部署推理,也需要倚賴豐富的計(jì)算資源。如果想要大模型能夠在邊/終端側(cè)實(shí)現(xiàn)部署,這其中就需要用到模型壓縮技術(shù),如高通使用量化的方法,讓Stable Diffusion能夠在手機(jī)上運(yùn)行。




聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33554

    瀏覽量

    274196
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    拋棄8GB內(nèi)存,端側(cè)AI模型加速內(nèi)存升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)端側(cè)AI模型的到來(lái)存儲(chǔ)市場(chǎng)產(chǎn)生了最直接的反應(yīng)。年初我們對(duì)旗艦智能手機(jī)的存儲(chǔ)容量統(tǒng)計(jì)中,16GB內(nèi)存+51
    的頭像 發(fā)表于 11-03 00:02 ?5445次閱讀
    拋棄8GB內(nèi)存,端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>內(nèi)存升級(jí)

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來(lái)了全面升級(jí)的天璣AI開(kāi)發(fā)套件2.0,模型庫(kù)規(guī)模、架構(gòu)開(kāi)放程度、前沿端側(cè)AI技術(shù)支持
    發(fā)表于 04-13 19:52

    AI模型端側(cè)部署正當(dāng)時(shí):移遠(yuǎn)端側(cè)AI模型解決方案,激活場(chǎng)景智能新范式

    AI技術(shù)飛速發(fā)展的當(dāng)下,AI模型的應(yīng)用正從云端向端側(cè)加速
    發(fā)表于 03-27 11:26 ?156次閱讀
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端側(cè)部署正當(dāng)時(shí):移遠(yuǎn)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解決方案,激活場(chǎng)景智能新范式

    AI模型端側(cè)部署正當(dāng)時(shí):移遠(yuǎn)端側(cè)AI模型解決方案,激活場(chǎng)景智能新范式

    AI技術(shù)飛速發(fā)展的當(dāng)下,AI模型的應(yīng)用正從云端向端側(cè)加速
    的頭像 發(fā)表于 03-26 19:05 ?299次閱讀
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>端側(cè)部署正當(dāng)時(shí):移遠(yuǎn)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解決方案,激活場(chǎng)景智能新范式

    高通推動(dòng)終端側(cè)AI釋放全新價(jià)值

    通過(guò)蒸餾技術(shù)將百億參數(shù)模型壓縮至端側(cè)設(shè)備可運(yùn)行的創(chuàng)新,讓AI推理成本大幅下降,為終端
    的頭像 發(fā)表于 03-21 09:28 ?256次閱讀
    高通推動(dòng)<b class='flag-5'>終端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>釋放全新價(jià)值

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18

    DeepSeek大模型受行業(yè)熱捧,加速AI應(yīng)用迭代

    趨勢(shì)反映出DeepSeek大模型AI領(lǐng)域的強(qiáng)大影響力。通過(guò)接入DeepSeek,這些機(jī)構(gòu)能夠獲取更先進(jìn)的AI技術(shù)支持,從而提升其產(chǎn)品的智能
    的頭像 發(fā)表于 02-14 14:14 ?453次閱讀

    移遠(yuǎn)通信邊緣計(jì)算模組成功運(yùn)行DeepSeek模型,以領(lǐng)先的工程能力加速側(cè)AI落地

    。 ? 目前,該模型正在多款智能終端上進(jìn)行深入測(cè)試與優(yōu)化。移遠(yuǎn)通信將憑借其卓越的工程化能力,加速側(cè)AI
    發(fā)表于 02-13 11:32 ?164次閱讀
    移遠(yuǎn)通信邊緣計(jì)算模組成功運(yùn)行DeepSeek<b class='flag-5'>模型</b>,以領(lǐng)先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>落地

    移遠(yuǎn)通信邊緣計(jì)算模組成功運(yùn)行DeepSeek模型,以領(lǐng)先的工程能力加速側(cè)AI落地

    。目前,該模型正在多款智能終端上進(jìn)行深入測(cè)試與優(yōu)化。移遠(yuǎn)通信將憑借其卓越的工程化能力,加速側(cè)AI技術(shù)
    的頭像 發(fā)表于 02-12 19:03 ?328次閱讀
    移遠(yuǎn)通信邊緣計(jì)算模組成功運(yùn)行DeepSeek<b class='flag-5'>模型</b>,以領(lǐng)先的工程能力<b class='flag-5'>加速</b>端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>落地

    智譜推出四個(gè)全新端側(cè)模型 攜英特爾按下AI普及加速

    隨著AI的發(fā)展,端側(cè)AI模型越來(lái)越受到廣大客戶及廠商的關(guān)注,業(yè)界領(lǐng)先的大模型公司智譜于近日推出了四個(gè)全新的端
    的頭像 發(fā)表于 12-02 17:13 ?448次閱讀
    智譜推出四個(gè)全新端<b class='flag-5'>側(cè)</b><b class='flag-5'>模型</b> 攜英特爾按下<b class='flag-5'>AI</b>普及<b class='flag-5'>加速</b>鍵

    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動(dòng)端側(cè)AI規(guī)模化拓展

    將成為和系統(tǒng)同樣重要的存在,如果說(shuō)電路是連接身體的“血管”,那么AI就將成為終端的智慧“大腦”。加速演進(jìn)大模型加速走向端
    的頭像 發(fā)表于 11-26 01:00 ?452次閱讀
    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動(dòng)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>規(guī)?;卣? />    </a>
</div>                            <div   id=

    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動(dòng)端側(cè)AI規(guī)模化拓展

    將成為和系統(tǒng)同樣重要的存在,如果說(shuō)電路是連接身體的“血管”,那么AI就將成為終端的智慧“大腦”。 ?加速演進(jìn),大模型加速走向端
    的頭像 發(fā)表于 11-25 16:45 ?616次閱讀
    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動(dòng)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>規(guī)?;卣? />    </a>
</div>                            <div   id=

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大
    的頭像 發(fā)表于 07-24 11:38 ?1500次閱讀

    AI模型與小模型的優(yōu)缺點(diǎn)

    人工智能(AI)的廣闊領(lǐng)域中,模型作為算法與數(shù)據(jù)之間的橋梁,扮演著至關(guān)重要的角色。根據(jù)模型的大小和復(fù)雜度,我們可以將其大致分為AI
    的頭像 發(fā)表于 07-10 10:39 ?6236次閱讀

    云知聲邊緣側(cè)模型技術(shù)探索和應(yīng)用

    解決的課題。 2024高工智能汽車開(kāi)發(fā)者大會(huì)暨艙駕智能與跨域論壇上,云知聲智慧座艙解決方案中心總經(jīng)理鮑晴峰以《邊緣側(cè)模型帶來(lái)智能座艙交互新體驗(yàn)》為題,分享了云知聲邊緣側(cè)
    的頭像 發(fā)表于 06-29 15:30 ?1084次閱讀