一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種顯著降低Transformer計算量的輕量化方法

CVer ? 來源:CVHub ? 2023-01-10 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

這項工作旨在提高視覺Transformer(ViT)的效率。雖然ViT在每一層中使用計算代價高昂的自注意力操作,但我們發(fā)現(xiàn)這些操作在層之間高度相關(guān)——這會導致產(chǎn)生很多不必要計算的冗余信息?;谶@一觀察,我們提出了SKIPAT方法,該方法利用前面層的自注意力計算來近似在一個或多個后續(xù)層的注意力。為了確保在層之間重用自注意力塊而不降低性能,我們引入了一個簡單的參數(shù)函數(shù),該函數(shù)在計算速度更快的情況下能表現(xiàn)出優(yōu)于基準Transformer的性能。我們在圖像分類和ImageNet-1K上的自我監(jiān)督學習、ADE20K上的語義分割、SIDD上的圖像去噪以及DAVIS上的視頻去噪中展示了我們方法的有效性。我們在所有這些任務(wù)中都在相同或更高的準確度水平下實現(xiàn)了提高模型吞吐量。

背景

28758fee-90a5-11ed-bfe3-dac502259ad0.png

Performance of SKIPAT across 5 different tasks.

Transformer架構(gòu)已經(jīng)成為一個重要且影響深遠的模型系列,因為它簡單、可擴展,并且應(yīng)用廣泛。雖然最初來自自然語言處理(NLP)領(lǐng)域,但隨著視覺transformer(ViT)的出現(xiàn),這已成為計算機視覺領(lǐng)域的標準架構(gòu),在從表示學習、語義分割、目標檢測到視頻理解等任務(wù)中獲得了各種最先進(SoTA)性能。

然而,transformer的原始公式在輸入令牌(token)數(shù)量方面具有二次計算復雜度。鑒于這個數(shù)字通常從圖像分類的14^2到圖像去噪的128^2 = 16K不等,內(nèi)存和計算的這一限制嚴重限制了它的適用性。目前有三組方法來解決這個問題:第一組利用輸入令牌之間的冗余,并通過高效的抽樣簡單地減少計算,例如丟棄或合并冗余令牌。然而,這意味著ViT的最終輸出不是空間連續(xù)的,因此不能超出圖像級別(image-level)的應(yīng)用,如語義分割或目標檢測。第二組方法旨在以低成本計算近似注意力,但通常以性能降低為代價。最后,另一組工作旨在將卷積架構(gòu)與transformer合并,產(chǎn)生混合架構(gòu)。雖然這些方法提高了速度,但它們并沒有解決二次復雜度的基本問題,并且通常會引入過多的設(shè)計選擇(基本上是transformer和CNN的聯(lián)合)。

在這項工作中,我們提出了一種新穎的、迄今為止未經(jīng)探索的方法:利用計算速度快且簡單的參數(shù)函數(shù)來逼近transformer的計算代價高的塊。為了得出這個解決方案,我們首先詳細地分析了ViT的關(guān)鍵多頭自注意力(MSA)塊。通過這項分析,我們發(fā)現(xiàn)CLS令牌對空間塊的注意力在transformer的塊之間具有非常高的相關(guān)性,從而導致許多不必要的計算。這啟發(fā)了我們的方法利用模型早期的注意力,并將其簡單地重用于更深的塊——基本上是“跳過”后續(xù)的SA計算,而不是在每一層重新計算它們。

基于此,我們進一步探索是否可以通過重用前面層的表示來跳過整一層的MSA塊。受ResneXt的深度卷積的啟發(fā),我們發(fā)現(xiàn)一個簡單的參數(shù)函數(shù)可以優(yōu)于基準模型性能——在吞吐量和FLOPs的計算速度方面更快。我們的方法是通用的,可以應(yīng)用于任何上下文的ViT:上圖顯示,我們的跳過注意力(SKIPAT)的新型參數(shù)函數(shù)在各種任務(wù)、數(shù)據(jù)集和模型大小上都能實現(xiàn)與基準transformer相比更優(yōu)的精度與效率。

綜上所述,我們的貢獻如下所示:

我們提出了一種新型的插件模塊,可以放在任何ViT架構(gòu)中,以減少昂貴的O(n^2)自注意力計算復雜度。

我們在ImageNet、Pascal-VOC2012、SIDD、DAVIS和ADE20K數(shù)據(jù)集上實現(xiàn)了在吞吐量指標上的最SOTA性能,并獲得了同等或更高的準確度。

我們的方法在沒有下游準確度損失的情況下,自監(jiān)督預訓練時間能減少26%,并且在移動設(shè)備上展示了優(yōu)越的延遲,這都證明了我們方法的普適性。

我們分析了性能提升的來源,并對我們的方法進行了大量的實驗分析,為提供可用于權(quán)衡準確度和吞吐量的模型系列提供了支持。

方法

28816972-90a5-11ed-bfe3-dac502259ad0.png

SKIPAT framework.

引言

Vision Transformer

設(shè)x ∈ R^(h×w×c) 為一張輸入圖像,其中h × w是空間分辨率,c是通道數(shù)。首先將圖像分成n = hw/p^2個不重疊的塊,其中p × p是塊大小。使用線性層將每個塊投影到一個embedding zi ∈ R^d 中,從而得到分塊的圖像:

288c80b4-90a5-11ed-bfe3-dac502259ad0.png

Transformer Layer

Transformer的每一層由多頭自注意力(MSA)塊和多層感知機(MLP)塊組成。在MSA塊中,Zl?1 ∈ R^(n×d),首先被投影到三個可學習embeddings {Q, K, V } ∈ R^(n×d)中。注意力矩陣A的計算公式如下:

289c140c-90a5-11ed-bfe3-dac502259ad0.png

MSA中的“多頭”是指考慮h個注意力頭,其中每個頭是一個n × d/h 矩陣的序列。使用線性層將注意頭重新投影回n × d,并與值矩陣結(jié)合,公式如下所示:

28a77216-90a5-11ed-bfe3-dac502259ad0.png

然后,將MSA塊的輸出表示輸入到MLP塊,該塊包括兩個由GeLU激活分隔的線性層。在給定層l處,表示通過transformer塊的計算流程如下:

28b586f8-90a5-11ed-bfe3-dac502259ad0.png

MSA和MLP塊都具有帶層正則化(LN)的殘差連接。雖然transformer的每一層中的MSA塊均是學習互不依賴的表示,但在下一小節(jié)中,我們將展示這些跨層間存在高度相關(guān)性。

啟發(fā): 層相關(guān)性分析

Attention-map correlation

28c1334a-90a5-11ed-bfe3-dac502259ad0.png

Attention correlation.

ViT中的MSA塊將每個塊與每個其他塊的相似性編碼為n × n注意力矩陣。這個運算符具有O(n^2)復雜度(公式2)的計算成本。隨著ViT的擴展,即隨著n的增加,計算復雜度呈二次增長,使得這個操作成為性能瓶頸。最近的NLP工作表明,SoTA語言模型中相鄰層之間的自注意力具有非常高的相關(guān)性。這引發(fā)了一個問題 -在視覺transformer是否真的需要每一層都計算自注意力?

28d0b90a-90a5-11ed-bfe3-dac502259ad0.png

CKA analysis of A^[CLS] and Z^MSA across different layers of pretrained ViT-T/16.

為了回答這個問題,我們分析了ViT不同層之間自注意力圖的相關(guān)性。如本節(jié)圖1所示,來自類別token的自注意力圖A^[CLS]在中間層特別具有高度相關(guān)性。A^[CLS]l?1和A^[CLS]l 之間的余弦相似度可以高達0.97。其他token embeddings 也表現(xiàn)出類似的行為。我們通過計算每對i,j∈L的A^[CLS]i和A^[CLS]j之間的Centered Kernel Alignment(CKA)來定量分析ImageNet-1K驗證集的所有樣本之間的相關(guān)性。CKA度量網(wǎng)絡(luò)中間層獲得的表示之間的相似性,其中CKA的值越高則表示它們之間的相關(guān)性越高。從本節(jié)圖2中,我們發(fā)現(xiàn)ViT-T在A^[CLS]之間具有高度性,特別是第三層到第十層。

Feature correlation

在ViT中,高相關(guān)性不僅局限于A^[CLS],MSA塊的表示Z^MSA也在整個模型中顯示出高度相關(guān)性。為了分析這些表示之間的相似性,我們計算每對i,j∈L的Z^MSAi和Z^MSAj之間的CKA。我們從從本節(jié)圖2中觀察到,Z^MSA在模型的相鄰層之間也具有很高的相似性,特別是在較早的層,即從第2層到第8層。

利用 Skipping Attention 提升效率

基于我們對transformer中MSA不同塊之間具有高度相似性的觀察,我們建議利用注意力矩陣和MSA塊的表示之間的相關(guān)性來提高視覺transformer的效率。與在每層單獨計算MSA操作(公式3)相反,我們探索了一種利用不同層之間依賴關(guān)系的簡單且有效的策略。

我們建議通過重用其相鄰層的特征表示來跳過transformer的一個或多個層中的MSA計算。我們將此操作稱為Skip Attention(SKIPAT)。由于跳過整個MSA塊的計算和內(nèi)存效益大于僅跳過自注意力操作 O(n^2d+nd^2) vs. O(n^2d),因此在本文中我們主要關(guān)注前者。我們引入了一個參數(shù)函數(shù),而不是直接重用特征,換句話說,就是將來源MSA塊的特征復制到一個或多個相鄰MSA塊。參數(shù)函數(shù)確保直接重用特征不會影響這些MSA塊中的平移不變性和等價性,并充當強大的正則化器以提高模型泛化性。

SKIPAT parametric function

設(shè) Φ:R^(n×d) → R^(n×d)表示將l?1層的MSA塊映射到l層的參數(shù)函數(shù),作為Z?^MSA l:=Φ(Z^MSA l?1)。在這里,Z?^MSA l是Z^MSA l的近似值。參數(shù)函數(shù)可以是簡單的單位函數(shù),其中Z^MSA l?1能被直接重用。我們使用Z^MSA l?1作為l處的MLP塊的輸入,而不是在l處計算MSA操作。當使用單位函數(shù)時,由于l處沒有MSA操作,因此在注意力矩陣中的token間關(guān)系不再被編碼,這會影響表示學習。為了減輕這一點,我們引入了SKIPAT參數(shù)函數(shù),用于對token之間的局部關(guān)系進行編碼。SKIPAT參數(shù)函數(shù)由兩個線性層和中間的深度卷積(DwC)組成,計算公式如下所示:

28eefbc2-90a5-11ed-bfe3-dac502259ad0.png

SKIPAT framework

SKIPAT 是一種可以被納入任何 transformer 架構(gòu)的框架,我們通過大量實驗對比結(jié)果充分地證明了這一點。根據(jù)架構(gòu)的不同,可以在 transformer 的一層或多層中跳過 MSA 操作。在 ViT 中,我們觀察到來自 MSA 塊(Z^MSA )的表示在第 2 層到第 7 層之間有很高的相關(guān)性,所以我們在這些層中使用 SKIPAT 參數(shù)函數(shù)。這意味著我們將 Z^MSA2 作為輸入傳遞給 SKIPAT 參數(shù)函數(shù),并在 3-8 層中跳過 MSA 操作。相反,來自 SKIPAT 參數(shù)函數(shù)輸出的特征被用作 MLP 塊的輸入。表示的計算流現(xiàn)在被修改為:

28ff4d92-90a5-11ed-bfe3-dac502259ad0.png

由于 MSA 和 MLP 塊中存在殘留連接,第 3 層到第 8 層的 MLP 塊需要獨立地學習表示,不能從計算圖中刪除。值得注意的是,使用 SKIPAT 后 ViT 的總層數(shù)不變,但 MSA 塊的數(shù)量減少了。

Complexity: MSA vs. SKIPAT

自注意力操作包括三個步驟。首先,將token embeddings 投射到query、key和value embeddings,其次,計算注意力矩陣 A,它是 Q 和 K 的點積,最后,計算輸出表示作為 A 和 V 的點積。這導致了計算復雜度為 O(4nd^2 + n^2d)。由于 d ? n,所以 MSA 塊的復雜度可以降低到 O(n^2d)。

SKIPAT 參數(shù)函數(shù)由兩個線性層和一個深度卷積操作組成,計算復雜度為 O(2nd^2 + r^2nd),其中 r × r 是 DwC 操作的內(nèi)核大小。由于 r^2 ? d,所以 SKIPAT 的整體復雜度可以降低到 O(nd^2)。因此,當 n 隨著 transformer 的擴大而增加時,SKIPAT 的 FLOPs值 比 MSA 塊更少,即 O(nd^2) < O(n^2d)。

實驗

290a2960-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是分割mask的可視化效果:第一行和第二行分別是原始Vit-S模型和Vit-S + SKIPAT模型。顯而易見,Vit-S + SKIPAT模型對圖像中前景和背景的區(qū)分度顯著高于原始Vit-S模型。

298a9d48-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是注意力圖的可視化效果:對比原始Vit-S模型(baseline),Vit-S + SKIPAT模型對目標的定位能力有明顯提升。

29993204-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是特征圖和Z^MSA的相關(guān)性:從中可以清晰地觀察到在大多數(shù)不同層之間Z^MSA僅有較低的相關(guān)性。

圖象分類

29a68e40-90a5-11ed-bfe3-dac502259ad0.png

Image classification on ImageNet-1K.

自監(jiān)督

29b3284e-90a5-11ed-bfe3-dac502259ad0.png

Unsupervised Segmentation and Object Localization on the validation set of Pascal VOC2012.

推理性能

29c8a66a-90a5-11ed-bfe3-dac502259ad0.png

On-device latency (in msec) of vanilla ViT vs. SKIPAT.

語義分割

29d781b2-90a5-11ed-bfe3-dac502259ad0.png

Semantic Segmentation results on ADE20K.

圖像去噪

2a01f370-90a5-11ed-bfe3-dac502259ad0.png

Image denoising on SIDD dataset using PSNR andSSIM as the evaluation metrics in the RGB space.

總結(jié)

我們提出了一種可以在任何 ViT 架構(gòu)中即插即用的模塊 SKIPAT,用于減少昂貴的自注意力計算。SKIPAT 利用 MSA 塊之間的依賴性,并通過重用以前 MSA 塊的注意力表示來繞過注意力計算。此外,我們引入了一個簡單且輕量的參數(shù)函數(shù),它不會影響 MSA 中編碼的歸納偏見。SKIPAT 函數(shù)能夠捕獲跨token之間的關(guān)系,在吞吐量和 FLOPs 指標上優(yōu)于基線模型,同時我們在7 種不同的任務(wù)中充分地表現(xiàn)出SKIPAT的有效性。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    968

    瀏覽量

    55736
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6506
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14144

原文標題:即插即用!Skip-Attention:一種顯著降低Transformer計算量的輕量化方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    大模型推理顯存和計算估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大??; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡(luò)剪枝的顯存估計 神經(jīng)網(wǎng)絡(luò)剪枝是一種減少模型參數(shù)數(shù)量的技術(shù),可以降低顯存需求。通過剪枝,可以
    發(fā)表于 07-03 19:43

    輕量化5G網(wǎng)關(guān)和5gredcap網(wǎng)關(guān)有什么區(qū)別

    輕量化5G網(wǎng)關(guān)與5G RedCap網(wǎng)關(guān)本質(zhì)上是同類技術(shù)的不同表述 ,5G RedCap網(wǎng)關(guān)是輕量化5G網(wǎng)關(guān)的核心實現(xiàn)形式,而輕量化5G網(wǎng)關(guān)是RedCap技術(shù)應(yīng)用的場景化概念。以下從技
    的頭像 發(fā)表于 06-30 09:19 ?194次閱讀

    潤和軟件破局昇騰310B輕量化難題

    在邊緣計算迅猛發(fā)展的浪潮中,昇騰310B作為關(guān)鍵AI算力芯片,在嵌入式場景的應(yīng)用價值持續(xù)凸顯。但受限于僅適配服務(wù)器操作系統(tǒng)的方案,該芯片存在資源輕量化瓶頸,在某些對鏡像大小與啟動時間有嚴格限制的特殊
    的頭像 發(fā)表于 06-25 14:56 ?364次閱讀
    潤和軟件破局昇騰310B<b class='flag-5'>輕量化</b>難題

    基于 HT for Web 的輕量化 3D 數(shù)字孿生數(shù)據(jù)中心解決方案

    ,支持 PC、移動端瀏覽器直接訪問,兼容主流操作系統(tǒng)。 輕量化建模體系 : 支持 CAD、BIM 模型導入,通過幾何簡化、紋理壓縮等算法降低模型復雜度,適配 Web 端渲染性能。 提供參數(shù)化建模工具,可
    的頭像 發(fā)表于 05-30 14:33 ?208次閱讀
    基于 HT for Web 的<b class='flag-5'>輕量化</b> 3D 數(shù)字孿生數(shù)據(jù)中心解決方案

    基于雙向塊浮點量化的大語言模型高效加速器設(shè)計

    本文提出雙向塊浮點(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設(shè)計顯著降低量化誤差,提升非線性計算效率,實現(xiàn)精
    的頭像 發(fā)表于 05-14 13:40 ?1605次閱讀
    基于雙向塊浮點<b class='flag-5'>量化</b>的大語言模型高效加速器設(shè)計

    知行科技將與智駕大陸攜手打造輕量化城區(qū)領(lǐng)航產(chǎn)品

    近期,知行科技與行業(yè)領(lǐng)先的智能駕駛產(chǎn)品供應(yīng)商智駕大陸正式達成合作,首款合作項目將基于地平線征程6系列計算方案研發(fā)輕量化城區(qū)領(lǐng)航智駕產(chǎn)品。該產(chǎn)品已獲得某國內(nèi)頭部主機廠定點,將于2025年實現(xiàn)量產(chǎn)。以此
    的頭像 發(fā)表于 01-06 10:13 ?1023次閱讀

    引領(lǐng)輕量化趨勢| 法法易輕量化充電槍通過2023版標準強檢測試

    法法易輕量化充電槍經(jīng)過嚴格的測試與評估,已正式通過2023新國標測試,并榮獲相應(yīng)測試報告。通過的測試報告中詳細記錄了充電槍的各項性能指標。包括但不限于充電效率、耐久性、防護等級等,均達到了新國標
    的頭像 發(fā)表于 12-24 09:40 ?660次閱讀
    引領(lǐng)<b class='flag-5'>輕量化</b>趨勢| 法法易<b class='flag-5'>輕量化</b>充電槍通過2023版標準強檢測試

    守護公路安全! 中海達推出輕量化監(jiān)測簡易感知方案

    近期,針對汛期橋梁結(jié)構(gòu)和公路邊坡受自然災害影響出現(xiàn)滑坡、坍塌等事故,交通運輸部和應(yīng)急管理部密集發(fā)布相關(guān)政策文件,明確各地需加強橋梁結(jié)構(gòu)和公路邊坡檢測監(jiān)測工作,多地積極響應(yīng)政策號召,提出通過輕量化監(jiān)測
    的頭像 發(fā)表于 11-29 17:48 ?648次閱讀
    守護公路安全! 中海達推出<b class='flag-5'>輕量化</b>監(jiān)測簡易感知方案

    一種信息引導的量化后LLM微調(diào)新算法IR-QLoRA

    進行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會導致量化的LLM嚴重退化,甚至無法從LoRA微調(diào)中受益。 為了解決這問題,來自蘇黎世聯(lián)邦理工學院、北京航空航天大學和字節(jié)跳動的研究
    的頭像 發(fā)表于 11-19 17:16 ?802次閱讀
    <b class='flag-5'>一種</b>信息引導的<b class='flag-5'>量化</b>后LLM微調(diào)新算法IR-QLoRA

    中海達推出輕量化監(jiān)測簡易感知解決方案

    近期,針對汛期橋梁結(jié)構(gòu)和公路邊坡受自然災害影響出現(xiàn)滑坡、坍塌等事故,交通運輸部和應(yīng)急管理部密集發(fā)布相關(guān)政策文件,明確各地需加強橋梁結(jié)構(gòu)和公路邊坡檢測監(jiān)測工作,多地積極響應(yīng)政策號召,提出通過輕量化監(jiān)測簡易感知方案來保障公路安全。順應(yīng)市場需求,中海達推出中小橋和公路邊坡輕量化
    的頭像 發(fā)表于 11-19 11:40 ?979次閱讀

    自動駕駛中直說的BEV+Transformer到底是個啥?

    (Bird’s Eye View)+Transformer”是兩個方向的技術(shù),BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經(jīng)網(wǎng)絡(luò)模型,BEV+
    的頭像 發(fā)表于 11-07 11:19 ?1361次閱讀
    自動駕駛中<b class='flag-5'>一</b>直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    5G輕量化網(wǎng)關(guān)是什么

    輕量化網(wǎng)關(guān)的定義、特點、應(yīng)用場景以及其在物聯(lián)網(wǎng)領(lǐng)域的重大意義。 定義與概述 5G輕量化網(wǎng)關(guān),全稱為Reduced Capability(RedCap)網(wǎng)關(guān),是5G技術(shù)的一種創(chuàng)新應(yīng)用,旨在降低
    的頭像 發(fā)表于 09-04 15:17 ?741次閱讀
    5G<b class='flag-5'>輕量化</b>網(wǎng)關(guān)是什么

    輕量化IP制作與傳輸?shù)淖兏镏?千視Judy專訪

    在剛剛落幕的BIRTV2024北京廣播電影電視展覽會上,千視電子以“輕量化國產(chǎn)IP領(lǐng)導者”為主題,為參展觀眾呈現(xiàn)了場精彩紛呈的技術(shù)展示。展會期間,我們第時間專訪了千視電子全球副總裁左瑞(Judy
    的頭像 發(fā)表于 08-30 12:07 ?923次閱讀
    <b class='flag-5'>輕量化</b>IP制作與傳輸?shù)淖兏镏?千視Judy專訪

    深度神經(jīng)網(wǎng)絡(luò)模型量化的基本方法

    深度神經(jīng)網(wǎng)絡(luò)模型量化是深度學習領(lǐng)域中的一種重要優(yōu)化技術(shù),旨在通過減少模型參數(shù)的精度(即從高精度浮點數(shù)如32位浮點數(shù)FP32降低到低精度整數(shù)如8位整數(shù)INT8或更低)來降低模型的
    的頭像 發(fā)表于 07-15 11:26 ?1317次閱讀

    深度學習模型量化方法

    深度學習模型量化一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理過程,同時盡量保持模型性能。從而達到把模型部署到邊緣或者低算力設(shè)備上,實現(xiàn)降本增效的目標。
    的頭像 發(fā)表于 07-15 11:01 ?1093次閱讀
    深度學習模型<b class='flag-5'>量化</b><b class='flag-5'>方法</b>