一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊優(yōu)圖/浙大/北大提出:重新思考高效神經(jīng)模型的移動(dòng)模塊

CVer ? 來源:CVHu ? 2023-01-08 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

本文重新思考了 MobileNetv2 中高效的倒殘差模塊 Inverted Residual Block 和 ViT 中的有效 Transformer 的本質(zhì)統(tǒng)一,歸納抽象了 MetaMobile Block 的一般概念。受這種現(xiàn)象的啟發(fā),作者設(shè)計(jì)了一種面向移動(dòng)端應(yīng)用的簡單而高效的現(xiàn)代反向殘差移動(dòng)模塊 (InvertedResidualMobileBlock,iRMB),它吸收了類似 CNN 的效率來模擬短距離依賴和類似 Transformer 的動(dòng)態(tài)建模能力來學(xué)習(xí)長距離交互。所提出的高效模型 (EfficientMOdel,EMO) 在 ImageNet-1K、COCO2017 和 ADE20K 基準(zhǔn)上獲取了優(yōu)異的綜合性能,超過了同等算力量級(jí)下基于 CNN/Transformer 的 SOTA 模型,同時(shí)很好地權(quán)衡模型的準(zhǔn)確性和效率。

動(dòng)機(jī)

近年來,隨著對(duì)存儲(chǔ)和計(jì)算資源受限的移動(dòng)應(yīng)用程序需求的增加,涌現(xiàn)了非常多參數(shù)少、FLOPs 低的輕量級(jí)模型,例如Inceptionv3時(shí)期便提出了使用非對(duì)稱卷積代替標(biāo)準(zhǔn)卷積。后來MobileNet提出了深度可分離卷積 depth-wise separable convolution 以顯著減少計(jì)算量和參數(shù),一度成為了輕量化網(wǎng)絡(luò)的經(jīng)典之作。在此基礎(chǔ)上,MobileNetv2 提出了一種基于 Depth-Wise Convolution (DW-Conv) 的高效倒置殘差塊(IRB),更是成為標(biāo)準(zhǔn)的高效模塊代表作之一。然而,受限于靜態(tài) CNN 的歸納偏差影響,純 CNN 模型的準(zhǔn)確性仍然保持較低水平,以致于后續(xù)的輕量化之路并沒有涌現(xiàn)出真正意義上的突破性工作。

47186fcc-8ea5-11ed-bfe3-dac502259ad0.png

Swin

472e2376-8ea5-11ed-bfe3-dac502259ad0.png

PVT

47367a44-8ea5-11ed-bfe3-dac502259ad0.png

Eatformer

4742876c-8ea5-11ed-bfe3-dac502259ad0.png

EAT

隨著 Transformer 在 CV 領(lǐng)域的崛起,一時(shí)間涌現(xiàn)了許多性能性能超群的網(wǎng)絡(luò),如 Swin transformer、PVT、Eatformer、EAT等。得益于其動(dòng)態(tài)建模和不受歸納偏置的影響,這些方法都取得了相對(duì) CNN 的顯著改進(jìn)。然而,受多頭自注意(MHSA)參數(shù)和計(jì)算量的二次方限制,基于 Transformer 的模型往往具有大量資源消耗,因此也一直被吐槽落地很雞肋。

針對(duì) Transformer 的這個(gè)弊端,當(dāng)然也提出了一些解決方案:

設(shè)計(jì)具有線性復(fù)雜性的變體,如FAVOR+和Reformer等;

降低查詢/值特征的空間分辨率,如Next-vit、PVT、Cvt等;

重新排列通道比率來降低 MHSA 的復(fù)雜性,如Delight;

不過這種小修小改還是難成氣候,以致于后續(xù)也出現(xiàn)了許多結(jié)合輕量級(jí) CNN 設(shè)計(jì)高效的混合模型,并在準(zhǔn)確性、參數(shù)和 FLOPs 方面獲得比基于 CNN 的模型更好的性能,例如Mobilevit、MobileViTv2和Mobilevitv3等。然而,這些方法通常也會(huì)引入復(fù)雜的結(jié)構(gòu),或者更甚者直接采用多個(gè)混合的模塊如Edgenext和Edgevits,這其實(shí)是不利于優(yōu)化的。

總而言之,目前沒有任何基于 Transformer 或混合的高效塊像基于 CNN 的 IRB 那樣流行。因此,受此啟發(fā),作者重新考慮了 MobileNetv2 中的 Inverted Residual Block 和 Transformer 中的 MHSA/FFN 模塊,歸納抽象出一個(gè)通用的 Meta Mobile Block,它采用參數(shù)擴(kuò)展比 λ 和高效算子 F 來實(shí)例化不同的模塊,即 IRB、MHSA 和前饋網(wǎng)絡(luò) (FFN)。

基于此,本文提出了一種簡單高效的模塊——反向殘差移動(dòng)塊(iRMB),通過堆疊不同層級(jí)的 iRMB,進(jìn)而設(shè)計(jì)了一個(gè)面向移動(dòng)端的輕量化網(wǎng)絡(luò)模型——EMO,它能夠以相對(duì)較低的參數(shù)和 FLOPs 超越了基于 CNN/Transformer 的 SOTA 模型,如下圖所示:

474f64c8-8ea5-11ed-bfe3-dac502259ad0.png

方法

4756bdea-8ea5-11ed-bfe3-dac502259ad0.png

EMO

上圖是整體框架圖,左邊是 iRMB 模塊的示例圖。下面讓我們進(jìn)一步拆解下這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)圖。

Meta Mobile Block

475d169a-8ea5-11ed-bfe3-dac502259ad0.png

Meta Mobile Block

如上所述,通過對(duì) MobileNetv2 中的 Inverted Residual Block 以及 Transformer 中的核心 MHSA 和 FFN 模塊進(jìn)行抽象,作者提出了一種統(tǒng)一的 Meta Mobile (M2) Block 對(duì)上述結(jié)構(gòu)進(jìn)行統(tǒng)一的表示,通過采用參數(shù)擴(kuò)展率 λ 和高效算子 F 來實(shí)例化不同的模塊。

Inverted Residual Mobile Block

基于歸納的 M2 塊,本文設(shè)計(jì)了一個(gè)反向殘差移動(dòng)塊 (iRMB),它吸收了 CNN 架構(gòu)的效率來建模局部特征和 Transformer 架構(gòu)動(dòng)態(tài)建模的能力來學(xué)習(xí)長距離交互。

具體實(shí)現(xiàn)中,iRMB 中的 F 被建模為級(jí)聯(lián)的 MHSA 和卷積運(yùn)算,公式可以抽象為 。這里需要考慮的問題主要有兩個(gè):

通常大于中間維度將是輸入維度的倍數(shù),導(dǎo)致參數(shù)和計(jì)算的二次增加。

MHSA 的 FLOPs 與總圖像像素的二次方成正比。

具體的參數(shù)比對(duì)大家可以簡單看下這個(gè)表格:

4769234a-8ea5-11ed-bfe3-dac502259ad0.png

因此,作者很自然的考慮結(jié)合 W-MHSA 和 DW-Conv 并結(jié)合殘差機(jī)制設(shè)計(jì)了一種新的模塊。此外,通過這種級(jí)聯(lián)方式可以提高感受野的擴(kuò)展率,同時(shí)有效的將模型的 MPL 降低到 。

為了評(píng)估 iRMB 性能,作者將 λ 設(shè)置為 4 并替換 DeiT 和 PVT 中標(biāo)準(zhǔn)的 Transformer 結(jié)構(gòu)。如下述表格所述,我們可以發(fā)現(xiàn) iRMB 可以在相同的訓(xùn)練設(shè)置下以更少的參數(shù)和計(jì)算提高性能。

4771173a-8ea5-11ed-bfe3-dac502259ad0.png

EMO

為了更好的衡量移動(dòng)端輕量化模型的性能,作者定義了以下4個(gè)標(biāo)準(zhǔn):

可用性。即不使用復(fù)雜運(yùn)算符的簡單實(shí)現(xiàn),易于針對(duì)應(yīng)用程序進(jìn)行優(yōu)化。

簡約性。即使用盡可能少的核心模塊以降低模型復(fù)雜度。

有效性。即良好的分類和密集預(yù)測(cè)性能。

高效性。即更少的參數(shù)和計(jì)算精度權(quán)衡。

下面的表格總結(jié)了本文方法與其它幾個(gè)主流的輕量化模型區(qū)別:

477be17e-8ea5-11ed-bfe3-dac502259ad0.png

可以觀察到以下幾點(diǎn)現(xiàn)象:

基于 CNN 的 MobileNet 系列的性能現(xiàn)在看起來略低,而且其參數(shù)略高于同行;

近期剛提出的 MobileViT 系列雖然取得了更優(yōu)異的性能,但它們的 FLOPs 較高,效率方面欠佳;

EdgeNeXt 和 EdgeViT 的主要問題是設(shè)計(jì)不夠優(yōu)雅,模塊較為復(fù)雜;

基于上述標(biāo)準(zhǔn),作者設(shè)計(jì)了一個(gè)由多個(gè) iRMB 模塊堆疊而成的類似于 ResNet 的高效模型——EMO,主要體現(xiàn)在以下幾個(gè)優(yōu)勢(shì):

1)對(duì)于整體框架,EMO 僅由 iRMB 組成,沒有多樣化的模塊,這在設(shè)計(jì)思想上可稱得上大道至簡;

2)對(duì)于特定模塊,iRMB 僅由標(biāo)準(zhǔn)卷積和多頭自注意力組成,沒有其他復(fù)雜的運(yùn)算符。此外,受益于 DW-Conv,iRMB 還可以通過步長適應(yīng)下采樣操作,并且不需要任何位置嵌入來向 MHSA 引入位置偏差;

3)對(duì)于網(wǎng)絡(luò)的變體設(shè)置,作者采用逐漸增加的擴(kuò)展率和通道數(shù),詳細(xì)配置如下表所示。

47866ec8-8ea5-11ed-bfe3-dac502259ad0.png

由于 MHSA 更適合為更深層的語義特征建模,因此 EMO 僅在第3和第4個(gè)stage采用它。為了進(jìn)一步提高 EMO 的穩(wěn)定性和效率,作者還在第1和第2個(gè)stage引入 BN 和 SiLU 的組合,而在第3和第4個(gè)stage替換成 LN 和 GeLU 的組合,這也是大部分 CNN 和 Transformer 模型的優(yōu)先配置。

實(shí)驗(yàn)

參數(shù)比對(duì)

先來看下 EMO 和其他輕量化網(wǎng)絡(luò)的相關(guān)超參比對(duì):

478e2e24-8ea5-11ed-bfe3-dac502259ad0.png

可以看到,EMO 并沒有使用大量的強(qiáng) DataAug 和 Tricks,這也充分體現(xiàn)了其模塊設(shè)計(jì)的有效性。

性能指標(biāo)

47969884-8ea5-11ed-bfe3-dac502259ad0.png

圖像分類

479eb97e-8ea5-11ed-bfe3-dac502259ad0.png

目標(biāo)檢測(cè)

47a73d7e-8ea5-11ed-bfe3-dac502259ad0.png

語義分割

整體來看,EMO 在圖像分類、目標(biāo)檢測(cè)和語義分割 CV 三大基礎(chǔ)任務(wù)都表現(xiàn)強(qiáng)勁,可以以較少的計(jì)算量和參數(shù)量取得更加有競(jìng)爭力的結(jié)果。

可視化效果

47b145bc-8ea5-11ed-bfe3-dac502259ad0.png

Qualitative comparisons with MobileNetv2 on two main downstream tasks

從上面的可視化結(jié)果可以明顯的觀察到,本文提出的方法在分割的細(xì)節(jié)上表現(xiàn)更優(yōu)異。

47c90698-8ea5-11ed-bfe3-dac502259ad0.png

Attention Visualizations by Grad-CAM

為了更好地說明本文方法的有效性,作者進(jìn)一步采用 Grad-CAM 方法突出顯示不同模型的相關(guān)區(qū)域。如上圖所示,基于 CNN 的 ResNet 傾向于關(guān)注特定對(duì)象,而基于 Transformer 的 MPViT 更關(guān)注全局特征。相比之下,EMO 可以更準(zhǔn)確地關(guān)注顯著物體,同時(shí)保持感知全局區(qū)域的能力。這在一定程度上也解釋了為什么 EMO 在各類任務(wù)中能獲得更好的結(jié)果。

47da0178-8ea5-11ed-bfe3-dac502259ad0.png

Feature Similarity Visualizations

上面我們提到過,通過級(jí)聯(lián) Convolution 和 MHSA 操作可以有效提高感受野的擴(kuò)展速度。為了驗(yàn)證此設(shè)計(jì)的有效性,這里將第3個(gè)Stage中具有不同組成的對(duì)角線像素的相似性進(jìn)行可視化,即可視化 DW-Conv 和 EW-MHSA 以及同時(shí)結(jié)合兩個(gè)模塊。

47f0ff54-8ea5-11ed-bfe3-dac502259ad0.png

可以看出,無論從定量或定性的實(shí)驗(yàn)結(jié)果看來,當(dāng)僅使用 DW-Conv 時(shí),特征往往具有短距離相關(guān)性,而 EW-MHSA 帶來更多的長距離相關(guān)性。相比之下,當(dāng)同時(shí)采用這兩者時(shí),網(wǎng)絡(luò)具有更大感受野的模塊,即更好的建模遠(yuǎn)距離的上下文信息。

47fad196-8ea5-11ed-bfe3-dac502259ad0.png

Ablation studies on ImageNet-1K with EMO-5M

最后展示的是本文的消融實(shí)驗(yàn),整體來說實(shí)驗(yàn)部分還是挺充實(shí)的,感興趣的小伙伴去看下原文,時(shí)間有限,今天我們就分析到這里。

結(jié)論

本文探討了面向移動(dòng)端的高效架構(gòu)設(shè)計(jì),通過重新思考 MobileNetv2 中高效的 Inverted Residual Block 和 ViT 中的有效 Transformer 的本質(zhì)統(tǒng)一,作者引入了一個(gè)稱為 Meta Mobile Block 的通用概念,進(jìn)而推導(dǎo)出一個(gè)簡單而高效的現(xiàn)代 iRMB 模塊。具體地,該模塊包含兩個(gè)核心組件,即 DW-Conv 和 EW-MHSA,這兩個(gè)組件可以充分利用 CNN 的效率來建模短距離依賴同時(shí)結(jié)合 Transformer 的動(dòng)態(tài)建模能力來學(xué)習(xí)長距離交互。最后,通過以不同的規(guī)模堆疊 iRMB 模塊搭建了一個(gè)高效的類 ResNet 架構(gòu)——EMO,最終在 ImageNet-1K、COCO2017 和 ADE20K 三個(gè)基準(zhǔn)測(cè)試的大量實(shí)驗(yàn)證明了 EMO 優(yōu)于其它基于 CNN 或 Transformer 的 SoTA 方法。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41302
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50452
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22749

原文標(biāo)題:騰訊優(yōu)圖/浙大/北大提出:重新思考高效神經(jīng)模型的移動(dòng)模塊

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    騰訊元寶升級(jí):深度思考模型騰訊混元T1”全量上線

    近日,騰訊元寶迎來了又一次重要更新,深度思考模型騰訊混元T1”已全面上線。此次更新不僅進(jìn)一步豐富了騰訊元寶的功能,也為用戶提供了更加強(qiáng)大的
    的頭像 發(fā)表于 02-20 09:12 ?752次閱讀

    騰訊AI助手“騰訊元寶”重大更新:支持深度思考功能

    近日,騰訊AI助手“騰訊元寶”再次迎來了重大更新,為用戶帶來了更加智能、高效的使用體驗(yàn)。此次更新中,騰訊元寶新增了深度思考功能,這一功能由混
    的頭像 發(fā)表于 02-18 09:21 ?1184次閱讀

    騰訊元寶AI產(chǎn)品更新,正式接入DeepSeek R1模型

    元、DeepSeek大模型精心開發(fā)的AI產(chǎn)品,具備強(qiáng)大的跨知識(shí)領(lǐng)域和自然語言理解能力。通過此次更新,騰訊元寶將能夠更深入地理解用戶的提問,進(jìn)行深度思考和邏輯推理,從而給出更為詳細(xì)和準(zhǔn)確的回答。 值得一提的是,
    的頭像 發(fā)表于 02-14 09:29 ?1004次閱讀

    DeepSeek,你是懂優(yōu)可測(cè)的!

    深度思考的DeepSeek,對(duì)優(yōu)可測(cè)做出了評(píng)價(jià)……
    的頭像 發(fā)表于 02-11 17:32 ?464次閱讀
    DeepSeek,你是懂<b class='flag-5'>優(yōu)</b>可測(cè)的!

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    近日,前微軟亞洲研究院視覺計(jì)算組的首席研究員胡瀚宣布加入騰訊,這一變動(dòng)引起了業(yè)界的廣泛關(guān)注。據(jù)悉,胡瀚將接替已離職的騰訊混元大模型技術(shù)負(fù)責(zé)人之一的劉威,全面負(fù)責(zé)騰訊多模態(tài)大
    的頭像 發(fā)表于 01-09 15:49 ?740次閱讀

    騰訊混元大模型開源成績斐然,GitHub Star數(shù)近1.4萬

    內(nèi)外部技術(shù)的開源共享,旨在促進(jìn)技術(shù)創(chuàng)新與生態(tài)發(fā)展。 據(jù)悉,騰訊混元大模型已經(jīng)在多個(gè)模態(tài)上實(shí)現(xiàn)了開源,包括語言大模型、文生模型、文生3D大
    的頭像 發(fā)表于 12-26 10:30 ?743次閱讀

    騰訊混元文生登頂智源FlagEval評(píng)測(cè)榜首

    近日,北京智源人工智能研究院(BAAI)發(fā)布了最新的FlagEval大模型評(píng)測(cè)排行榜,其中多模態(tài)模型評(píng)測(cè)榜單的文生模型引起了廣泛關(guān)注。結(jié)果顯示,
    的頭像 發(fā)表于 12-25 10:06 ?860次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    采用神經(jīng)網(wǎng)絡(luò)搜索(NAS)技術(shù),最終形成了 ESNet(Enhanced ShuffleNet)作為骨干網(wǎng)絡(luò),以在移動(dòng)端保證高效性能。 采樣策略和標(biāo)簽分配: 使用 SimOTA 采樣策略,動(dòng)態(tài)變換標(biāo)簽
    發(fā)表于 12-19 14:33

    浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題

    。當(dāng)前的采樣器不能兼顧反演的準(zhǔn)確性和采樣的質(zhì)量。 為徹底解決這一問題,微信視覺團(tuán)隊(duì)與浙江大學(xué)和清華大學(xué)聯(lián)手提出了基于雙向顯式線性多步法的擴(kuò)散模型精確反演采樣器(BELM)這一通用算法,并通過截?cái)嗾`差分析確定了最優(yōu)的 BELM 采樣
    的頭像 發(fā)表于 11-27 09:21 ?705次閱讀
    <b class='flag-5'>浙大</b>、微信<b class='flag-5'>提出</b>精確反演采樣器新范式,徹底解決擴(kuò)散<b class='flag-5'>模型</b>反演問題

    高效模型的推理綜述

    模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有
    的頭像 發(fā)表于 11-15 11:45 ?1477次閱讀
    <b class='flag-5'>高效</b>大<b class='flag-5'>模型</b>的推理綜述

    騰訊混元Large模型及云TI平臺(tái)全新上線

    近日,騰訊混元團(tuán)隊(duì)最新推出的MoE模型“混元Large”已正式開源上線。這一里程碑式的進(jìn)展標(biāo)志著騰訊在大模型技術(shù)領(lǐng)域取得了新的突破。 與此同時(shí),騰訊
    的頭像 發(fā)表于 11-08 11:03 ?883次閱讀

    智能調(diào)優(yōu),使步進(jìn)電機(jī)安靜而高效地運(yùn)行

    電子發(fā)燒友網(wǎng)站提供《智能調(diào)優(yōu),使步進(jìn)電機(jī)安靜而高效地運(yùn)行.pdf》資料免費(fèi)下載
    發(fā)表于 09-24 11:08 ?1次下載
    智能調(diào)<b class='flag-5'>優(yōu)</b>,使步進(jìn)電機(jī)安靜而<b class='flag-5'>高效</b>地運(yùn)行

    優(yōu)易通無線DTU騰訊云通信實(shí)例

    優(yōu)易通無線DTU騰訊云通信實(shí)例(基于MQTT)優(yōu)——產(chǎn)品優(yōu),服務(wù)優(yōu),價(jià)格優(yōu)易——安裝易,使用易,
    的頭像 發(fā)表于 08-30 11:45 ?705次閱讀
    <b class='flag-5'>優(yōu)</b>易通無線DTU<b class='flag-5'>騰訊</b>云通信實(shí)例

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    的內(nèi)容,閱讀雖慢,但在這一學(xué)習(xí)過程中也掌握了許多新知識(shí),為后續(xù)章節(jié)的閱讀打下基礎(chǔ),這是一個(gè)快樂的學(xué)習(xí)過程。 基礎(chǔ)篇從人工智能的起源講起,提出了機(jī)器能否思考的疑問,引入了圖靈機(jī)這一神奇的機(jī)器。 1.2
    發(fā)表于 07-25 14:33

    UNet模型屬于哪種神經(jīng)網(wǎng)絡(luò)

    U-Net模型屬于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的一種特殊形式 。它最初由德國弗萊堡大學(xué)計(jì)算機(jī)科學(xué)系的研究人員在2015年提出,專為生物醫(yī)學(xué)圖像
    的頭像 發(fā)表于 07-24 10:59 ?5578次閱讀