一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Vision Mamba:速度與內(nèi)存的雙重突破

CVer ? 來源:機(jī)器之心 ? 2024-01-31 14:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Vision Mamba 不是個(gè)普通模型。

號稱「全面包圍 Transformer」的 Mamba,推出不到兩個(gè)月就有了高性能的視覺版。 來自華中科技大學(xué)、地平線、智源人工智能研究院等機(jī)構(gòu)的研究者提出了 Vision Mamba(Vim)。

效果如何呢?在 ImageNet 分類任務(wù)、COCO 對象檢測任務(wù)和 ADE20k 語義分割任務(wù)上,與 DeiT 等成熟的視覺 Transformers 相比,Vim 實(shí)現(xiàn)了更高的性能,同時(shí)還顯著提高了計(jì)算和內(nèi)存效率。例如,在對分辨率為 1248×1248 的圖像進(jìn)行批量推理提取特征時(shí),Vim 比 DeiT 快 2.8 倍,并節(jié)省 86.8% 的 GPU 內(nèi)存。結(jié)果表明,Vim 能夠克服對高分辨率圖像執(zhí)行 Transformer 式理解時(shí)的計(jì)算和內(nèi)存限制,并且具有成為視覺基礎(chǔ)模型的下一代骨干的巨大潛力。

接下來我們看看論文內(nèi)容。 Mamba 的提出帶動了研究者對狀態(tài)空間模型(state space model,SSM)興趣的增加,不同于 Transformer 中自注意力機(jī)制的計(jì)算量會隨著上下文長度的增加呈平方級增長,由于 SSM 擅長捕捉遠(yuǎn)程依賴關(guān)系,因而開始受到大家追捧。 在此期間,一些基于 SSM 的方法如線性狀態(tài)空間層(LSSL)、結(jié)構(gòu)化狀態(tài)空間序列模型(S4)、對角狀態(tài)空間(DSS)和 S4D 都被研究者提出來,用于處理各種序列數(shù)據(jù),特別是在建模遠(yuǎn)程依賴關(guān)系方面。 Mamba 將時(shí)變參數(shù)納入 SSM 中,并提出了一種硬件感知算法來實(shí)現(xiàn)高效的訓(xùn)練和推理。Mamba 卓越的擴(kuò)展性能表明它在語言建模方面是 Transformer 有前途的替代品。 然而,到目前為止,研究者還尚未在視覺任務(wù)中探索出通用的基于純 SSM 的骨干網(wǎng)絡(luò)。 受 Mamba 在語言建模方面成功的激勵,研究者開始設(shè)想能否將這種成功從語言轉(zhuǎn)移到視覺,即用先進(jìn)的 SSM 方法設(shè)計(jì)通用且高效的視覺主干。

然而,由于 Mamba 特有的架構(gòu),需要解決兩個(gè)挑戰(zhàn),即單向建模和缺乏位置感知。 為了應(yīng)對這些問題,研究者提出了 Vision Mamba (Vim) 塊,它結(jié)合了用于數(shù)據(jù)依賴的全局視覺上下文建模的雙向 SSM 和用于位置感知視覺識別的位置嵌入。 與其他基于 SSM 的視覺任務(wù)模型相比,Vim 是一種基于純 SSM 的方法,并以序列方式對圖像進(jìn)行建模。與基于 Transformer 的 DeiT 相比,Vim 在 ImageNet 分類上取得了優(yōu)越的性能。此外,Vim 在 GPU 內(nèi)存和高分辨率圖像的推理時(shí)間方面更加高效。 方法介紹 Vision Mamba (Vim) 的目標(biāo)是將先進(jìn)的狀態(tài)空間模型 (SSM),即 Mamba 引入到計(jì)算機(jī)視覺。 Vim 的概述如圖 2 所示,標(biāo)準(zhǔn)的 Mamba 是為 1-D 序列設(shè)計(jì)的。為了處理視覺任務(wù),首先需要將二維圖像61da3466-b7ae-11ee-8b88-92fbcf53809c.png轉(zhuǎn)換成展開的 2-D patch?

61de0992-b7ae-11ee-8b88-92fbcf53809c.png

。式中 (H, W) 為輸入圖像的大小,C 為通道數(shù),P 為圖像 patch 的大小。接下來,需要將 x_p 線性投影到大小為 D 的向量上,并添加位置嵌入

61e1e8be-b7ae-11ee-8b88-92fbcf53809c.png

得到如下公式:

61e54b4e-b7ae-11ee-8b88-92fbcf53809c.png

Vim 塊 原始的 Mamba 塊是為一維序列設(shè)計(jì)的,不適合需要空間感知理解的視覺任務(wù)。Vim 塊集成了用于視覺任務(wù)的雙向序列建模,Vim 塊如上圖 2 所示。 Vim 塊的操作算法如下所示。

61ef4ab8-b7ae-11ee-8b88-92fbcf53809c.png

架構(gòu)細(xì)節(jié) 架構(gòu)的超參數(shù)如下:

L:塊數(shù)

D:隱藏狀態(tài)維度

E:擴(kuò)展?fàn)顟B(tài)維度

N:SSM 維度

遵循 ViT 和 DeiT,該研究首先采用 16×16 內(nèi)核大小的投影層來獲得非重疊 patch 嵌入的一維序列。隨后直接堆疊 L 個(gè) Vim 塊。默認(rèn)情況下塊數(shù) L 設(shè)置為 24,SSM 維度 N 設(shè)置為 16。為了與 DeiT 系列模型大小保持一致,該研究將?。?tiny)尺寸變體的隱藏狀態(tài)維度 D 設(shè)置為 192,將擴(kuò)展?fàn)顟B(tài)維度 E 設(shè)置為 384。對于?。╯mall)尺寸變體,該研究將 D 設(shè)置為 384,將 E 設(shè)置為 768。

實(shí)驗(yàn)

該研究在 ImageNet-1K 數(shù)據(jù)集上對 Vim 進(jìn)行了基準(zhǔn)測試。

圖像分類

表 1 將 Vim 與基于 ConvNet、基于 Transformer 和基于 SSM 的骨干網(wǎng)絡(luò)進(jìn)行了比較。與基于 ConvNet 的 ResNet 相比,Vim 表現(xiàn)出更優(yōu)越的性能。例如,當(dāng)參數(shù)大致相似時(shí),Vim-Small 的 top-1 準(zhǔn)確率達(dá)到 80.3,比 ResNet50 高 4.1 個(gè)百分點(diǎn)。與傳統(tǒng)的基于自注意力的 ViT 相比,Vim 在參數(shù)數(shù)量和分類準(zhǔn)確率方面都有相當(dāng)大的優(yōu)勢。與高度優(yōu)化的 ViT 變體(即 DeiT )相比,VimTiny 比 DeiT-Tiny 高 0.9 個(gè)點(diǎn),Vim-Small 比 DeiT 高 0.5 個(gè)點(diǎn)。與基于 SSM 的 S4ND-ViTB 相比,Vim 以減少 3 倍的參數(shù)實(shí)現(xiàn)了類似的 top-1 準(zhǔn)確率。

61f38af6-b7ae-11ee-8b88-92fbcf53809c.png

圖 1 (b) 和 (c) 比較了小型 Vim 和 DeiT 的 FPS 和 GPU 內(nèi)存。隨著圖像分辨率的提高,Vim 在速度和內(nèi)存方面表現(xiàn)出更好的效率。具體來說,當(dāng)圖像大小為 512 時(shí),Vim 實(shí)現(xiàn)了與 DeiT 相似的 FPS 和內(nèi)存。當(dāng)圖像大小增長到 1248 時(shí),Vim 比 DeiT 快 2.8 倍,并節(jié)省 86.8% 的 GPU 內(nèi)存。Vim 在序列長度上的線性擴(kuò)展的顯著優(yōu)勢使其為高分辨率下游視覺應(yīng)用和長序列多模態(tài)應(yīng)用做好了準(zhǔn)備。

61f87af2-b7ae-11ee-8b88-92fbcf53809c.png

語義分割 如表 2 所示,Vim 在不同尺度上始終優(yōu)于 DeiT:Vim-Ti 比 DeiT-Ti 高 1.0 mIoU,Vim-S 比 DeiT-S 高 0.9 mIoU。與 ResNet-101 主干網(wǎng)絡(luò)相比,Vim-S 以減少近 2 倍的參數(shù)實(shí)現(xiàn)了相同的分割性能。

61fd408c-b7ae-11ee-8b88-92fbcf53809c.png

為了進(jìn)一步評估研究方法在下游任務(wù)上(即分割、檢測和實(shí)例分割)的效率,本文將骨干網(wǎng)與常用的特征金字塔網(wǎng)絡(luò)(FPN)模塊結(jié)合起來,并對其 FPS 和 GPU 內(nèi)存進(jìn)行基準(zhǔn)測試。 如圖 3 和圖 4 所示,盡管該研究在主干網(wǎng)上附加了一個(gè) heavy FPN,但效率曲線與純主干網(wǎng)(圖 1)的比較結(jié)果相似。

62017bde-b7ae-11ee-8b88-92fbcf53809c.png

62054138-b7ae-11ee-8b88-92fbcf53809c.png

目標(biāo)檢測和實(shí)例分割 表 3 使用 Cascade Mask R-CNN 框架對 Vim-Ti 和 DeiT-Ti 進(jìn)行了比較。Vim-Ti 超過 DeiT-Ti 1.3 box AP 和 1.1 mask AP。

6209d932-b7ae-11ee-8b88-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131174
  • 感知算法
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    7798
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6506

原文標(biāo)題:視覺新主干!Vision Mamba:高效視覺表示學(xué)習(xí),速度提升2.8倍,內(nèi)存能省87%

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    芯片業(yè)遭雙重打擊:經(jīng)濟(jì)低迷技術(shù)難突破

    晶片制造商正面臨經(jīng)濟(jì)低迷和技術(shù)難有突破雙重打擊。高通(Qualcomm)等公司的營收連續(xù)第二年下滑。雖說在全球經(jīng)濟(jì)動蕩背景下買家捂緊荷包是原因之一,但晶片行業(yè)自身也缺乏優(yōu)秀產(chǎn)品。
    發(fā)表于 05-25 11:22 ?628次閱讀

    繼電保護(hù)雙重保護(hù)的要求

    繼電保護(hù)雙重化配置是防止因保護(hù)裝置拒動而導(dǎo)致系統(tǒng)事故的有效措施,同時(shí)又可大大減少由于保護(hù)裝置異常、檢修等原因造成的一次設(shè)備停運(yùn)現(xiàn)象,但繼電保護(hù)的雙重化配置也增加了保護(hù)誤動的機(jī)率。因此,在考慮保護(hù)雙重
    發(fā)表于 11-13 15:18

    為什么寄存器的速度內(nèi)存

    `在看C專家編程的時(shí)候, 上面有一幅圖,整理的是內(nèi)存媒介的速度,與成本的關(guān)系說明, 這里我在網(wǎng)上找了一張說明更為細(xì)致的圖:那為什么寄存器的速度會比內(nèi)存快?Mike Ash寫了一篇很好的
    發(fā)表于 12-27 10:19

    vision如何安裝

    各位大咖,vision development module如何安裝呀?安裝在vision目錄下?還是在一個(gè)硬盤上就行了。vision安裝還需要密碼呀,哪里獲得?謝謝
    發(fā)表于 12-25 12:43

    單片DCDC轉(zhuǎn)換器突破速度限制以縮小電路板空間

    DN125- 單片DC / DC轉(zhuǎn)換器突破速度限制以縮小電路板空間
    發(fā)表于 05-24 10:52

    vision acquisition采集圖像速度很低

    硬件:大華500W面陣相機(jī)運(yùn)用labview自帶的vision acquisition采集圖像,獲取速度很慢,設(shè)置是默認(rèn),生成VI后點(diǎn)擊運(yùn)行大概2S才采集到圖片結(jié)束。請幫忙指點(diǎn)什么原因
    發(fā)表于 08-13 16:55

    突破氮化鎵功率半導(dǎo)體的速度限制

    突破GaN功率半導(dǎo)體的速度限制
    發(fā)表于 06-25 07:17

    功能一體機(jī)的內(nèi)存和打印速度

    功能一體機(jī)的內(nèi)存和打印速度                內(nèi)存即多功能一體機(jī)產(chǎn)品中的內(nèi)部存儲器(簡稱
    發(fā)表于 12-29 11:59 ?419次閱讀

    VISION軟件在汽車發(fā)動機(jī)標(biāo)定中的應(yīng)用

    VISION 是一個(gè)基于PC機(jī)的汽車電子控制單元(ECU)的開發(fā)、標(biāo)定和測量系統(tǒng)的軟件。VISION軟件與ECU芯片之間的界面是通過LAPcan II和USBcan II等物理連接、VISION網(wǎng)絡(luò)集線器和
    發(fā)表于 06-15 15:39 ?47次下載
    <b class='flag-5'>VISION</b>軟件在汽車發(fā)動機(jī)標(biāo)定中的應(yīng)用

    Transformer迎來強(qiáng)勁競爭者 新架構(gòu)Mamba引爆AI圈!

    作為通用序列模型的骨干,Mamba 在語言、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語言建模方面,無論是預(yù)訓(xùn)練還是下游評估,他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美
    發(fā)表于 12-07 14:14 ?655次閱讀
    Transformer迎來強(qiáng)勁競爭者 新架構(gòu)<b class='flag-5'>Mamba</b>引爆AI圈!

    DDR內(nèi)存與數(shù)據(jù)傳輸速度的關(guān)系

    在計(jì)算機(jī)系統(tǒng)中,內(nèi)存是至關(guān)重要的組件之一,它直接影響到數(shù)據(jù)的處理速度和系統(tǒng)的響應(yīng)時(shí)間。DDR內(nèi)存作為一種高效的內(nèi)存技術(shù),其數(shù)據(jù)傳輸速度是衡量
    的頭像 發(fā)表于 11-20 14:35 ?2358次閱讀

    Mamba入局圖像復(fù)原,達(dá)成新SOTA

    圖像復(fù)原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一種基于Mamba的圖像復(fù)原基準(zhǔn)模型,登上ECCV 2024。最近原作者又開發(fā)了新版本
    的頭像 發(fā)表于 12-30 18:09 ?809次閱讀
    <b class='flag-5'>Mamba</b>入局圖像復(fù)原,達(dá)成新SOTA

    港大提出SparX:強(qiáng)化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

    本文分享香港大學(xué)計(jì)算和數(shù)據(jù)科學(xué)學(xué)院俞益洲教授及其研究團(tuán)隊(duì)發(fā)表于 AAAI 2025 的論文——SparX,一種強(qiáng)化 Vision Mamba 和 Transformer 的稀疏跳躍連接機(jī)制,性能強(qiáng)大
    的頭像 發(fā)表于 01-03 09:28 ?685次閱讀
    港大提出SparX:強(qiáng)化<b class='flag-5'>Vision</b> <b class='flag-5'>Mamba</b>和Transformer的稀疏跳躍連接機(jī)制

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的
    的頭像 發(fā)表于 01-08 09:33 ?616次閱讀
    地平線ViG基于視覺<b class='flag-5'>Mamba</b>的通用視覺主干網(wǎng)絡(luò)

    首個(gè)Mamba系列模型量化方案MambaQuant解讀

    MambaQuant在Mamba系列模型上實(shí)現(xiàn)了W8A8/W4A8量化的方法,精度逼近浮點(diǎn),超過Quarot等SOTA方法。該工作已被人工智能頂會ICLR-2025接收。
    的頭像 發(fā)表于 03-05 11:10 ?560次閱讀
    首個(gè)<b class='flag-5'>Mamba</b>系列模型量化方案MambaQuant解讀