在最近的計(jì)算機(jī)視覺研究中,ViT的出現(xiàn)迅速改變了各種架構(gòu)設(shè)計(jì)工作:ViT利用自然語(yǔ)言處理中的Self-Attention實(shí)現(xiàn)了最先進(jìn)的圖像分類性能,MLP-Mixer利用簡(jiǎn)單的多層感知器也實(shí)現(xiàn)了具有競(jìng)爭(zhēng)性的結(jié)果。相比之下,一些研究也表明,精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)可以實(shí)現(xiàn)媲美ViT的先進(jìn)性能,而無(wú)需借助這些新想法。在這種背景下,人們對(duì)什么是適合于計(jì)算機(jī)視覺的歸納偏差越來(lái)越感興趣。
在這里,作者提出Sequencer,一個(gè)全新且具有競(jìng)爭(zhēng)性的架構(gòu),可以替代ViT,為分類問題提供了一個(gè)全新的視角。與ViT不同,Sequencer使用LSTM(而不是Self-Attention)對(duì)遠(yuǎn)程依賴關(guān)系進(jìn)行建模。
作者還提出了一個(gè)二維的Sequencer模塊,其中一個(gè)LSTM被分解成垂直和水平的LSTM,以提高性能。
雖然結(jié)構(gòu)簡(jiǎn)單,但是經(jīng)過實(shí)驗(yàn)表明,Sequencer的表現(xiàn)令人印象深刻:Sequencer2D-L在ImageNet-1K上僅使用54M參數(shù),實(shí)現(xiàn)84.6%的top-1精度。不僅如此,作者還證明了它在雙分辨率波段上具有良好的可遷移性和穩(wěn)健性。
1背景
Vision Transformer成功的原因被認(rèn)為是由于Self-Attention建模遠(yuǎn)程依賴的能力。然而,Self-Attention對(duì)于Transformer執(zhí)行視覺任務(wù)的有效性有多重要還不清楚。事實(shí)上,只基于多層感知器(MLPs)的MLP-Mixer被提議作為ViTs的一個(gè)有吸引力的替代方案。
此外,一些研究表明,精心設(shè)計(jì)的CNN在計(jì)算機(jī)視覺方面仍有足夠的競(jìng)爭(zhēng)力。因此,確定哪些架構(gòu)設(shè)計(jì)對(duì)計(jì)算機(jī)視覺任務(wù)具有內(nèi)在的有效性是當(dāng)前研究的一大熱點(diǎn)。本文通過提出一種新穎的、具有競(jìng)爭(zhēng)力的替代方案,為這一問題提供了一個(gè)新的視角。
本文提出了Sequencer體系結(jié)構(gòu),使用LSTM(而不是Self-Attention)進(jìn)行序列建模。Sequencer的宏觀架構(gòu)設(shè)計(jì)遵循ViTs,迭代地應(yīng)用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention層取代。特別是,Sequencer使用BiLSTM作為一個(gè)構(gòu)建塊。簡(jiǎn)單的BiLSTM表現(xiàn)出一定的性能水平,而Sequencer可以通過使用類似Vision Permutator(ViP)的思想進(jìn)一步提高。ViP的關(guān)鍵思想是平行處理垂直軸和水平軸。
作者還引入了2個(gè)BiLSTM,用于并行處理上/下和左/右方向。這種修改提高了Sequencer的效率和準(zhǔn)確性,因?yàn)檫@種結(jié)構(gòu)減少了序列的長(zhǎng)度,并產(chǎn)生一個(gè)有空間意義的感受野。
在ImageNet-1K數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),新的Sequencer架構(gòu)的性能優(yōu)于類似規(guī)模的Swin和ConvNeXt等高級(jí)架構(gòu)。它還優(yōu)于其他無(wú)注意力和無(wú)CNN的架構(gòu),如MLP-Mixer和GFNet,使Sequencer在視覺任務(wù)中的Self-Attention具有吸引力的新替代方案。
值得注意的是,Sequencer還具有很好的領(lǐng)域穩(wěn)健性以及尺度穩(wěn)定性,即使在推理過程中輸入的分辨率增加了一倍,也能強(qiáng)烈防止精度退化。此外,對(duì)高分辨率數(shù)據(jù)進(jìn)行微調(diào)的Sequencer可以達(dá)到比Swin-B更高的精度。在峰值內(nèi)存上,在某些情況下,Sequencer往往比ViTs和cnn更經(jīng)濟(jì)。雖然由于遞歸,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值內(nèi)存的相對(duì)效率,提高了在高分辨率環(huán)境下的精度/成本權(quán)衡。因此,Sequencer作為一種實(shí)用的圖像識(shí)別模型也具有吸引人的特性。
2全新范式
2.1 LSTM的原理
LSTM是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),用于建模序列的長(zhǎng)期依賴關(guān)系。Plain LSTM有一個(gè)輸入門,它控制存儲(chǔ)輸入,一個(gè)控制前單元狀態(tài)的遺忘的遺忘門,以及一個(gè)輸出門,它控制當(dāng)前單元狀態(tài)的單元輸出。普通LSTM的公式如下:
其中σ是logistic sigmoid function,是Hadamard product。
BiLSTM對(duì)于預(yù)期相互依賴的序列是有利的。一個(gè)BiLSTM由2個(gè)普通的LSTM組成。設(shè)為輸入,為反向重排。和分別是用相應(yīng)的LSTM處理和得到的輸出。設(shè)為按原順序重新排列的輸出,BiLSTM的輸出如下:
假設(shè)和具有相同的隱藏維數(shù)D,這是BiLSTM的超參數(shù)。因此,向量h的維數(shù)為二維。
2.2 Sequencer架構(gòu)
1、架構(gòu)總覽
本文用LSTM取代Self-Attention層:提出了一種新的架構(gòu),旨在節(jié)省內(nèi)存和參數(shù),同時(shí)具有學(xué)習(xí)遠(yuǎn)程建模的能力。
圖2a顯示了Sequencer體系結(jié)構(gòu)的整體結(jié)構(gòu)。Sequencer架構(gòu)以不重疊的Patches作為輸入,并將它們投影到特征圖上。Sequencer Block是Sequencer的核心組件,由以下子組件組成:
BiLSTM層可以經(jīng)濟(jì)、全局地Mixing空間信息
MLP用于Channel Mixing
當(dāng)使用普通BiLSTM層時(shí),Sequencer Block稱為Vanilla Sequencer block;當(dāng)使用BiLSTM2D層作為Sequencer Block時(shí),Sequencer Block稱為Sequencer2D block。最后一個(gè)塊的輸出通過全局平均池化層送到線性分類器。
2、BiLSTM2D layer
作者提出了BiLSTM2D層作為一種有效Mixing二維空間信息的技術(shù)。它有2個(gè)普通的BiLSTM,一個(gè)垂直的BiLSTM和一個(gè)水平的BiLSTM。
對(duì)于輸入被視為一組序列,其中是垂直方向上的Token數(shù)量,W是水平方向上的序列數(shù)量,C是通道維度。所有序列都輸入到垂直BiLSTM中,共享權(quán)重和隱藏維度D:
用與上述相似的方式,被視為一組序列,所有序列被輸入到水平BiLSTM中,共享權(quán)重和隱藏維度D:
然后將合并到中,同時(shí)將合并到。最后送入FC層。這些流程制定如下:
偽代碼如下:
3、架構(gòu)變體
為了比較由Sequencer 2D組成的不同深度的模型,本文準(zhǔn)備了3種不同深度的模型:18、24和36。模型的名稱分別為Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隱藏維度設(shè)置為D=C/4。
3實(shí)驗(yàn)
3.1 ImageNet-1K
3.2 遷移學(xué)習(xí)
3.3 穩(wěn)健性實(shí)驗(yàn)
3.4 可視化分析
一般來(lái)說(shuō),CNN具有局部化的、逐層擴(kuò)展的感受野,而沒有移動(dòng)窗口的ViT捕獲的是全局依賴。相比之下,作者Sequencer不清楚信息是如何處理的。因此作者計(jì)算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如圖5所示。
Sequencer2D-S的ERFs在所有層中形成十字形。這一趨勢(shì)使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在淺層中,Sequencer2D-S比ResNet-50的ERF更寬,盡管沒有DeiT那么寬。這一觀察結(jié)果證實(shí)了Sequencer中的lstm可以像預(yù)期的那樣建模長(zhǎng)期依賴關(guān)系,并且Sequencer可以識(shí)別足夠長(zhǎng)的垂直或水平區(qū)域。因此,可以認(rèn)為,Sequencer識(shí)別圖像的方式與CNN或ViT非常不同。
審核編輯 :李倩
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1705瀏覽量
46485 -
LSTM
+關(guān)注
關(guān)注
0文章
60瀏覽量
3946
原文標(biāo)題:CV全新范式 | LSTM在CV領(lǐng)域殺出一條血路,完美超越Swin與ConvNeXt等前沿算法
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論