Transformer是一類(lèi)基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),最初用于處理自然語(yǔ)言理解任務(wù)。相較于卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)等傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò),Transformer的表示學(xué)習(xí)能力更加強(qiáng)大,并已經(jīng)被應(yīng)用到視覺(jué)任務(wù)中。當(dāng)前,基于Transformer的視覺(jué)表征學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)在圖像分類(lèi)、視頻理解等低高級(jí)視覺(jué)任務(wù)中已經(jīng)取得了優(yōu)異表現(xiàn)。本文將對(duì)視覺(jué)Transformer基本原理和用于執(zhí)行目標(biāo)檢測(cè)任務(wù)的Transformer結(jié)構(gòu)進(jìn)行簡(jiǎn)要介紹,可供研究者參考。
圖1丨Transformer發(fā)展歷程
●?視覺(jué)Transformer基本結(jié)構(gòu)
圖2丨視覺(jué)Transformer結(jié)構(gòu)
視覺(jué)Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個(gè)多頭自注意力模塊(self-attention)和一個(gè)位置前饋神經(jīng)網(wǎng)絡(luò)(FFN),而解碼器每一層包括三部分:多頭自注意力模塊、編碼解碼自注意力模塊和位置前饋神經(jīng)網(wǎng)絡(luò)。 ?
●?Transformer在目標(biāo)檢測(cè)任務(wù)中的應(yīng)用?
Transformer已經(jīng)被廣泛用于處理目標(biāo)檢測(cè)問(wèn)題,按照網(wǎng)絡(luò)結(jié)構(gòu)可以分為基于多尺度融合(neck-based)、基于頭(head-based)和基于框架(framework-based)三大類(lèi)。 1)?基于多尺度融合
圖3丨FPT網(wǎng)絡(luò)結(jié)構(gòu)
受特征金字塔網(wǎng)絡(luò)等基于卷積網(wǎng)絡(luò)的多尺度特征融合網(wǎng)絡(luò)在目標(biāo)檢測(cè)任務(wù)中取得的良好性能啟發(fā),研究者提出了特征金字塔Transformer(FPT)來(lái)充分利用跨空間和尺度的特征相互作用,解決卷積網(wǎng)絡(luò)無(wú)法學(xué)習(xí)交互跨尺度特征的問(wèn)題。FPT網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由三種不同類(lèi)型的Transformer構(gòu)成,稱(chēng)之為Self-Transformer,Grounding-Transformer和Rendering-Transformer,分別用于對(duì)特征金字塔的Self-level、top-down和bottom-up路徑的信息進(jìn)行編碼,利用Transformer中的自注意力模塊來(lái)增強(qiáng)特征金字塔的特征融合。 2)?基于頭
圖4丨橋接視覺(jué)表示
對(duì)于物體檢測(cè)算法而言,預(yù)測(cè)頭的設(shè)計(jì)至關(guān)重要。傳統(tǒng)檢測(cè)方法一般利用邊界框、角點(diǎn)等單個(gè)視覺(jué)表示來(lái)預(yù)測(cè)最終結(jié)果。研究者將Transformer結(jié)構(gòu)引入物體檢測(cè)問(wèn)題中,提出了橋接視覺(jué)表示(Bridging Visual Representations,BVR),通過(guò)多頭關(guān)注模塊將不同的異構(gòu)表示組合成一個(gè)單一的表示。具體來(lái)說(shuō),將主表示作為query輸入,將輔助表示作為key輸入。通過(guò)類(lèi)似于Transformer中的注意模塊,可以獲得用于主表示的增強(qiáng)功能,該功能將來(lái)自輔助表示的信息橋接起來(lái)并有利于最終檢測(cè)性能。 3)?基于框架
圖5丨DETR網(wǎng)絡(luò)結(jié)構(gòu)
區(qū)別于前兩類(lèi)方法使用Transformer結(jié)構(gòu)增強(qiáng)傳統(tǒng)檢測(cè)算法中特定模塊的性能,DETR網(wǎng)絡(luò)將目標(biāo)檢測(cè)任務(wù)視為集合預(yù)測(cè)問(wèn)題,采用端到端的Transformer結(jié)構(gòu)構(gòu)建目標(biāo)檢測(cè)器,如圖5所示。DETR從CNN主干開(kāi)始以從輸入圖像中提取特征。為了用位置信息補(bǔ)充圖像特征,將固定的位置編碼添加到平坦的十個(gè)特征中,然后再輸入編碼解碼器轉(zhuǎn)換器。與原始Transformer順序生成預(yù)測(cè)的原始Transformer不同,DETR同時(shí)解碼多個(gè)對(duì)象。DETR作為針對(duì)目標(biāo)檢測(cè)任務(wù)提出的全新Transformer結(jié)構(gòu)設(shè)計(jì),為后續(xù)研究提供了重要啟發(fā),但存在訓(xùn)練時(shí)間長(zhǎng)、難以準(zhǔn)確檢測(cè)小目標(biāo)等問(wèn)題。
圖6丨Deformable DETR網(wǎng)絡(luò)
針對(duì)DETR存在的問(wèn)題,Deformable DETR使用圖6所示的可變形注意模塊來(lái)關(guān)注參考點(diǎn)周?chē)囊恍〗M關(guān)鍵位置,顯著降低了原多頭注意力的計(jì)算復(fù)雜度,也有利于快速收斂??勺冃巫⒁饽K可輕松完成多尺度特征融合操作,使得Deformable DETR相較于原始DETR訓(xùn)練成本降低10倍,推理速度提升1.6倍。
圖7丨可變形注意模塊
● 總結(jié)
與卷積網(wǎng)絡(luò)相比,Transformer在抽取時(shí)空表征關(guān)系上具有巨大優(yōu)勢(shì),已經(jīng)成為計(jì)算機(jī)視覺(jué)研究領(lǐng)域的熱門(mén)話(huà)題,并已經(jīng)在多種視覺(jué)任務(wù)中取得優(yōu)良表現(xiàn)。但是,當(dāng)前視覺(jué)Transformer研究仍主要關(guān)注單一任務(wù),而在自然語(yǔ)言處理領(lǐng)域Transformer已經(jīng)表現(xiàn)出在統(tǒng)一模型里執(zhí)行多個(gè)任務(wù)的能力,多任務(wù)視覺(jué)Transformer模型有待進(jìn)一步研究。此外,當(dāng)前模型普遍復(fù)雜,模型訓(xùn)練和存儲(chǔ)成本較高,開(kāi)發(fā)適合部署在資源受限設(shè)備上的視覺(jué)Transformer模型將是未來(lái)研究重點(diǎn)之一。
審核編輯:黃飛
?
評(píng)論