機(jī)器之心發(fā)布
來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語(yǔ)言預(yù)訓(xùn)練模型(Visual-Linguistic BERT,簡(jiǎn)稱 VL-BERT),該模型采用簡(jiǎn)單而強(qiáng)大的 Transformer 模型作為主干網(wǎng)絡(luò),并將其輸入擴(kuò)展為同時(shí)包含視覺與語(yǔ)言輸入的多模態(tài)形式,適用于絕大多數(shù)視覺-語(yǔ)言下游任務(wù)。
為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進(jìn)行 VL-BERT 的預(yù)訓(xùn)練,實(shí)驗(yàn)證明此預(yù)訓(xùn)練過程可以顯著提高下游的視覺-語(yǔ)言任務(wù)的效果,包含視覺常識(shí)推理、視覺問答與引用表達(dá)式理解等。值得一提的是,在視覺常識(shí)推理排行榜中,VL-BERT 取得了當(dāng)前單模型的最好效果。
適用于下游任務(wù)的通用特征表示預(yù)訓(xùn)練是深度網(wǎng)絡(luò)成功的標(biāo)志之一。在計(jì)算機(jī)視覺領(lǐng)域,深度網(wǎng)絡(luò)在 ImageNet 數(shù)據(jù)集進(jìn)行圖像分類的預(yù)訓(xùn)練過程,被發(fā)現(xiàn)可廣泛提高多種圖像識(shí)別任務(wù)的效果。在自然語(yǔ)言處理領(lǐng)域中,Transformer 模型在大規(guī)模語(yǔ)料庫(kù)中使用語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練的過程,也被證明可廣泛提高多種自然語(yǔ)言處理任務(wù)的效果。
但對(duì)于計(jì)算機(jī)視覺和自然語(yǔ)言處理領(lǐng)域交叉的任務(wù),例如圖像標(biāo)題生成、視覺問答、視覺常識(shí)推理等,缺少這種預(yù)訓(xùn)練的通用多模態(tài)特征表示。
一般來說,之前的視覺-語(yǔ)言模型分別使用計(jì)算機(jī)視覺或自然語(yǔ)言處理領(lǐng)域中的預(yù)訓(xùn)練模型進(jìn)行初始化,但如果目標(biāo)任務(wù)數(shù)據(jù)量不足,模型容易過擬合從而損失性能。并且對(duì)于不同的視覺-語(yǔ)言任務(wù),其網(wǎng)絡(luò)架構(gòu)一般是經(jīng)過特殊設(shè)計(jì)的,由此很難通過視覺-語(yǔ)言聯(lián)合預(yù)訓(xùn)練的過程幫助下游任務(wù)。
由此,在本文中,提出了一種可廣泛應(yīng)用于視覺-語(yǔ)言任務(wù)的預(yù)訓(xùn)練通用特征表示,稱為 Visual-LinguisitcBERT,簡(jiǎn)稱 VL-BERT,其架構(gòu)如下圖所示:
VL-BERT 的主干網(wǎng)絡(luò)使用 TransformerAttention 模塊,并將視覺與語(yǔ)言嵌入特征作為輸入,其中輸入的每個(gè)元素是來自句子中的單詞、或圖像中的感興趣區(qū)域(Region of Interests,簡(jiǎn)稱 RoIs)。在模型訓(xùn)練的過程中,每個(gè)元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應(yīng)地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對(duì)齊視覺和語(yǔ)言線索的能力。
為了更好地建模通用的視覺-語(yǔ)言表示,在大規(guī)模視覺-語(yǔ)言語(yǔ)料庫(kù)中對(duì) VL-BERT 進(jìn)行了預(yù)訓(xùn)練。采用的預(yù)訓(xùn)練數(shù)據(jù)集為圖像標(biāo)題生成數(shù)據(jù)集,Conceptual Captions,其中包含了大約 330 萬(wàn)個(gè)圖像標(biāo)題對(duì)。
VL-BERT 的預(yù)訓(xùn)練主要采用三個(gè)任務(wù):a) 屏蔽語(yǔ)言模型(Masked Language Modeling),即隨機(jī)屏蔽掉語(yǔ)句中的一些詞,并預(yù)測(cè)當(dāng)前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機(jī)屏蔽掉視覺輸入中的一些 RoIs,并預(yù)測(cè)此空間位置對(duì)應(yīng) RoI 的所屬類別;c) 圖像標(biāo)題關(guān)聯(lián)預(yù)測(cè)(Sentence-Image Relationship Prediction),即預(yù)測(cè)圖像與標(biāo)題是否屬于同一對(duì)。
在預(yù)訓(xùn)練結(jié)束后,使用微調(diào)來進(jìn)行下游任務(wù)的訓(xùn)練。本文中主要在三個(gè)視覺-語(yǔ)言下游任務(wù)中進(jìn)行微調(diào),即視覺常識(shí)推理(VisualCommonsenseReasoning)、視覺問答(VisualQuestionAnswering)與引用表達(dá)式理解(ReferringExpressionComprehension),下面將分別介紹。
視覺常識(shí)推理任務(wù)即給定圖片與相關(guān)問題,機(jī)器不僅需要回答問題,還需要提供理由來證明答案的正確性。此任務(wù)(Q-》AR)被分解為兩個(gè)子任務(wù),即視覺問答(Q-》A,給定圖片與問題,輸出正確答案),以及視覺推理(QA-》R,給定圖片、問題與答案,輸出正確的理由)。
下面以視覺問答子任務(wù)為例,此任務(wù)的輸入為問題、答案與圖像的 RoIs,并預(yù)測(cè)此答案是否為正確答案。除此之外,作者發(fā)現(xiàn)微調(diào)時(shí)增加與預(yù)訓(xùn)練類似的 RoI 分類損失也會(huì)進(jìn)一步提升性能,如下:
視覺問答任務(wù)即給定圖片,回答與圖片輸入相關(guān)的問題。由此模型的輸入即為問題與圖像,基本元素為單詞或 RoI,最終對(duì)答案進(jìn)行預(yù)測(cè),如下:
引用表達(dá)式理解任務(wù)是使用給定的引用表達(dá)式來定位圖像中的相關(guān)對(duì)象,由此輸入為查詢(引用表達(dá)式)與圖片中的 RoIs,并預(yù)測(cè)哪個(gè) RoI 為查詢輸入的引用,如下:
下面將介紹論文中的一些主要實(shí)驗(yàn)結(jié)果:
a)在視覺常識(shí)推理(Visual Commonsense Reasoning)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:
b)在視覺問答(Visual Question Answering)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:
c)在引用表達(dá)式理解(Referring Expression Comprehension)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:
-
微軟
+關(guān)注
關(guān)注
4文章
6684瀏覽量
105673 -
機(jī)器
+關(guān)注
關(guān)注
0文章
790瀏覽量
41230
原文標(biāo)題:牛人發(fā)明無人機(jī)自動(dòng)建房,空中噴“水泥”,網(wǎng)友:建筑工人要失業(yè)
文章出處:【微信號(hào):youuav,微信公眾號(hào):無人機(jī)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CADENAS 在 2025 年金字塔公司聯(lián)系博覽會(huì)上取得圓滿成功
利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

使用OpenVINO? 2021.4在CPU和MYRIAD上進(jìn)行自定義對(duì)象檢測(cè),為什么結(jié)果差異巨大?
中科馭數(shù)DPU助力大模型訓(xùn)練和推理

字節(jié)豆包大模型團(tuán)隊(duì)推出UltraMem稀疏架構(gòu)
大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法
基于移動(dòng)自回歸的時(shí)序擴(kuò)散預(yù)測(cè)模型

微軟科技2025年的新年祝福
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
國(guó)外科研團(tuán)隊(duì)在X射線科學(xué)領(lǐng)域取得了重大突破
當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)
通義千問發(fā)布第二代視覺語(yǔ)言模型Qwen2-VL
研華無風(fēng)扇BOX PC搭載兆芯KX-6000G處理器
Google Gemma 2模型的部署和Fine-Tune演示

評(píng)論