視覺語言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語言描述圖像的內(nèi)容。一般來說,一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對(duì)象屬性檢測(cè)模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。
當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競(jìng)爭(zhēng)最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對(duì)象字幕(nocaps)。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對(duì)85.3)方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。
微軟解釋道:
VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn),但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標(biāo)記數(shù)據(jù),進(jìn)一步擴(kuò)大對(duì)象屬性檢測(cè)預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。
微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX
-
微軟
+關(guān)注
關(guān)注
4文章
6651瀏覽量
105244 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40918 -
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49832
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
TeleAI提出COPO對(duì)齊方法:8B模型超越Llama3-70B的表現(xiàn)

評(píng)論