微軟視覺語言模型有顯著超越人類的表現(xiàn)

視覺語言（Vision-Language，VL）系統(tǒng)允許為文本查詢搜索相關(guān)圖像（或反之），并使用自然語言描述圖像的內(nèi)容。一般來說，一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后，微軟新的VL系統(tǒng)能夠在競爭最激烈的VL排行榜上取得第一，包括視覺問題回答（VQA）、微軟COCO圖像字幕和新穎對象字幕（nocaps）。微軟研究團(tuán)隊還強(qiáng)調(diào)，在nocaps排行榜上，這種新的VL系統(tǒng)在CIDEr（92.5對85.3）方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益，正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果，比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn)，但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來有趣的工作方向包括（1）利用海量圖像分類/標(biāo)記數(shù)據(jù)，進(jìn)一步擴(kuò)大對象屬性檢測預(yù)訓(xùn)練的規(guī)模；（2）將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語言模型，可以像人類一樣將視覺概念建立在自然語言中，反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中，Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6685

瀏覽量
105745
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41241
模型

模型

+關(guān)注

關(guān)注
1

文章
3519

瀏覽量
50414

精選推薦
更多

文章

資料

帖子

瑞芯微全新AI視覺芯片RV1126B：多場景智能終端方案介紹

大大通
10小時前

391 閱讀

定義IO初始化結(jié)構(gòu)體

瑞薩MCU小百科
10小時前

286 閱讀

使用瑞薩R-T系列芯片實(shí)現(xiàn)相電流實(shí)時采樣

瑞薩MCU小百科
11小時前

271 閱讀

地平線征程6B成功點(diǎn)亮！18TOPS，助推高性價比一體機(jī)征戰(zhàn)全球市場

章鷹觀察
12小時前

2478 閱讀

基于FPGA的數(shù)字識別系統(tǒng)設(shè)計

FPGA技術(shù)江湖
12小時前

321 閱讀

高速ADC供電指南

懸崖勒馬2
344

10積分

95下載

自定義卡片左右滑動刪除組件教程

姚小熊27
0.92 MB

免費(fèi)

2下載

White博客CMS

李晶
0.25 MB

2積分

1下載

ESP8266迷你測試板開源資料分享

麻醬
0.13 MB

2積分

2下載

Ultra96 SDR第一部分：簡單的射頻頻譜圖Web應(yīng)用程序

王磊
3.16 MB

2積分

6下載

【RA-Eco-RA6M4開發(fā)板評測】——3.RA6M4的coremark跑分測試

jf_43382582
1天前

304 閱讀

差分輸出 × 超低抖動：打造高速穩(wěn)定的大型數(shù)據(jù)同步時脈

五三一
1天前

276 閱讀

PWM相移問題：下面是我的代碼，請問各位大佬是什么原因?qū)е碌模?/span>

jf_08053489
1天前

511 閱讀

【RA-Eco-RA6M4開發(fā)板評測】開箱+Keil環(huán)境搭建+點(diǎn)燈

gtbestom
1天前

378 閱讀

【HZ-RK3568開發(fā)板免費(fèi)體驗(yàn)】合眾HZ-RK3568開發(fā)環(huán)境搭建

ouxiaolong
2天前

315 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

微軟視覺語言模型有顯著超越人類的表現(xiàn)

評論