中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

這篇文章是由中科大和字節(jié)跳動合作，在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc，一個統(tǒng)一的多模態(tài)大模型（LMM）。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型，UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外，文章中實驗表明，這些能力的學(xué)習(xí)能夠彼此促進。

方法框架

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務(wù)，通過多模態(tài)指令微調(diào)的方式，統(tǒng)一到一個框架中。具體地，輸入一張圖像以及一條指令（可以是檢測、識別、spotting、語義理解），UniDoc提取圖像中的視覺信息和文字信息，結(jié)合自然語言指令以及大語言模型的世界知識，做出相應(yīng)回答。

訓(xùn)練數(shù)據(jù)采集

作者團隊收集了大量的PPT圖像，并提取其中文字實例和對應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為，PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等，且PPT中視覺元素豐富多樣，適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例，其指令如下圖所示。其中的 term 表示”imgae“，”photo“等隨機名詞，以增加指令多樣性。

實驗結(jié)果

多模態(tài)理解

從上述六個例子可以看到，UniDoc不僅可以有效提取圖像中的視覺信息、文字信息，更可以結(jié)合其豐富的世界知識進行合理地回答。

對于無文字的圖像，UniDoc同樣可以準(zhǔn)確地進行問答。

在多個多模態(tài)問答基準(zhǔn)數(shù)據(jù)集上，UniDoc實現(xiàn)了優(yōu)越的性能。

文字檢測、識別、spotting

上圖中，第一行的四個case來自于WordArt數(shù)據(jù)集，第二行的四個case來自于TotalText數(shù)據(jù)集?？梢钥吹?，雖然這些行級別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布，UniDoc仍然能夠進行準(zhǔn)確地識別。

上圖中六個case中，文字存在部分的缺失，UniDoc仍然能夠進行準(zhǔn)確地識別。

上圖中四個case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測效果。

在多個文字識別基準(zhǔn)數(shù)據(jù)集上，UniDoc實現(xiàn)了優(yōu)越的性能。

消融實驗

有趣的消融實驗：對于同一張輸入圖像，spotting指令（右）規(guī)避了識別指令（左）的識別遺漏現(xiàn)象。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10802
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25463
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3148

瀏覽量
4091

原文標(biāo)題：中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot DDFM：首個使用擴散模型進行多模態(tài)圖像融合的方法
Hot DepGraph：任意架構(gòu)的結(jié)構(gòu)化剪枝，CNN、Transformer、GNN等都適用！

New SegVG視覺定位方法的各個組件
New 詳解E2E-MFD多模態(tài)融合檢測端到端算法

精選推薦
更多

文章

資料

帖子

詳解上海貝嶺16/24位高精度低功耗模數(shù)轉(zhuǎn)換器BL1090系列最高速率達(dá)960SPS

上海貝嶺
13小時前

346 閱讀

凡億Allegro Skill工藝輔助之導(dǎo)出PDF

凡億PCB
14小時前

383 閱讀

基于FPGA和USB3.0通信的UVC攝像機設(shè)計方案

FPGA技術(shù)江湖
16小時前

390 閱讀

PMOS電路設(shè)計分析

張飛電子實戰(zhàn)營
16小時前

352 閱讀

借助TI ±80V接地電平轉(zhuǎn)換器解決失調(diào)電壓挑戰(zhàn)

德州儀器
16小時前

490 閱讀

電磁兼容（EMC）設(shè)計典型電路匯總

9.52 MB

10積分

127下載

cppweb web服務(wù)器

djfldsthtr
32.96 MB

免費

0下載

AresDB基于GPU運算的實時分析存儲引擎和查詢引擎

xymbmcu
11.47 MB

免費

0下載

Amiga 2000/3000/500鍵盤USB適配器

欲望都市
0.02 MB

2積分

2下載

迷你音調(diào)控制tl084開源分享

張桂英
0.02 MB

2積分

8下載

【微五科技CF5010RBT60開發(fā)板試用體驗】使用微五科技CF5010RBT60藍(lán)牙進行通信

jf_61512546
1天前

165 閱讀

每周推薦！電源設(shè)計及EMI精解、電機設(shè)計資料分享

ElecFans小喇叭
1天前

395 閱讀

【米爾RK3576開發(fā)板免費體驗】4、移植SOEM主站

EPTmachine
1天前

356 閱讀

【米爾RK3576開發(fā)板免費體驗】3、移植EtherCAT Igh

EPTmachine
1天前

382 閱讀

【RA4L1-SENSOR】電壓檢測器第一個程序FreeRTOS增加讀key,rtc,uart隊列

lustao
1天前

476 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

評論