這篇文章是由中科大和字節(jié)跳動合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外,文章中實驗表明,這些能力的學(xué)習(xí)能夠彼此促進。
方法框架
如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務(wù),通過多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個框架中。具體地,輸入一張圖像以及一條指令(可以是檢測、識別、spotting、語義理解),UniDoc提取圖像中的視覺信息和文字信息,結(jié)合自然語言指令以及大語言模型的世界知識,做出相應(yīng)回答。
訓(xùn)練數(shù)據(jù)采集
作者團隊收集了大量的PPT圖像,并提取其中文字實例和對應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機名詞,以增加指令多樣性。
實驗結(jié)果
多模態(tài)理解
從上述六個例子可以看到,UniDoc不僅可以有效提取圖像中的視覺信息、文字信息,更可以結(jié)合其豐富的世界知識進行合理地回答。
對于無文字的圖像,UniDoc同樣可以準(zhǔn)確地進行問答。
在多個多模態(tài)問答基準(zhǔn)數(shù)據(jù)集上,UniDoc實現(xiàn)了優(yōu)越的性能。
文字檢測、識別、spotting
上圖中,第一行的四個case來自于WordArt數(shù)據(jù)集,第二行的四個case來自于TotalText數(shù)據(jù)集??梢钥吹?,雖然這些行級別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進行準(zhǔn)確地識別。
上圖中六個case中,文字存在部分的缺失,UniDoc仍然能夠進行準(zhǔn)確地識別。
上圖中四個case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測效果。
在多個文字識別基準(zhǔn)數(shù)據(jù)集上,UniDoc實現(xiàn)了優(yōu)越的性能。
消融實驗
有趣的消融實驗:對于同一張輸入圖像,spotting指令(右)規(guī)避了識別指令(左)的識別遺漏現(xiàn)象。
-
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10802 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25463 -
大模型
+關(guān)注
關(guān)注
2文章
3148瀏覽量
4091
原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的多模態(tài)大模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
《日本經(jīng)濟新聞》報道:中科大為何能對中國AI領(lǐng)域產(chǎn)生很的影響?
在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子
北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

評論