一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的多模態(tài)大模型

CVer ? 來源:CVer ? 2023-08-31 15:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章是由中科大和字節(jié)跳動合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外,文章中實驗表明,這些能力的學(xué)習(xí)能夠彼此促進。

方法框架

7fd66038-47c5-11ee-97a6-92fbcf53809c.png

如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務(wù),通過多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個框架中。具體地,輸入一張圖像以及一條指令(可以是檢測、識別、spotting、語義理解),UniDoc提取圖像中的視覺信息和文字信息,結(jié)合自然語言指令以及大語言模型的世界知識,做出相應(yīng)回答。

訓(xùn)練數(shù)據(jù)采集

7ff0ca86-47c5-11ee-97a6-92fbcf53809c.png

作者團隊收集了大量的PPT圖像,并提取其中文字實例和對應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機名詞,以增加指令多樣性。

8092f2c0-47c5-11ee-97a6-92fbcf53809c.png

實驗結(jié)果

多模態(tài)理解

80ab866e-47c5-11ee-97a6-92fbcf53809c.png

80c91328-47c5-11ee-97a6-92fbcf53809c.png

從上述六個例子可以看到,UniDoc不僅可以有效提取圖像中的視覺信息、文字信息,更可以結(jié)合其豐富的世界知識進行合理地回答。

80effd58-47c5-11ee-97a6-92fbcf53809c.png

對于無文字的圖像,UniDoc同樣可以準(zhǔn)確地進行問答。

81128e04-47c5-11ee-97a6-92fbcf53809c.png

在多個多模態(tài)問答基準(zhǔn)數(shù)據(jù)集上,UniDoc實現(xiàn)了優(yōu)越的性能。

文字檢測、識別、spotting

81326094-47c5-11ee-97a6-92fbcf53809c.png

上圖中,第一行的四個case來自于WordArt數(shù)據(jù)集,第二行的四個case來自于TotalText數(shù)據(jù)集??梢钥吹?,雖然這些行級別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進行準(zhǔn)確地識別。

815f6df0-47c5-11ee-97a6-92fbcf53809c.png

上圖中六個case中,文字存在部分的缺失,UniDoc仍然能夠進行準(zhǔn)確地識別。

81779934-47c5-11ee-97a6-92fbcf53809c.png

上圖中四個case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測效果。

818baf5a-47c5-11ee-97a6-92fbcf53809c.png

在多個文字識別基準(zhǔn)數(shù)據(jù)集上,UniDoc實現(xiàn)了優(yōu)越的性能。

消融實驗

81a99e2a-47c5-11ee-97a6-92fbcf53809c.png

有趣的消融實驗:對于同一張輸入圖像,spotting指令(右)規(guī)避了識別指令(左)的識別遺漏現(xiàn)象。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10802
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25463
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3148

    瀏覽量

    4091

原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的多模態(tài)大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中科大人口模型講義

    中科大人口模型講義[hide] [/hide]
    發(fā)表于 09-15 12:01

    微機原理與接口技術(shù) 中科大教材

    微機原理與接口技術(shù) 中科大教材[/hide]
    發(fā)表于 12-07 11:15

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》
    發(fā)表于 08-03 08:12

    51單片機C語言編程入門(中科大)

    51單片機C語言編程入門(中科大)
    發(fā)表于 08-06 12:20

    中科大嵌入式課件全集

    本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集
    發(fā)表于 08-14 21:52

    溷沌數(shù)字通信(中科大出版的)

    溷沌數(shù)字通信(中科大出版的)
    發(fā)表于 08-16 16:49

    光電信號處理?。。?何兆湘 華中科大)

    光電信號處理?。?!(何兆湘 華中科大)
    發(fā)表于 08-16 19:47

    51單片機C語言編程入門(中科大)

    51單片機C語言編程入門(中科大)
    發(fā)表于 08-17 16:02

    51單片機資料(中科大

    51單片機資料(中科大),超高新掃描版,上傳給初學(xué)者{:7:}
    發(fā)表于 06-23 12:51

    中科院中科大2003年量子力學(xué)考研試題答案

    中科院—中科大2003年量子力學(xué)考研試題答案
    發(fā)表于 11-25 16:05 ?0次下載
    <b class='flag-5'>中科院中科大</b>2003年量子力學(xué)考研試題答案

    人口模型講義 (中科大課程)

    人口模型課件 (中科大課程講義)
    發(fā)表于 09-15 11:59 ?24次下載

    《日本經(jīng)濟新聞》報道:中科大為何能對中國AI領(lǐng)域產(chǎn)生很的影響?

    近日,《日本經(jīng)濟新聞》的則報道指出:在左右著企業(yè)、國家和地區(qū)發(fā)展的人工智能領(lǐng)域,中科大少年班的人才支撐著中國的發(fā)展。中國自動駕駛公司百度的總裁張亞勤、前阿里云人工智能首席科學(xué)家的閔萬里、AI芯片
    的頭像 發(fā)表于 07-18 09:40 ?7810次閱讀

    在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子

    作為國字號的科研基石,中科大依靠學(xué)術(shù)層面的踏實耕耘,很大程度上影響了中國的醫(yī)療科技風(fēng)向。 談?wù)?b class='flag-5'>一所大學(xué)撐起個城市的代表,中科大和合肥的CP組合,
    的頭像 發(fā)表于 05-10 09:36 ?5388次閱讀

    《51單片機C語言編程入門》(中科大編著)

    《51單片機C語言編程入門》(中科大編著)
    發(fā)表于 01-04 17:54 ?0次下載

    北大&amp;amp;華為提出模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯
    的頭像 發(fā)表于 11-08 16:20 ?1697次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)