一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

追趕GPT-4的多模態(tài)大模型對(duì)比分析

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-17 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

今年 3 月 14 日,OpenAI 發(fā)布了 GPT-4 多模態(tài)大模型,但是僅公開了文本能力的接口,遲遲未向公眾開放體驗(yàn)多模態(tài)能力。學(xué)術(shù)界和工業(yè)界立刻跟進(jìn)研究并開源多模態(tài)大模型的相關(guān)工作。目前熱度最高的三個(gè)同期工作依次是 LLaVA [1]、MiniGPT-4 [2] 和 mPLUG-Owl [3]。本文意在分析這三個(gè)工作,探討“類 GPT-4 模型”的研究方向。

援引自 mPLUG-Owl,這三個(gè)工作的主要區(qū)別如圖 1 所示,總體而言,模型結(jié)構(gòu)和訓(xùn)練策略方面大同小異,主要體現(xiàn)在LLaVA 和 MiniGPT4 都凍住基礎(chǔ)視覺編碼器,mPLUG-Owl 將其放開,得到了更好的視覺文本跨模態(tài)理解效果;在實(shí)驗(yàn)方面mPLUG-Owl 首次構(gòu)建并開源視覺相關(guān)的指令理解測(cè)試集 OwlEval,通過人工評(píng)測(cè)對(duì)比了已有的模型,包括 BLIP2 [4]、LLaVA、MiniGPT4 以及系統(tǒng)類工作 MM-REACT [5]。

17390e70-f475-11ed-90ce-dac502259ad0.png

▲ 圖1: mPLUG-Owl vs MiniGPT4 vs LLaVA

LLaVA

自然語言處理領(lǐng)域的 instruction tuning 可以幫助 LLM 理解多樣化的指令并生成比較詳細(xì)的回答。LLaVA 首次嘗試構(gòu)建圖文相關(guān)的 instruction tuning 數(shù)據(jù)集來將 LLM 拓展到多模態(tài)領(lǐng)域。 具體來說,基于 MSCOCO 數(shù)據(jù)集,每張圖有 5 個(gè)較簡(jiǎn)短的 ground truth 描述和 object bbox(包括類別和位置)序列,將這些作為 text-only GPT4 的輸入,通過 prompt 的形式讓 GPT4 生成 3 種類型的文本:1)關(guān)于圖像中對(duì)象的對(duì)話;2)針對(duì)圖片的詳細(xì)描述;3)和圖片相關(guān)的復(fù)雜的推理過程。 注意,這三種類型都是 GPT4 在不看到圖片的情況下根據(jù)輸入的文本生成的,為了讓 GPT4 理解這些意圖,作者額外人工標(biāo)注了一些樣例用于 in-context learning。

模型結(jié)構(gòu):采用 CLIP 的 ViT-L/14 [6] 作為視覺編碼器,采用 LLaMA [7] 作為文本解碼器,通過一個(gè)簡(jiǎn)單的線性映射層將視覺編碼器的輸出映射到文本解碼器的詞嵌入空間,如圖 2。

174e2404-f475-11ed-90ce-dac502259ad0.png

▲ 圖2: LLaVA模型結(jié)構(gòu)

模型訓(xùn)練:

第一階段:跨模態(tài)對(duì)齊預(yù)訓(xùn)練,從CC3M中通過限制 caption 中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù),凍住視覺編碼器和文本解碼器,只訓(xùn)練線性映射層;

第二階段:指令微調(diào),一版針對(duì)多模態(tài)聊天機(jī)器人場(chǎng)景,采用自己構(gòu)建的158k多模態(tài)指令數(shù)據(jù)集進(jìn)行微調(diào);另一版針對(duì) Science QA 數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)階段,線性層和文本解碼器(LLaMA)都會(huì)進(jìn)行優(yōu)化。

實(shí)驗(yàn)分析:

消融實(shí)驗(yàn):在 30 個(gè) MSCOCO val 的圖片上,每張圖片設(shè)計(jì) 3 個(gè)問題(對(duì)話、詳細(xì)描述、推理),參考 Vicuna [8],用 GPT4 對(duì) LLaVA 和 text-only GPT4 的回復(fù)進(jìn)行對(duì)比打分,報(bào)告相對(duì) text-only GPT4 的相對(duì)值。

SOTA 對(duì)比:在Science QA上微調(diào)的版本實(shí)現(xiàn)了該評(píng)測(cè)集上的SOTA效果。

MiniGPT-4

Mini-GPT4 和 LLaVA 類似,也發(fā)現(xiàn)了多模態(tài)指令數(shù)據(jù)對(duì)于模型在多模態(tài)開放式場(chǎng)景中表現(xiàn)的重要性。

模型結(jié)構(gòu):采用 BLIP2 的 ViT 和 Q-Former 作為視覺編碼器,采用 LLaMA 經(jīng)過自然語言指令微調(diào)后的版本 Vicuna 作為文本解碼器,也通過一個(gè)線性映射層將視覺特征映射到文本表示空間,如圖 3。

1758e222-f475-11ed-90ce-dac502259ad0.png

▲ 圖3: MiniGPT-4模型結(jié)構(gòu)

模型訓(xùn)練:

第一階段:目標(biāo)通過大量圖文對(duì)數(shù)據(jù)學(xué)習(xí)視覺和語言的關(guān)系以及知識(shí),采用 CC+SBU+LAION 數(shù)據(jù)集,凍住視覺編碼器和文本解碼器,只訓(xùn)練線性映射層; 第二階段:作者發(fā)現(xiàn)只有第一階段的預(yù)訓(xùn)練并不能讓模型生成流暢且豐富的符合用戶需求的文本,為了緩解這個(gè)問題,本文也額外利用 ChatGPT 構(gòu)建一個(gè)多模態(tài)微調(diào)數(shù)據(jù)集。 具體來說,1)其首先用階段 1 的模型對(duì) 5k 個(gè) CC 的圖片進(jìn)行描述,如果長(zhǎng)度小于 80,通過 prompt 讓模型繼續(xù)描述,將多步生成的結(jié)果合并為一個(gè)描述;2)通過 ChatGPT 對(duì)于構(gòu)建的長(zhǎng)描述進(jìn)行改寫,移除重復(fù)等問題;3)人工驗(yàn)證以及優(yōu)化描述質(zhì)量。最后得到 3.5k 圖文對(duì),用于第二階段的微調(diào)。第二階段同樣只訓(xùn)練線性映射層。

實(shí)驗(yàn)分析:

主要進(jìn)行效果展示,沒有定量的實(shí)驗(yàn)分析。

mPLUG-Owl

mPLUG-Owl 是阿里巴巴達(dá)摩院 mPLUG 系列的最新工作,繼續(xù)延續(xù)mPLUG 系列的模塊化訓(xùn)練思想,將 LLM 遷移為一個(gè)多模態(tài)大模型。此外,Owl第一次針對(duì)視覺相關(guān)的指令評(píng)測(cè)提出一個(gè)全面的測(cè)試集 OwlEval,通過人工評(píng)測(cè)對(duì)比了已有工作,包括 LLaVA 和 MiniGPT-4。該評(píng)測(cè)集以及人工打分的結(jié)果都進(jìn)行了開源,助力后續(xù)多模態(tài)開放式回答的公平對(duì)比。

模型結(jié)構(gòu):采用 CLIP ViT-L/14 作為“視覺基礎(chǔ)模塊”,采用 LLaMA 初始化的結(jié)構(gòu)作為文本解碼器,采用類似 Flamingo 的 Perceiver Resampler 結(jié)構(gòu)對(duì)視覺特征進(jìn)行重組(名為“視覺摘要模塊”),如圖 4。

1775defe-f475-11ed-90ce-dac502259ad0.png

▲ 圖4: mPLUG-Owl模型結(jié)構(gòu)模型訓(xùn)練: 第一階段:主要目的也是先學(xué)習(xí)視覺和語言模態(tài)間的對(duì)齊。不同于前兩個(gè)工作,Owl提出凍住視覺基礎(chǔ)模塊會(huì)限制模型關(guān)聯(lián)視覺知識(shí)和文本知識(shí)的能力。因此 Owl 在第一階段只凍住 LLM 的參數(shù),采用 LAION-400M,COYO-700M,CC 以及 MSCOCO訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。 第二階段:延續(xù) mPLUG [9] 和 mPLUG-2 [10] 中不同模態(tài)混合訓(xùn)練對(duì)彼此有收益的發(fā)現(xiàn),Owl 在第二階段的指令微調(diào)訓(xùn)練中也同時(shí)采用了純文本的指令數(shù)據(jù)(102k from Alpaca+90k from Vicuna+50k from Baize)和多模態(tài)的指令數(shù)據(jù)(150k from LLaVA)。 作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引入純文本指令微調(diào)在指令理解等方面帶來的收益。第二階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住,參考 LoRA,只在 LLM 引入少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。實(shí)驗(yàn)分析:

除了訓(xùn)練策略,mPLUG-Owl 另一個(gè)重要的貢獻(xiàn)在于通過構(gòu)建OwlEval 評(píng)測(cè)集,對(duì)比了目前將 LLM 用于多模態(tài)指令回答的 SOTA 模型的效果。和 NLP 領(lǐng)域一樣,在指令理解場(chǎng)景中,模型的回答由于開放性很難進(jìn)行評(píng)估。

SOTA 對(duì)比:本文初次嘗試構(gòu)建了一個(gè)基于 50 張圖片(21 張來自MiniGPT-4, 13 張來自 MM-REACT,9 張來自 BLIP-2, 3 來自 GPT-4 以及 4 張自收集)的 82 個(gè)視覺相關(guān)的指令回答評(píng)測(cè)集 OwlEval。由于目前并沒有合適的自動(dòng)化指標(biāo),本文參考 Self-Intruct [11] 對(duì)模型的回復(fù)進(jìn)行人工評(píng)測(cè),打分規(guī)則為:A=“正確且令人滿意”;B=“有一些不完美,但可以接受”;C=“理解了指令但是回復(fù)存在明顯錯(cuò)誤”;D=“完全不相關(guān)或不正確的回復(fù)”。 實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo、BLIP2、LLaVA、MiniGPT4 以及集成了 Microsoft 多個(gè) API 的 MM-REACT。作者對(duì)這些人工評(píng)測(cè)的打分同樣進(jìn)行了開源以方便其他研究人員檢驗(yàn)人工評(píng)測(cè)的客觀性。多維度能力對(duì)比:多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力,例如指令理解、視覺理解、圖片上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的水平,本文進(jìn)一步定義了多模態(tài)場(chǎng)景中的 6 種主要的能力,并對(duì) OwlEval 每個(gè)測(cè)試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。

在該部分實(shí)驗(yàn),作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn),驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性,也和上一個(gè)實(shí)驗(yàn)中表現(xiàn)最佳的 baseline——MiniGPT4 進(jìn)行了對(duì)比,結(jié)果顯示 Owl 在各個(gè)能力方面都優(yōu)于 MiniGPT4。

總結(jié)

mPLUG-Owl, MiniGPT4, LLaVA 三篇工作的目標(biāo)都是希望在已有 LLM 的基礎(chǔ)上,通過較少的訓(xùn)練代價(jià)達(dá)到 GPT4 技術(shù)報(bào)告中所展示多模態(tài)理解效果。他們都證明第一階段的圖文預(yù)訓(xùn)練對(duì)于建立圖文之間的聯(lián)系十分關(guān)鍵,第二階段的多模態(tài)指令微調(diào)對(duì)于模型理解指令以及生成詳細(xì)的回復(fù)十分必要。三個(gè)工作都通過樣例展示了不錯(cuò)的效果,mPLUG-Owl 進(jìn)一步構(gòu)建一個(gè)公平比較的多模態(tài)指令評(píng)測(cè)集,雖然還不夠完善(例如測(cè)試指令數(shù)量還不夠多,依賴人工評(píng)測(cè)等),但也是為了該領(lǐng)域標(biāo)準(zhǔn)化發(fā)展的一個(gè)探索和嘗試。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3794

    瀏覽量

    138002
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3518

    瀏覽量

    50405
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16083

原文標(biāo)題:追趕GPT-4的多模態(tài)大模型對(duì)比分析

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    高性能計(jì)算與模態(tài)處理的探索之旅:英偉達(dá)GH200性能優(yōu)化與GPT-4V的算力加速未來

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)模型成為越來越重要的發(fā)展趨勢(shì)。GPT-4V(GPT-4 近日開放的視覺
    的頭像 發(fā)表于 10-19 10:45 ?1544次閱讀
    高性能計(jì)算與<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>處理的探索之旅:英偉達(dá)GH200性能優(yōu)化與<b class='flag-5'>GPT-4</b>V的算力加速未來

    GPT-4發(fā)布!領(lǐng)域超越“人類水平”,專家:國(guó)內(nèi)落后2-3年

    排隊(duì)申請(qǐng)內(nèi)測(cè)。 對(duì)于GPT-4的性能,很多國(guó)外網(wǎng)友的描述都是“GPT-4,起飛!” ? 模態(tài)大型語言模型
    的頭像 發(fā)表于 03-16 01:58 ?5121次閱讀
    <b class='flag-5'>GPT-4</b>發(fā)布!<b class='flag-5'>多</b>領(lǐng)域超越“人類水平”,專家:國(guó)內(nèi)落后2-3年

    ChatGPT升級(jí) OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

    是 Generative Pre-trained Transformer 4 的縮寫,即生成型預(yù)訓(xùn)練變換模型 4,是一個(gè)模態(tài)大型語言
    的頭像 發(fā)表于 03-15 18:15 ?3159次閱讀

    GPT-4模態(tài)模型發(fā)布,對(duì)ChatGPT的升級(jí)和斷崖式領(lǐng)先

    而且 GPT-4模態(tài)的,同時(shí)支持文本和圖像輸入功能。此外,GPT-4 比以前的版本“更大”,這意味著其已經(jīng)在更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練,并且在模型
    的頭像 發(fā)表于 03-17 10:31 ?3947次閱讀

    GPT-4模型結(jié)構(gòu)和訓(xùn)練方法

    GPT-4 的發(fā)布報(bào)道上,GPT-4模態(tài)能力讓人印象深刻,它可以理解圖片內(nèi)容給出圖片描述,甚至能在圖片內(nèi)容的基礎(chǔ)上理解其中的隱喻或推斷下一時(shí)刻的發(fā)展。
    的頭像 發(fā)表于 05-22 15:21 ?3061次閱讀
    <b class='flag-5'>GPT-4</b> 的<b class='flag-5'>模型</b>結(jié)構(gòu)和訓(xùn)練方法

    阿里達(dá)摩院:GPT-4的成本只有高級(jí)數(shù)據(jù)分析員的0.45%

    對(duì)比中,GPT-4 在信息的正確性、圖表的美觀性、洞察的復(fù)雜性等方面輸給人類。如果與 2 年工作經(jīng)驗(yàn)的初級(jí)分析對(duì)比,GPT-4 在正確性
    的頭像 發(fā)表于 06-09 16:06 ?904次閱讀
    阿里達(dá)摩院:<b class='flag-5'>GPT-4</b>的成本只有高級(jí)數(shù)據(jù)<b class='flag-5'>分析</b>員的0.45%

    VisCPM:邁向多語言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)
    的頭像 發(fā)表于 07-10 10:05 ?994次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4模型,帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計(jì)師的使用過程中,「
    的頭像 發(fā)表于 08-11 14:20 ?1197次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    OpenAI最新大模型曝光!劍指模態(tài),GPT-4之后最大升級(jí)!

    目前為止,OpenAI還沒有對(duì)爆料中的傳聞做出回應(yīng),但此前發(fā)布過多模態(tài)模型測(cè)試。CEO奧特曼在回應(yīng)有關(guān)GPT-5的傳聞時(shí),也暗示過GPT-4“正在增強(qiáng)”。
    的頭像 發(fā)表于 09-20 17:34 ?1497次閱讀
    OpenAI最新大<b class='flag-5'>模型</b>曝光!劍指<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>,<b class='flag-5'>GPT-4</b>之后最大升級(jí)!

    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生模態(tài)碾壓GPT-4?

    谷歌背水一戰(zhàn),發(fā)布Gemini,狙擊GPT-4
    的頭像 發(fā)表于 12-08 09:09 ?1413次閱讀
    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>碾壓<b class='flag-5'>GPT-4</b>?

    全球最強(qiáng)大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領(lǐng)域迎來了一場(chǎng)革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型,該系列模型模態(tài)和語言能力等關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能,成功超越了此前被廣泛認(rèn)為是
    的頭像 發(fā)表于 03-05 09:42 ?959次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標(biāo)桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型模態(tài)和語言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI
    的頭像 發(fā)表于 03-05 09:49 ?974次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?1031次閱讀

    商湯科技發(fā)布5.0模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo

    商湯科技發(fā)布5.0模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日,商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布
    的頭像 發(fā)表于 04-24 16:49 ?1471次閱讀

    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和模態(tài)GPT4o API調(diào)用開發(fā)教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具,可用于自然語言處理和模態(tài)任務(wù)。在國(guó)內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o
    的頭像 發(fā)表于 06-08 00:33 ?7202次閱讀
    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>GPT4</b>o API調(diào)用開發(fā)教程!