欧美偷拍一区二区,亚洲欧美日本第一页,亚洲不卡ssssss

引言

今年 3 月 14 日，OpenAI 發(fā)布了 GPT-4 多模態(tài)大模型，但是僅公開了文本能力的接口，遲遲未向公眾開放體驗(yàn)多模態(tài)能力。學(xué)術(shù)界和工業(yè)界立刻跟進(jìn)研究并開源多模態(tài)大模型的相關(guān)工作。目前熱度最高的三個(gè)同期工作依次是 LLaVA [1]、MiniGPT-4 [2] 和 mPLUG-Owl [3]。本文意在分析這三個(gè)工作，探討“類 GPT-4 模型”的研究方向。

援引自 mPLUG-Owl，這三個(gè)工作的主要區(qū)別如圖 1 所示，總體而言，模型結(jié)構(gòu)和訓(xùn)練策略方面大同小異，主要體現(xiàn)在LLaVA 和 MiniGPT4 都凍住基礎(chǔ)視覺編碼器，mPLUG-Owl 將其放開，得到了更好的視覺文本跨模態(tài)理解效果；在實(shí)驗(yàn)方面mPLUG-Owl 首次構(gòu)建并開源視覺相關(guān)的指令理解測(cè)試集 OwlEval，通過人工評(píng)測(cè)對(duì)比了已有的模型，包括 BLIP2 [4]、LLaVA、MiniGPT4 以及系統(tǒng)類工作 MM-REACT [5]。

▲ 圖1: mPLUG-Owl vs MiniGPT4 vs LLaVA

LLaVA

自然語言處理領(lǐng)域的 instruction tuning 可以幫助 LLM 理解多樣化的指令并生成比較詳細(xì)的回答。LLaVA 首次嘗試構(gòu)建圖文相關(guān)的 instruction tuning 數(shù)據(jù)集來將 LLM 拓展到多模態(tài)領(lǐng)域。具體來說，基于 MSCOCO 數(shù)據(jù)集，每張圖有 5 個(gè)較簡(jiǎn)短的 ground truth 描述和 object bbox（包括類別和位置）序列，將這些作為 text-only GPT4 的輸入，通過 prompt 的形式讓 GPT4 生成 3 種類型的文本：1）關(guān)于圖像中對(duì)象的對(duì)話；2）針對(duì)圖片的詳細(xì)描述；3）和圖片相關(guān)的復(fù)雜的推理過程。注意，這三種類型都是 GPT4 在不看到圖片的情況下根據(jù)輸入的文本生成的，為了讓 GPT4 理解這些意圖，作者額外人工標(biāo)注了一些樣例用于 in-context learning。

模型結(jié)構(gòu)：采用 CLIP 的 ViT-L/14 [6] 作為視覺編碼器，采用 LLaMA [7] 作為文本解碼器，通過一個(gè)簡(jiǎn)單的線性映射層將視覺編碼器的輸出映射到文本解碼器的詞嵌入空間，如圖 2。

▲ 圖2: LLaVA模型結(jié)構(gòu)

模型訓(xùn)練：

第一階段：跨模態(tài)對(duì)齊預(yù)訓(xùn)練，從CC3M中通過限制 caption 中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù)，凍住視覺編碼器和文本解碼器，只訓(xùn)練線性映射層；

第二階段：指令微調(diào)，一版針對(duì)多模態(tài)聊天機(jī)器人場(chǎng)景，采用自己構(gòu)建的158k多模態(tài)指令數(shù)據(jù)集進(jìn)行微調(diào)；另一版針對(duì) Science QA 數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)階段，線性層和文本解碼器（LLaMA）都會(huì)進(jìn)行優(yōu)化。

實(shí)驗(yàn)分析：

消融實(shí)驗(yàn)：在 30 個(gè) MSCOCO val 的圖片上，每張圖片設(shè)計(jì) 3 個(gè)問題（對(duì)話、詳細(xì)描述、推理），參考 Vicuna [8]，用 GPT4 對(duì) LLaVA 和 text-only GPT4 的回復(fù)進(jìn)行對(duì)比打分，報(bào)告相對(duì) text-only GPT4 的相對(duì)值。

SOTA 對(duì)比：在Science QA上微調(diào)的版本實(shí)現(xiàn)了該評(píng)測(cè)集上的SOTA效果。

MiniGPT-4

Mini-GPT4 和 LLaVA 類似，也發(fā)現(xiàn)了多模態(tài)指令數(shù)據(jù)對(duì)于模型在多模態(tài)開放式場(chǎng)景中表現(xiàn)的重要性。

模型結(jié)構(gòu)：采用 BLIP2 的 ViT 和 Q-Former 作為視覺編碼器，采用 LLaMA 經(jīng)過自然語言指令微調(diào)后的版本 Vicuna 作為文本解碼器，也通過一個(gè)線性映射層將視覺特征映射到文本表示空間，如圖 3。

▲ 圖3: MiniGPT-4模型結(jié)構(gòu)

模型訓(xùn)練：

第一階段：目標(biāo)通過大量圖文對(duì)數(shù)據(jù)學(xué)習(xí)視覺和語言的關(guān)系以及知識(shí)，采用 CC+SBU+LAION 數(shù)據(jù)集，凍住視覺編碼器和文本解碼器，只訓(xùn)練線性映射層；第二階段：作者發(fā)現(xiàn)只有第一階段的預(yù)訓(xùn)練并不能讓模型生成流暢且豐富的符合用戶需求的文本，為了緩解這個(gè)問題，本文也額外利用 ChatGPT 構(gòu)建一個(gè)多模態(tài)微調(diào)數(shù)據(jù)集。具體來說，1）其首先用階段 1 的模型對(duì) 5k 個(gè) CC 的圖片進(jìn)行描述，如果長(zhǎng)度小于 80，通過 prompt 讓模型繼續(xù)描述，將多步生成的結(jié)果合并為一個(gè)描述；2）通過 ChatGPT 對(duì)于構(gòu)建的長(zhǎng)描述進(jìn)行改寫，移除重復(fù)等問題；3）人工驗(yàn)證以及優(yōu)化描述質(zhì)量。最后得到 3.5k 圖文對(duì)，用于第二階段的微調(diào)。第二階段同樣只訓(xùn)練線性映射層。

實(shí)驗(yàn)分析：

主要進(jìn)行效果展示，沒有定量的實(shí)驗(yàn)分析。

mPLUG-Owl

mPLUG-Owl 是阿里巴巴達(dá)摩院 mPLUG 系列的最新工作，繼續(xù)延續(xù)mPLUG 系列的模塊化訓(xùn)練思想，將 LLM 遷移為一個(gè)多模態(tài)大模型。此外，Owl第一次針對(duì)視覺相關(guān)的指令評(píng)測(cè)提出一個(gè)全面的測(cè)試集 OwlEval，通過人工評(píng)測(cè)對(duì)比了已有工作，包括 LLaVA 和 MiniGPT-4。該評(píng)測(cè)集以及人工打分的結(jié)果都進(jìn)行了開源，助力后續(xù)多模態(tài)開放式回答的公平對(duì)比。

模型結(jié)構(gòu)：采用 CLIP ViT-L/14 作為“視覺基礎(chǔ)模塊”，采用 LLaMA 初始化的結(jié)構(gòu)作為文本解碼器，采用類似 Flamingo 的 Perceiver Resampler 結(jié)構(gòu)對(duì)視覺特征進(jìn)行重組（名為“視覺摘要模塊”），如圖 4。

▲ 圖4: mPLUG-Owl模型結(jié)構(gòu)模型訓(xùn)練：第一階段：主要目的也是先學(xué)習(xí)視覺和語言模態(tài)間的對(duì)齊。不同于前兩個(gè)工作，Owl提出凍住視覺基礎(chǔ)模塊會(huì)限制模型關(guān)聯(lián)視覺知識(shí)和文本知識(shí)的能力。因此 Owl 在第一階段只凍住 LLM 的參數(shù)，采用 LAION-400M，COYO-700M，CC 以及 MSCOCO訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。第二階段：延續(xù) mPLUG [9] 和 mPLUG-2 [10] 中不同模態(tài)混合訓(xùn)練對(duì)彼此有收益的發(fā)現(xiàn)，Owl 在第二階段的指令微調(diào)訓(xùn)練中也同時(shí)采用了純文本的指令數(shù)據(jù)（102k from Alpaca+90k from Vicuna+50k from Baize）和多模態(tài)的指令數(shù)據(jù)（150k from LLaVA）。作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引入純文本指令微調(diào)在指令理解等方面帶來的收益。第二階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住，參考 LoRA，只在 LLM 引入少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。實(shí)驗(yàn)分析：

除了訓(xùn)練策略，mPLUG-Owl 另一個(gè)重要的貢獻(xiàn)在于通過構(gòu)建OwlEval 評(píng)測(cè)集，對(duì)比了目前將 LLM 用于多模態(tài)指令回答的 SOTA 模型的效果。和 NLP 領(lǐng)域一樣，在指令理解場(chǎng)景中，模型的回答由于開放性很難進(jìn)行評(píng)估。

SOTA 對(duì)比：本文初次嘗試構(gòu)建了一個(gè)基于 50 張圖片（21 張來自MiniGPT-4, 13 張來自 MM-REACT，9 張來自 BLIP-2, 3 來自 GPT-4 以及 4 張自收集）的 82 個(gè)視覺相關(guān)的指令回答評(píng)測(cè)集 OwlEval。由于目前并沒有合適的自動(dòng)化指標(biāo)，本文參考 Self-Intruct [11] 對(duì)模型的回復(fù)進(jìn)行人工評(píng)測(cè)，打分規(guī)則為：A=“正確且令人滿意”；B=“有一些不完美，但可以接受”；C=“理解了指令但是回復(fù)存在明顯錯(cuò)誤”；D=“完全不相關(guān)或不正確的回復(fù)”。實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo、BLIP2、LLaVA、MiniGPT4 以及集成了 Microsoft 多個(gè) API 的 MM-REACT。作者對(duì)這些人工評(píng)測(cè)的打分同樣進(jìn)行了開源以方便其他研究人員檢驗(yàn)人工評(píng)測(cè)的客觀性。多維度能力對(duì)比：多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力，例如指令理解、視覺理解、圖片上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的水平，本文進(jìn)一步定義了多模態(tài)場(chǎng)景中的 6 種主要的能力，并對(duì) OwlEval 每個(gè)測(cè)試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。

在該部分實(shí)驗(yàn)，作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn)，驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性，也和上一個(gè)實(shí)驗(yàn)中表現(xiàn)最佳的 baseline——MiniGPT4 進(jìn)行了對(duì)比，結(jié)果顯示 Owl 在各個(gè)能力方面都優(yōu)于 MiniGPT4。

總結(jié)

mPLUG-Owl, MiniGPT4, LLaVA 三篇工作的目標(biāo)都是希望在已有 LLM 的基礎(chǔ)上，通過較少的訓(xùn)練代價(jià)達(dá)到 GPT4 技術(shù)報(bào)告中所展示多模態(tài)理解效果。他們都證明第一階段的圖文預(yù)訓(xùn)練對(duì)于建立圖文之間的聯(lián)系十分關(guān)鍵，第二階段的多模態(tài)指令微調(diào)對(duì)于模型理解指令以及生成詳細(xì)的回復(fù)十分必要。三個(gè)工作都通過樣例展示了不錯(cuò)的效果，mPLUG-Owl 進(jìn)一步構(gòu)建一個(gè)公平比較的多模態(tài)指令評(píng)測(cè)集，雖然還不夠完善（例如測(cè)試指令數(shù)量還不夠多，依賴人工評(píng)測(cè)等），但也是為了該領(lǐng)域標(biāo)準(zhǔn)化發(fā)展的一個(gè)探索和嘗試。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴