一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

CVer ? 來(lái)源:CVer ? 2023-11-08 16:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來(lái)進(jìn)行大模型的輕量化高效微調(diào),僅需訓(xùn)練預(yù)訓(xùn)練大模型0.04%的參數(shù)。同時(shí)我們?cè)O(shè)計(jì)了兩個(gè)啟發(fā)性模塊來(lái)增強(qiáng)高效微調(diào)時(shí)極低參數(shù)條件下的模態(tài)對(duì)齊。實(shí)驗(yàn)上,我們?cè)诹罂缒B(tài)基準(zhǔn)測(cè)試集上進(jìn)行全面評(píng)估顯示,我們的方法不僅超越當(dāng)前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會(huì)開(kāi)源在這個(gè)GitHub項(xiàng)目:

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個(gè)非常新且日漸繁榮的task,歡迎小伙伴們一起學(xué)習(xí)交流~

一、背景

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)。第一,它帶來(lái)巨大的計(jì)算和物理存儲(chǔ)成本,使預(yù)訓(xùn)練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓(xùn)練知識(shí)在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點(diǎn)阻礙了大模型從特定數(shù)據(jù)集擴(kuò)展到更廣泛場(chǎng)景。

為緩解預(yù)訓(xùn)練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開(kāi)始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語(yǔ)言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓(xùn)練參數(shù)以獲得良好表現(xiàn)。直接、簡(jiǎn)單的設(shè)計(jì)無(wú)法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個(gè)主要挑戰(zhàn)需要面對(duì): (1)如何在極輕量級(jí)高效微調(diào)框架下進(jìn)行知識(shí)遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對(duì)齊程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

圖1:與現(xiàn)有主流的高效微調(diào)方法的對(duì)比

在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻(xiàn)可以總結(jié)為:

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當(dāng)前大規(guī)模預(yù)訓(xùn)練和微調(diào)策略的局限性。

提出了模式近似(mode approximation)方法來(lái)生成輕量級(jí)可學(xué)習(xí)參數(shù),并提出了兩個(gè)啟發(fā)性模塊來(lái)更好地增強(qiáng)模態(tài)融合。

通過(guò)六個(gè)跨模態(tài)任務(wù)和兩個(gè)零樣本任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示Aurora相比其他方法取得了最先進(jìn)的性能,同時(shí)也只使用最少的可學(xué)習(xí)參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計(jì)

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整體過(guò)程示意圖。

三、高效微調(diào)的模態(tài)對(duì)齊的設(shè)計(jì)

3.1 Informative Context Enhancement

該模塊的目標(biāo)是為了實(shí)現(xiàn)更好的模態(tài)對(duì)齊,在交叉注意力模塊后的融合特征中提供提示文本來(lái)更好的激活。受“上下文學(xué)習(xí)”這一領(lǐng)域的進(jìn)步啟發(fā),我們意識(shí)到為提示詞提供示范模板是很重要的。最直觀的方法是對(duì)圖像與文本對(duì)進(jìn)行對(duì)齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個(gè)選擇。一些文本可能準(zhǔn)確概括圖像內(nèi)容,而另一些可能不行。在沒(méi)有事先匹配文本信息的先驗(yàn)情況下,我們決定引入上下文增強(qiáng)模塊來(lái)涵蓋各個(gè)方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集與基準(zhǔn)比較。我們?cè)诹鶄€(gè)跨模態(tài)任務(wù)領(lǐng)域的benchmark上評(píng)估了Aurora,這些任務(wù)包括圖片文本檢索、問(wèn)答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類(lèi)方法進(jìn)行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細(xì)節(jié)請(qǐng)參閱附錄。

實(shí)現(xiàn)細(xì)節(jié)。我們的實(shí)現(xiàn)基于Salesforce開(kāi)源代碼庫(kù)。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺(jué)語(yǔ)言初始化權(quán)重。我們使用PyTorch在8臺(tái)NVIDIA V100 GPU(32G)設(shè)備上實(shí)現(xiàn)所有實(shí)驗(yàn)。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學(xué)習(xí)率通過(guò)網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過(guò)程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實(shí)驗(yàn)結(jié)果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

實(shí)驗(yàn)氣泡圖

4.3 消融實(shí)驗(yàn)

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

參數(shù)分布可視化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17897
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122796
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4073

原文標(biāo)題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模態(tài)模型SmloVLM-256M。為工業(yè)界提供了離線部署模態(tài)
    的頭像 發(fā)表于 04-21 10:56 ?1435次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)&amp;lt;基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化&amp;gt;這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)
    發(fā)表于 01-14 16:51

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    單張消費(fèi)級(jí)顯卡微調(diào)模態(tài)模型

    把大模型的訓(xùn)練門(mén)檻打下來(lái)!我們?cè)趩螐埾M(fèi)級(jí)顯卡上實(shí)現(xiàn)了模態(tài)模型(LaVIN-7B, LaVIN-13B)的適配和訓(xùn)練
    的頭像 發(fā)表于 06-30 10:43 ?3037次閱讀
    單張消費(fèi)級(jí)顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?1000次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開(kāi)源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言模型
    的頭像 發(fā)表于 07-16 20:45 ?1025次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開(kāi)源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    中科大&amp;amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1933次閱讀
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節(jié)<b class='flag-5'>提出</b>UniDoc:統(tǒng)一的面向文字場(chǎng)景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?768次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言<b class='flag-5'>模型</b>的可行性

    用語(yǔ)言對(duì)齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺(jué)和語(yǔ)言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語(yǔ)義
    的頭像 發(fā)表于 11-23 15:46 ?1021次閱讀
    用語(yǔ)言對(duì)齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,<b class='flag-5'>北大</b>騰訊等<b class='flag-5'>提出</b>LanguageBind,刷新多個(gè)榜單

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    今年4月份,面壁智能&amp;清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出MiniCPM系列的最新模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建
    的頭像 發(fā)表于 07-15 09:34 ?1520次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?1263次閱讀

    商湯“日日新”融合大模型登頂大語(yǔ)言與模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost &amp; Sullivan, 簡(jiǎn)稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言和模態(tài)核心能力測(cè)評(píng)中,商湯“日日新”
    的頭像 發(fā)表于 03-18 10:35 ?581次閱讀