一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文理解多模態(tài)大語(yǔ)言模型——下

jf_23871869 ? 來(lái)源:Sebastian Raschka 博士 ? 作者:Sebastian Raschka 博士 ? 2024-12-03 15:18 ? 次閱讀

?

作者:Sebastian Raschka 博士,

翻譯:張晶,Linux Fundation APAC Open Source Evangelist

編者按:本文并不是逐字逐句翻譯,而是以更有利于中文讀者理解的目標(biāo),做了刪減、重構(gòu)和意譯,并替換了多張不適合中文讀者的示意圖。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

《一文理解多模態(tài)大語(yǔ)言模型 - 上》介紹了什么是多模態(tài)大語(yǔ)言模型,以及構(gòu)建多模態(tài) LLM 有兩種主要方式之一:統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture)。本文將接著介紹第二種構(gòu)建多模態(tài) LLM 的方式:跨模態(tài)注意架構(gòu)(Cross-modality Attention Architecture approach)。

一,跨模態(tài)注意架構(gòu)

《一文理解多模態(tài)大語(yǔ)言模型 - 上》討論了通過(guò)統(tǒng)一嵌入解碼器架構(gòu)來(lái)構(gòu)建多模態(tài)大語(yǔ)言模型(LLM)的方法,并且理解了圖像編碼背后的基本概念,下面介紹另一種通過(guò)交叉注意力機(jī)制實(shí)現(xiàn)多模態(tài)LLM的方式,如下圖所示:

wKgZO2dOtyiACm8SAAQZToNs9ng951.png

在上圖所示的跨模態(tài)注意力架構(gòu)方法中,我們?nèi)匀皇褂弥敖榻B的圖像向量化方式。然而,與直接將圖像向量作為L(zhǎng)LM的輸入不同,我們通過(guò)交叉注意力機(jī)制在多頭注意力層中連接輸入的圖像向量。

這個(gè)想法與2017年《Attention Is All You Need》論文中提出的原始Transformer架構(gòu)相似,在原始《Attention Is All You Need》論文中的Transformer最初是為語(yǔ)言翻譯開發(fā)的。因此,它由一個(gè)文本編碼器(下圖的左部分)組成,該編碼器接收要翻譯的句子,并通過(guò)一個(gè)文本解碼器(圖的右部分)生成翻譯結(jié)果。在多模態(tài)大語(yǔ)言模型的背景下,圖的右部分的編碼器由之前的文本編碼器,更換為圖像編碼器(圖像編碼后的向量)。

文本和圖像在進(jìn)入大語(yǔ)言模型前都編碼為嵌入維度和尺寸(embedding dimensions and size)一致的向量。

“我們可以把多模態(tài)大語(yǔ)言模型看成“翻譯”文本和圖像,或文本和其它模態(tài)數(shù)據(jù) --- 譯者?!?/p>

wKgZPGdOtymAWrlVAAZyVdmo3go015.png

二,統(tǒng)一解碼器和交叉注意力模型訓(xùn)練

與傳統(tǒng)僅文本的大語(yǔ)言模型(LLM)的開發(fā)類似,多模態(tài)大語(yǔ)言模型的訓(xùn)練也包含兩個(gè)階段:預(yù)訓(xùn)練和指令微調(diào)。然而,與從零開始不同,多模態(tài)大語(yǔ)言模型的訓(xùn)練通常以一個(gè)預(yù)訓(xùn)練過(guò)且已經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型作為基礎(chǔ)模型。

對(duì)于圖像編碼器,通常使用CLIP,并且在整個(gè)訓(xùn)練過(guò)程中往往保持不變,盡管也存在例外,我們稍后會(huì)探討這一點(diǎn)。在預(yù)訓(xùn)練階段,保持大語(yǔ)言模型部分凍結(jié)也是常見(jiàn)的做法,只專注于訓(xùn)練投影器(Projector)——一個(gè)線性層或小型多層感知器。鑒于投影器的學(xué)習(xí)能力有限,通常只包含一兩層,因此在多模態(tài)指令微調(diào)(第二階段)期間,大語(yǔ)言模型通常會(huì)被解凍,以允許進(jìn)行更全面的更新。然而,需要注意的是,在基于交叉注意力機(jī)制的模型(方法B)中,交叉注意力層在整個(gè)訓(xùn)練過(guò)程中都是解凍的。

在介紹了兩種主要方法(方法A:統(tǒng)一嵌入解碼器架構(gòu)和方法B:跨模態(tài)注意力架構(gòu))之后,你可能會(huì)好奇哪種方法更有效。答案取決于具體的權(quán)衡:

統(tǒng)一嵌入解碼器架構(gòu)(方法A)通常更容易實(shí)現(xiàn),因?yàn)樗恍枰獙?duì)LLM架構(gòu)本身進(jìn)行任何修改。

跨模態(tài)注意力架構(gòu)(方法B)通常被認(rèn)為在計(jì)算上更高效,因?yàn)樗粫?huì)通過(guò)額外的圖像分詞(Token)來(lái)過(guò)載輸入上下文,而是在后續(xù)的交叉注意力層中引入這些標(biāo)記。此外,如果在訓(xùn)練過(guò)程中保持大語(yǔ)言模型參數(shù)凍結(jié),這種方法還能保持原始大語(yǔ)言模型的僅文本性能。

下圖總結(jié)了常見(jiàn)多模態(tài)大語(yǔ)言模型使用的組件和技術(shù):

wKgZO2dOtymATdmPAANHQf7jd4Y003.png

三,總結(jié)

“多模態(tài)LLM可以通過(guò)多種不同的方式成功構(gòu)建,核心思路在于把多模態(tài)數(shù)據(jù)編碼為嵌入維度和尺寸一致的向量,使得原始大語(yǔ)言模型可以對(duì)多模態(tài)數(shù)據(jù)“理解并翻譯”。--- 譯者”。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請(qǐng)關(guān)注“算力魔方?”!

?審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    557

    瀏覽量

    10596
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    641
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    文理解模態(tài)語(yǔ)言模型——上

    /understanding-multimodal-llms 在過(guò)去幾個(gè)月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)語(yǔ)言模型的論文和博客,在此基礎(chǔ)上,推薦了
    的頭像 發(fā)表于 12-02 18:29 ?870次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——上

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?863次閱讀
    VisCPM:邁向多<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補(bǔ)全切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言
    的頭像 發(fā)表于 07-16 20:45 ?873次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全<b class='flag-5'>一</b>切」

    中科大&amp;字節(jié)提出UniDoc:統(tǒng)的面向文字場(chǎng)景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫出)、模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1794次閱讀
    中科大&amp;字節(jié)提出UniDoc:統(tǒng)<b class='flag-5'>一</b>的面向文字場(chǎng)景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模態(tài)大型語(yǔ)言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息,往往忽略了可以增強(qiáng)多模態(tài)理解模態(tài)特定知識(shí)。因此,這些研究并沒(méi)有充分認(rèn)識(shí)到
    的頭像 發(fā)表于 09-25 17:26 ?977次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究編輯模態(tài)語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?680次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的可行性

    機(jī)器人基于開源的模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開源的模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作
    發(fā)表于 01-19 11:43 ?551次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>語(yǔ)言</b>視覺(jué)大<b class='flag-5'>模型</b>

    韓國(guó)Kakao宣布開發(fā)模態(tài)語(yǔ)言模型“蜜蜂”

    韓國(guó)互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了種名為“蜜蜂”(Honeybee)的模態(tài)大型語(yǔ)言模型。這種創(chuàng)新
    的頭像 發(fā)表于 01-19 16:11 ?894次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺(jué)+語(yǔ)音打造新
    發(fā)表于 04-18 17:01 ?769次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?907次閱讀

    詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是模態(tài)、生成式 AI 模型,能夠
    的頭像 發(fā)表于 02-12 11:13 ?1177次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ??低暟l(fā)布模態(tài)模型搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?426次閱讀

    商湯“日日新”融合大模型登頂大語(yǔ)言模態(tài)雙榜單

    據(jù)弗若斯特沙利(Frost & Sullivan, 簡(jiǎn)稱“沙利”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言
    的頭像 發(fā)表于 03-18 10:35 ?389次閱讀

    百度發(fā)布心大模型4.5和文心大模型X1

    心大模型4.5是百度自主研發(fā)的新代原生模態(tài)基礎(chǔ)大模型,通過(guò)多個(gè)
    的頭像 發(fā)表于 03-18 16:29 ?318次閱讀

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),
    的頭像 發(fā)表于 04-18 09:30 ?279次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>