一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文理解多模態(tài)大語(yǔ)言模型——上

jf_23871869 ? 來(lái)源:Sebastian Raschka 博士 ? 作者:Sebastian Raschka 博士 ? 2024-12-02 18:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Sebastian Raschka 博士,

翻譯:張晶,Linux Fundation APAC Open Source Evangelist

編者按:本文并不是逐字逐句翻譯,而是以更有利于中文讀者理解的目標(biāo),做了刪減、重構(gòu)和意譯,并替換了多張不適合中文讀者的示意圖。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

在過(guò)去幾個(gè)月中,OpenVINO?架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語(yǔ)言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀多模態(tài)大語(yǔ)言模型的最佳文章《Understand Multimodal LLMs》--- 能讓讀者很好的理解大語(yǔ)言模型(LLMs)是如何演進(jìn)為視覺(jué)語(yǔ)言模型(VLMs)的。

wKgaoWdD-e-ATu-MAAG9WSDq_VU336.png

閱讀本文之前,可以先在自己的電腦上運(yùn)行當(dāng)前最新的視覺(jué)大語(yǔ)言模型Llama 3.2 Vision模型,感受一下視覺(jué)語(yǔ)言模型能干什么!

一,什么是多模態(tài)大語(yǔ)言模型

多模態(tài)大語(yǔ)言模型是能夠處理多種“模態(tài)”類(lèi)型輸入的大語(yǔ)言模型,其中每個(gè)“模態(tài)”指的是特定類(lèi)型的數(shù)據(jù),例如:文本、聲音、圖像、視頻等,處理結(jié)果以文本類(lèi)型輸出。

wKgZoWdD-fCAVnxiAADAr_jptRk907.png


多模態(tài)大語(yǔ)言模型的一個(gè)經(jīng)典而直觀的應(yīng)用是解讀圖片:輸入圖像和提示詞,模型生成該圖像的描述(文本),如下圖所示。

wKgaoWdD-fCAUDWaAAXMMpv5kdk153.png

當(dāng)然,還有許多其他應(yīng)用,例如:從圖片中提取信息并將其轉(zhuǎn)換為 LaTeX 或 Markdown。

wKgZoWdD-fCAXDNIAAKgO2sq_As332.png

二,構(gòu)建多模態(tài)大語(yǔ)言模型的常見(jiàn)方式

構(gòu)建多模態(tài) LLM 有兩種主要方式:

方法 A:統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture);

方法 B:跨模態(tài)注意架構(gòu)(Cross-modality Attention Architecture approach)。

(順便說(shuō)一句,Sebastian認(rèn)為這些技術(shù)目前還沒(méi)有正式的術(shù)語(yǔ),但如果您遇到過(guò),請(qǐng)告訴他。例如,更簡(jiǎn)短的描述可能是“僅解碼器(Decoder-Only)”和“基于交叉注意(Cross-Attention-Based)”)

wKgaoWdD-fGAbaF5AAOi-7emHU0404.png

如上圖所示,統(tǒng)一嵌入解碼器架構(gòu)使用單個(gè)解碼器模型,與僅解碼器(Decoder-Only)的 LLM 架構(gòu)(如 GPT-2 或 Llama 3.2)非常相似。在這種方法中,圖像被轉(zhuǎn)換為與原始文本分詞(本文將大語(yǔ)言模型語(yǔ)境下的Token,統(tǒng)一翻譯為分詞)具有相同嵌入大小的分詞,從而允許 LLM 在連接后同時(shí)處理文本和圖像輸入分詞。

跨模態(tài)注意架構(gòu)采用交叉注意機(jī)制,將圖像和文本嵌入直接集成到注意層中。

三,統(tǒng)一嵌入解碼器架構(gòu)

統(tǒng)一嵌入解碼器架構(gòu)是一種將圖像向量和文本向量組合成嵌入向量后輸入給大語(yǔ)言模型的架構(gòu),其優(yōu)點(diǎn)是:無(wú)需修改原有的大語(yǔ)言模型架構(gòu)。

在統(tǒng)一嵌入解碼器架構(gòu)中,圖像跟文本一樣,先被轉(zhuǎn)換為分詞(Token),然后被轉(zhuǎn)換為嵌入向量,最后跟文本嵌入向量一起,送入原來(lái)的大語(yǔ)言模型進(jìn)行訓(xùn)練或推理。

wKgZoWdD-fGAIEbvAADhxhNqEIo722.png

1,文本向量化

自然語(yǔ)言本文在輸入大語(yǔ)言模型前,會(huì)先經(jīng)過(guò)分詞器(Tokenizer)變成分詞,然后經(jīng)過(guò)嵌入層變成向量。

wKgaoWdD-fGAZhxRAACKqjT-4OE599.png

自然語(yǔ)言是非常高維的數(shù)據(jù),因?yàn)槊總€(gè)可能的單詞都被視為一個(gè)特征。通過(guò)分詞化,可以將文本映射到一個(gè)固定大小的向量空間中(例如,GPT2模型用的分詞器算法是BPE,詞匯表大小是50,257),這有助于減少數(shù)據(jù)的維度,使得模型訓(xùn)練更加高效。

分詞數(shù)據(jù)經(jīng)過(guò)嵌入層(Embedding Layer)轉(zhuǎn)換成向量數(shù)據(jù)后,方便模型進(jìn)行特征提取、捕捉豐富的語(yǔ)義信息和上下文關(guān)系,并提高模型的性能和計(jì)算效率。

將自然語(yǔ)言文本分詞化和向量化已經(jīng)成為T(mén)ransformer架構(gòu)模型的標(biāo)準(zhǔn)數(shù)據(jù)預(yù)處理步驟。

2,圖像向量化

類(lèi)似于文本的分詞化和向量化,圖像的向量化是通過(guò)圖像編碼器模塊(而不是分詞器)實(shí)現(xiàn)的。原始圖像首先會(huì)被分割成更小的塊(patches),這與分詞器(Tokenizer)將自然語(yǔ)言的單詞(Word)拆成分詞(Token)類(lèi)似。

隨后,圖像編碼器會(huì)把這些塊由線性投影(Linear Projection)模塊和預(yù)訓(xùn)練視覺(jué)轉(zhuǎn)換器(Vision Transformer)進(jìn)行編碼,最終轉(zhuǎn)換成向量,其大小與文本向量相同。

wKgZO2dNjCKASw6FAAG_4qeOP7g896.png

上圖中的“線性投影”由一個(gè)單一的線性層(即全連接層)組成,這個(gè)層的目的是將被展平為向量的圖像塊投影到與變換器編碼器兼容的嵌入尺寸。

當(dāng)前普遍使用的視覺(jué)變換器是CLIP或OpenCLIP等,負(fù)責(zé)把展平的圖像塊變換為圖像向量。由于圖像塊向量具有與文本分詞向量相同的向量維度,我們可以簡(jiǎn)單地將它們串聯(lián)起來(lái)作為大語(yǔ)言模型的輸入,如本節(jié)開(kāi)頭的圖片所示。

到此,統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture)介紹完畢。

下一篇文章,我們將繼續(xù)介紹:跨模態(tài)注意架構(gòu)(Cross-modality Attention Architecture approach)。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請(qǐng)關(guān)注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10789
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何利用LLM做模態(tài)任務(wù)?

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開(kāi)放
    的頭像 發(fā)表于 05-11 17:09 ?1241次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)?

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?1000次閱讀
    VisCPM:邁向多<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開(kāi)源,在模態(tài)序列中「補(bǔ)全切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言
    的頭像 發(fā)表于 07-16 20:45 ?1024次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開(kāi)源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全<b class='flag-5'>一</b>切」

    中科大&amp;字節(jié)提出UniDoc:統(tǒng)的面向文字場(chǎng)景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1928次閱讀
    中科大&amp;字節(jié)提出UniDoc:統(tǒng)<b class='flag-5'>一</b>的面向文字場(chǎng)景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模態(tài)大型語(yǔ)言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息,往往忽略了可以增強(qiáng)多模態(tài)理解模態(tài)特定知識(shí)。因此,這些研究并沒(méi)有充分認(rèn)識(shí)到
    的頭像 發(fā)表于 09-25 17:26 ?1116次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究編輯模態(tài)語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?768次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的可行性

    機(jī)器人基于開(kāi)源的模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開(kāi)源的模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作
    發(fā)表于 01-19 11:43 ?660次閱讀
    機(jī)器人基于開(kāi)源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>語(yǔ)言</b>視覺(jué)大<b class='flag-5'>模型</b>

    韓國(guó)Kakao宣布開(kāi)發(fā)模態(tài)語(yǔ)言模型“蜜蜂”

    韓國(guó)互聯(lián)網(wǎng)巨頭Kakao最近宣布開(kāi)發(fā)了種名為“蜜蜂”(Honeybee)的模態(tài)大型語(yǔ)言模型。這種創(chuàng)新
    的頭像 發(fā)表于 01-19 16:11 ?1013次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?1255次閱讀

    文理解模態(tài)語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《文理解模態(tài)語(yǔ)言模型 -
    的頭像 發(fā)表于 12-03 15:18 ?591次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——下

    詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是模態(tài)、生成式 AI 模型,能夠
    的頭像 發(fā)表于 02-12 11:13 ?1760次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    海康威視發(fā)布模態(tài)模型搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?684次閱讀

    商湯“日日新”融合大模型登頂大語(yǔ)言模態(tài)雙榜單

    據(jù)弗若斯特沙利(Frost & Sullivan, 簡(jiǎn)稱(chēng)“沙利”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言
    的頭像 發(fā)表于 03-18 10:35 ?581次閱讀

    百度發(fā)布心大模型4.5和文心大模型X1

    心大模型4.5是百度自主研發(fā)的新代原生模態(tài)基礎(chǔ)大模型,通過(guò)多個(gè)
    的頭像 發(fā)表于 03-18 16:29 ?477次閱讀

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類(lèi)樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),
    的頭像 發(fā)表于 04-18 09:30 ?1479次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>