一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

邱錫鵬團(tuán)隊(duì)提出SpeechGPT:具有內(nèi)生跨模態(tài)能力的大語(yǔ)言模型

CVer ? 來(lái)源:CVer ? 2023-05-22 10:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

「 SpeechGPT 為打造真正的多模態(tài)大語(yǔ)言模型指明了方向:將不同模態(tài)的數(shù)據(jù)(視覺(jué),語(yǔ)音等)統(tǒng)一表示為離散單元集成在 LLM 之中,在跨模態(tài)數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練和指令微調(diào),來(lái)使得模型具有多模態(tài)理解和生成的能力,從而離 AGI 更進(jìn)一步?!埂?復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授邱錫鵬

057569a0-f816-11ed-90ce-dac502259ad0.png

大型語(yǔ)言模型(LLM)在各種自然語(yǔ)言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí),多模態(tài)大型語(yǔ)言模型,如 GPT-4、PALM-E 和 LLaVA,已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而,當(dāng)前 LLM 與通用人工智能(AGI)之間仍存在顯著差距。首先,大多數(shù)當(dāng)前 LLM 只能感知和理解多模態(tài)內(nèi)容,而不能自然而然地生成多模態(tài)內(nèi)容。其次,像圖像和語(yǔ)音這樣的連續(xù)信號(hào)不能直接適應(yīng)接收離散 token 的 LLM。

當(dāng)前的語(yǔ)音 - 語(yǔ)言(speech-language)模型主要采用級(jí)聯(lián)模式,即 LLM 與自動(dòng)語(yǔ)音識(shí)別(ASR)模型或文本到語(yǔ)音(TTS)模型串聯(lián)連接,或者 LLM 作為控制中心,與多個(gè)語(yǔ)音處理模型集成以涵蓋多個(gè)音頻或語(yǔ)音任務(wù)。一些關(guān)于生成式口語(yǔ)語(yǔ)言模型的先前工作涉及將語(yǔ)音信號(hào)編碼為離散表示,并使用語(yǔ)言模型對(duì)其進(jìn)行建模。

雖然現(xiàn)有的級(jí)聯(lián)方法或口語(yǔ)語(yǔ)言模型能夠感知和生成語(yǔ)音,但仍存在一些限制。首先,在級(jí)聯(lián)模型中,LLM 僅充當(dāng)內(nèi)容生成器。由于語(yǔ)音和文本的表示沒(méi)有對(duì)齊,LLM 的知識(shí)無(wú)法遷移到語(yǔ)音模態(tài)中。其次,級(jí)聯(lián)方法存在失去語(yǔ)音的附加語(yǔ)言信號(hào)(如情感和韻律)的問(wèn)題。第三,現(xiàn)有的口語(yǔ)語(yǔ)言模型只能合成語(yǔ)音,而無(wú)法理解其語(yǔ)義信息,因此無(wú)法實(shí)現(xiàn)真正的跨模態(tài)感知和生成。

在本文中,來(lái)自復(fù)旦大學(xué)的張棟、邱錫鵬等研究者提出了 SpeechGPT,這是一個(gè)具有內(nèi)生跨模態(tài)對(duì)話能力的大型語(yǔ)言模型,能夠感知和生成多模態(tài)內(nèi)容。他們通過(guò)自監(jiān)督訓(xùn)練的語(yǔ)音模型對(duì)語(yǔ)音進(jìn)行離散化處理,以統(tǒng)一語(yǔ)音和文本之間的模態(tài)。然后,他們將離散的語(yǔ)音 token 擴(kuò)展到 LLM 的詞匯表中,從而賦予模型感知和生成語(yǔ)音的內(nèi)生能力。

0598d4a8-f816-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2305.11000.pdf

demo 地址:https://0nutation.github.io/SpeechGPT.github.io/

GitHub 地址:https://github.com/0nutation/SpeechGPT

為了為模型提供處理多模態(tài)指令的能力,研究者構(gòu)建了第一個(gè)語(yǔ)音 - 文本跨模態(tài)指令遵循數(shù)據(jù)集 SpeechInstruct。具體而言,他們將語(yǔ)音離散化為離散單元(discrete unit),并基于現(xiàn)有的 ASR 數(shù)據(jù)集構(gòu)建跨模態(tài)的單元 - 文本(unit-text)對(duì)。同時(shí),他們使用 GPT-4 構(gòu)建了針對(duì)多個(gè)任務(wù)的數(shù)百個(gè)指令,以模擬實(shí)際用戶的指令,具體見(jiàn)附錄 B。此外,為了進(jìn)一步增強(qiáng)模型的跨模態(tài)能力,他們?cè)O(shè)計(jì)了「Chain-of-Modality」指令數(shù)據(jù),即模型接收語(yǔ)音命令,用文本思考過(guò)程,然后以語(yǔ)音形式輸出響應(yīng)。

為了實(shí)現(xiàn)更好的跨模態(tài)遷移和高效的訓(xùn)練,SpeechGPT 經(jīng)歷了三個(gè)階段的訓(xùn)練過(guò)程:模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和 chain-of-modality 指令微調(diào)。第一階段通過(guò)離散語(yǔ)音單元連續(xù)任務(wù)實(shí)現(xiàn)了 SpeechGPT 的語(yǔ)音理解能力。第二階段利用 SpeechInstruct 改進(jìn)了模型的跨模態(tài)能力。第三階段利用參數(shù)高效的 LoRA 微調(diào)進(jìn)行進(jìn)一步的模態(tài)對(duì)齊。

為了評(píng)估 SpeechGPT 的有效性,研究者進(jìn)行了廣泛的人工評(píng)估和案例分析,以評(píng)估 SpeechGPT 在文本任務(wù)、語(yǔ)音 - 文本跨模態(tài)任務(wù)和口語(yǔ)對(duì)話任務(wù)上的性能。結(jié)果表明,SpeechGPT 在單模態(tài)和跨模態(tài)指令遵循任務(wù)以及口語(yǔ)對(duì)話任務(wù)方面展現(xiàn)出強(qiáng)大的能力。

05d3df08-f816-11ed-90ce-dac502259ad0.png

SpeechInstruct

由于公開(kāi)可用的語(yǔ)音數(shù)據(jù)的限制和語(yǔ)音 - 文本任務(wù)的多樣性不足,研究者構(gòu)建了 SpeechInstruct,這是一個(gè)語(yǔ)音 - 文本跨模態(tài)指令遵循數(shù)據(jù)集。該數(shù)據(jù)集分為兩個(gè)部分,第一部分叫做跨模態(tài)指令,第二部分叫做 Chain-of-Modality 指令。SpeechInstruct 的構(gòu)建過(guò)程如圖 2 所示。

0602e05a-f816-11ed-90ce-dac502259ad0.png

SpeechGPT

研究者設(shè)計(jì)了一個(gè)統(tǒng)一的框架,以實(shí)現(xiàn)不同模態(tài)之間的架構(gòu)兼容性。如圖 2 所示,他們的模型有三個(gè)主要組件:離散單元提取器、大型語(yǔ)言模型和單元聲碼器。在這個(gè)架構(gòu)下,LLM 可以感知多模態(tài)輸入并生成多模態(tài)輸出。

離散單元提取器

離散單元提取器利用 Hidden-unit BERT(HuBERT)模型將連續(xù)的語(yǔ)音信號(hào)轉(zhuǎn)換為一系列離散單元的序列。

HuBERT 是一個(gè)自監(jiān)督模型,它通過(guò)對(duì)模型的中間表示應(yīng)用 k-means 聚類(lèi)來(lái)為掩蔽的音頻片段預(yù)測(cè)離散標(biāo)簽進(jìn)行學(xué)習(xí)。它結(jié)合了 1-D 卷積層和一個(gè) Transformer 編碼器,將語(yǔ)音編碼為連續(xù)的中間表示,然后使用 k-means 模型將這些表示轉(zhuǎn)換為一系列聚類(lèi)索引的序列。隨后,相鄰的重復(fù)索引被移除,得到表示為063268de-f816-11ed-90ce-dac502259ad0.png的離散單元序列,K 表示聚類(lèi)總數(shù)。

大型語(yǔ)言模型

研究者采用 Meta AI 的 LLaMA 模型作為他們的大型語(yǔ)言模型。LLaMA 包括一個(gè)嵌入層、多個(gè) Transformer 塊和一個(gè)語(yǔ)言模型頭層。LLaMA 的參數(shù)總數(shù)范圍從 7B 到 65B 不等。通過(guò)使用包含 1.0 萬(wàn)億 token 的大規(guī)模訓(xùn)練數(shù)據(jù)集,LLaMA 在各種自然語(yǔ)言處理基準(zhǔn)測(cè)試中展現(xiàn)出與規(guī)模更大的 175B GPT-3 相當(dāng)?shù)男阅堋?/p>

單元聲碼器

由于 (Polyak et al., 2021) 中單個(gè)說(shuō)話人單元聲碼器的限制,研究者訓(xùn)練了一個(gè)多說(shuō)話人單元的 HiFi-GAN,用于從離散表示中解碼語(yǔ)音信號(hào)。HiFi-GAN 的架構(gòu)包括一個(gè)生成器 G 和多個(gè)判別器 D。生成器使用查找表(Look-Up Tables,LUT)來(lái)嵌入離散表示,并通過(guò)一系列由轉(zhuǎn)置卷積和具有擴(kuò)張層的殘差塊組成的模塊對(duì)嵌入序列進(jìn)行上采樣。說(shuō)話人嵌入被連接到上采樣序列中的每個(gè)幀上。判別器包括一個(gè)多周期判別器(Multi-Period Discriminator,MPD)和一個(gè)多尺度判別器(Multi-Scale Discriminator,MSD),其架構(gòu)與 (Polyak et al., 2021) 相同。

實(shí)驗(yàn)

跨模態(tài)指令遵循

如表 1 所示,當(dāng)提供不同的指令時(shí),模型能夠執(zhí)行相應(yīng)的任務(wù)并根據(jù)這些輸入生成準(zhǔn)確的輸出。

064817b0-f816-11ed-90ce-dac502259ad0.png

口語(yǔ)對(duì)話

表 2 展示了 SpeechGPT 的 10 個(gè)口語(yǔ)對(duì)話案例。對(duì)話表明,在與人類(lèi)的交互中,SpeechGPT 能夠理解語(yǔ)音指令并用語(yǔ)音作出相應(yīng)回應(yīng),同時(shí)遵守「HHH」標(biāo)準(zhǔn)(無(wú)害、有幫助、誠(chéng)實(shí))。

0685cdbc-f816-11ed-90ce-dac502259ad0.png

局限性

盡管 SpeechGPT 展示出令人印象深刻的跨模態(tài)指令遵循和口語(yǔ)對(duì)話能力,但仍存在一些限制:

它不考慮語(yǔ)音中的語(yǔ)音外語(yǔ)言信息,例如無(wú)法以不同的情緒語(yǔ)調(diào)生成回應(yīng);

它在生成基于語(yǔ)音的回應(yīng)之前需要生成基于文本的回應(yīng);

由于上下文長(zhǎng)度的限制,它無(wú)法支持多輪對(duì)話。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模態(tài)
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6355
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10771
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25403

原文標(biāo)題:邱錫鵬團(tuán)隊(duì)提出SpeechGPT:具有內(nèi)生跨模態(tài)能力的大語(yǔ)言模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    的未來(lái)發(fā)展方向進(jìn)行了展望,包括領(lǐng)域、模態(tài)和自動(dòng)提示生成能力方向,為讀者提供了對(duì)未來(lái)技術(shù)發(fā)展的深刻見(jiàn)解。《大語(yǔ)言
    發(fā)表于 04-30 15:35

    簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析

    。聲腔的第一階自由模態(tài)為剛體模態(tài),聲腔內(nèi)各點(diǎn)的聲壓幅值相同;結(jié)構(gòu)自由模態(tài)前6階為6個(gè)自由度的剛體模態(tài)。要注意,在這里我們使用nastran求
    發(fā)表于 07-07 17:15

    可提高模態(tài)行人重識(shí)別算法精度的特征學(xué)習(xí)框架

    化的問(wèn)題,設(shè)計(jì)了模態(tài)間三元組損失及模態(tài)內(nèi)三元組損失,以配合全局三元組損失進(jìn)行模型訓(xùn)練。在改進(jìn)困難三元組損失的基礎(chǔ)上,首次在模態(tài)行人重識(shí)別
    發(fā)表于 05-10 11:06 ?9次下載

    基于預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型模態(tài)Prompt-Tuning

    了各種模態(tài)任務(wù)。 然而,作者注意到模型pre-training和finetune的客觀形式之間存在顯著差距,導(dǎo)致需要大量標(biāo)記數(shù)據(jù)來(lái)刺激 VL-PTMs 對(duì)下游任務(wù)的視覺(jué)基礎(chǔ)能力。 為
    的頭像 發(fā)表于 10-09 15:10 ?3595次閱讀
    基于預(yù)訓(xùn)練視覺(jué)-<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>Prompt-Tuning

    ACL2021的視覺(jué)語(yǔ)言模態(tài)論文之視覺(jué)語(yǔ)言模態(tài)任務(wù)與方法

    來(lái)自:復(fù)旦DISC 引言 本次分享我們將介紹三篇來(lái)自ACL2021的視覺(jué)語(yǔ)言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務(wù)中生成契合用戶意圖的圖像描述、端對(duì)端的視覺(jué)語(yǔ)言預(yù)訓(xùn)練
    的頭像 發(fā)表于 10-13 10:48 ?2767次閱讀
    ACL2021的<b class='flag-5'>跨</b>視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模態(tài)</b>論文之<b class='flag-5'>跨</b>視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模態(tài)</b>任務(wù)與方法

    百圖科AIGP平臺(tái)發(fā)布:提供多種蛋白質(zhì)生成能力,邀伙伴聯(lián)手開(kāi)發(fā)“新物種”

    近日,ChatGPT和文心一言等超大規(guī)模預(yù)訓(xùn)練模型紛紛登場(chǎng),讓我們看到了AI破解人類(lèi)自然語(yǔ)言的力量。 成立兩年多以來(lái),BioMap百圖科一直致力于打造生命科學(xué)領(lǐng)域的AI大模型,構(gòu)建了
    的頭像 發(fā)表于 03-27 17:11 ?1102次閱讀
    百圖<b class='flag-5'>生</b>科AIGP平臺(tái)發(fā)布:提供多種蛋白質(zhì)生成<b class='flag-5'>能力</b>,邀伙伴聯(lián)手開(kāi)發(fā)“新物種”

    利用大語(yǔ)言模型做多模態(tài)任務(wù)

    大型語(yǔ)言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?1424次閱讀
    利用大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>做多<b class='flag-5'>模態(tài)</b>任務(wù)

    團(tuán)隊(duì)提出具有內(nèi)模態(tài)能力SpeechGPT,為多模態(tài)LLM指明方向

    大型語(yǔ)言模型(LLM)在各種自然語(yǔ)言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí),多模態(tài)大型語(yǔ)言
    的頭像 發(fā)表于 05-22 14:38 ?1003次閱讀
    <b class='flag-5'>邱</b><b class='flag-5'>錫</b><b class='flag-5'>鵬</b><b class='flag-5'>團(tuán)隊(duì)</b><b class='flag-5'>提出具有</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>生</b><b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>能力</b>的<b class='flag-5'>SpeechGPT</b>,為多<b class='flag-5'>模態(tài)</b>LLM指明方向

    650億參數(shù),8塊GPU就能全參數(shù)微調(diào)!團(tuán)隊(duì)把大模型門(mén)檻打下來(lái)了!

    在上周復(fù)旦大學(xué)團(tuán)隊(duì)提交的論文《Full Parameter Fine-tuning for Large Language Models with Limited Resource
    的頭像 發(fā)表于 06-21 14:00 ?1231次閱讀
    650億參數(shù),8塊GPU就能全參數(shù)微調(diào)!<b class='flag-5'>邱</b><b class='flag-5'>錫</b><b class='flag-5'>鵬</b><b class='flag-5'>團(tuán)隊(duì)</b>把大<b class='flag-5'>模型</b>門(mén)檻打下來(lái)了!

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),多模態(tài)模型已經(jīng)成為大
    的頭像 發(fā)表于 07-10 10:05 ?978次閱讀
    VisCPM:邁向多<b class='flag-5'>語(yǔ)言</b>多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu多模態(tài)模型開(kāi)源,在多模態(tài)序列中「補(bǔ)全一切」

    熱度。Flamingo 具備強(qiáng)大的多模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語(yǔ)言模型與一個(gè)預(yù)訓(xùn)練視覺(jué)編碼器結(jié)合,并插入可學(xué)習(xí)的層來(lái)捕捉
    的頭像 發(fā)表于 07-16 20:45 ?1015次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開(kāi)源,在多<b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    北大&amp;華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯
    的頭像 發(fā)表于 11-08 16:20 ?1662次閱讀
    北大&amp;華為<b class='flag-5'>提出</b>:多<b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)

    自動(dòng)駕駛和多模態(tài)語(yǔ)言模型的發(fā)展歷程

    模態(tài)語(yǔ)言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過(guò)多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)
    發(fā)表于 12-28 11:45 ?778次閱讀
    自動(dòng)駕駛和多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的發(fā)展歷程

    機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?649次閱讀
    機(jī)器人基于開(kāi)源的多<b class='flag-5'>模態(tài)</b><b class='flag-5'>語(yǔ)言</b>視覺(jué)大<b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?3920次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析