我們知道,GPT、DALL-E 等大規(guī)模生成模型徹底改變了自然語言處理和計(jì)算機(jī)視覺研究。這些模型可以生成高保真文本或圖像,而且它們有個重要特點(diǎn)就是「通才」,可以解決沒訓(xùn)過的任務(wù)。相比之下,語音生成模型在規(guī)模和任務(wù)泛化方面一直沒有「突破性」成果。 今日,Meta 介紹了一種「突破性」的生成式語音系統(tǒng),它可以合成六種語言的語音,執(zhí)行噪聲消除、內(nèi)容編輯、轉(zhuǎn)換音頻風(fēng)格等。Meta 稱之為最通用的語音生成 AI。繼開源 LLaMA 之后,Meta 在生成式 AI 方向又公布一項(xiàng)重大研究。
原文標(biāo)題:語音領(lǐng)域的GPT時刻:Meta 發(fā)布「突破性」生成式語音系統(tǒng),一個通用模型解決多項(xiàng)任務(wù)
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2931文章
46246瀏覽量
392487
原文標(biāo)題:語音領(lǐng)域的GPT時刻:Meta 發(fā)布「突破性」生成式語音系統(tǒng),一個通用模型解決多項(xiàng)任務(wù)
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
EASY EAl Orin Nano(RK3576) whisper語音識別訓(xùn)練部署教程

明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量
智能語音交互方案在客服領(lǐng)域的應(yīng)用
新品發(fā)布|啟英泰倫聯(lián)合啟明云端推出離在線語音大模型方案

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
基于語音識別的智能會議系統(tǒng)具備哪些交互功能
Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑

評論