一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

妥妥媲美真人!火山語(yǔ)音發(fā)布超自然對(duì)話語(yǔ)音合成技術(shù)

話說(shuō)科技 ? 來(lái)源:話說(shuō)科技 ? 作者:話說(shuō)科技 ? 2022-09-16 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,網(wǎng)上就出現(xiàn)了這樣一段由兩位女聲組合而成的音頻片段。在音頻中,兩位女生追憶了自己當(dāng)年第一次聽(tīng)到周杰倫的心情,還對(duì)周董的音樂(lè)風(fēng)格進(jìn)行了解讀,兩人一問(wèn)一答,時(shí)長(zhǎng)長(zhǎng)達(dá)近3分鐘。

可是,當(dāng)大家聽(tīng)著這段音頻節(jié)目,也沉浸在對(duì)那時(shí)青蔥歲月的美好追憶時(shí),你可曾想到,這段對(duì)話,竟然是語(yǔ)音合成的!

提到“語(yǔ)音合成”,你腦海中可能會(huì)出現(xiàn)這樣的種種:

·導(dǎo)航中種類豐富但語(yǔ)氣機(jī)械的“前方路口左轉(zhuǎn)”

·接電話時(shí),對(duì)面笨拙無(wú)感情的“您好,這里是xx信用卡中心

·視頻網(wǎng)站上,十個(gè)解說(shuō)視頻九個(gè)聲音相同,看到就想趕快劃走的“注意看,這個(gè)男人叫小帥”…...

而如今,語(yǔ)音合成技術(shù)竟然已經(jīng)能達(dá)到“天衣無(wú)縫”的完美自然效果,就好像真人在對(duì)話一樣,直接顛覆了許多人的刻板印象。而這段音頻的發(fā)布者火山語(yǔ)音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì),為了更好地向大眾解密里面的技術(shù)亮點(diǎn),又提供了兩段音頻——一段,是傳統(tǒng)的語(yǔ)音合成技術(shù)效果,另一段,卻來(lái)自火山語(yǔ)音的全新技術(shù)。兩段音頻輸入的文本完全相同—— “南方菜系偏愛(ài)蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但聽(tīng)上去,合成的音頻效果卻有明顯差異,第二段來(lái)源于火山語(yǔ)音團(tuán)隊(duì)的音頻,用上了本次上新的超自然對(duì)話語(yǔ)音合成技術(shù),格外自然,幾乎與真人無(wú)異。

回想一下人在日常表達(dá)時(shí)的狀態(tài),大腦處理信息是需要思考時(shí)間的。體現(xiàn)到語(yǔ)言上,人就會(huì)不由自主的出現(xiàn)一些猶豫、拖音、倒裝,甚至是說(shuō)了一半改口、結(jié)巴重復(fù)的情況,也會(huì)刻意加重讀音強(qiáng)調(diào)想表達(dá)的重點(diǎn)信息。這就帶來(lái)了大量難以觀測(cè)的細(xì)微表達(dá)。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細(xì)微之處的完美復(fù)現(xiàn)正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來(lái)說(shuō),火山語(yǔ)音團(tuán)隊(duì)最新發(fā)布的超自然對(duì)話語(yǔ)音合成技術(shù)相較傳統(tǒng)TTS更加真實(shí)自然,即語(yǔ)氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長(zhǎng)等細(xì)節(jié)統(tǒng)統(tǒng)被完美復(fù)現(xiàn),而且只需常規(guī)音庫(kù)1/4數(shù)據(jù),就可完美還原真人說(shuō)話細(xì)微的韻律特點(diǎn)、發(fā)音口癖,讓合成效果更加真實(shí)。有專業(yè)評(píng)測(cè)結(jié)果顯示,火山語(yǔ)音的這項(xiàng)新技術(shù)與真人錄音對(duì)比基本沒(méi)有差距,難以被評(píng)測(cè)者分辨出來(lái)。此外這項(xiàng)技術(shù)目前已在視頻配音、電話客服等多個(gè)場(chǎng)景投入應(yīng)用,近日即將上線火山引擎語(yǔ)音技術(shù)官網(wǎng)對(duì)外露出。

這么厲害的技術(shù),究竟是怎么辦到的?

據(jù)介紹,上述這些在實(shí)際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時(shí)不由自主的拖長(zhǎng)字音、低笑等表現(xiàn)被稱為副語(yǔ)言現(xiàn)象(paralanguage),盡管這是人腦思考、表達(dá)過(guò)程中最真實(shí)的表現(xiàn),但由于傳統(tǒng)的語(yǔ)音合成技術(shù)框架無(wú)法對(duì)分布稀疏的副語(yǔ)言現(xiàn)象進(jìn)行有效建模,所以在說(shuō)話時(shí)的韻律還原度表現(xiàn)有限、過(guò)于“正確”。

基于上述難點(diǎn),火山語(yǔ)音超自然語(yǔ)音合成技術(shù)分別從文本和語(yǔ)音建模兩個(gè)層面進(jìn)行突破,具體來(lái)說(shuō):

·在文本層面,火山語(yǔ)音采用了生成式的風(fēng)格遷移模型,模仿真人說(shuō)話的方式對(duì)文本進(jìn)行可控的口語(yǔ)化轉(zhuǎn)寫,讓文本更好地?fù)肀Э谡Z(yǔ)化,避免最終效果太過(guò)書面。

·在語(yǔ)音層面,團(tuán)隊(duì)則是通過(guò)文本分析模型的突破,在TTS的輸入側(cè)額外增加了副語(yǔ)言預(yù)測(cè),模仿真人的發(fā)音特點(diǎn)來(lái)實(shí)現(xiàn)自然自發(fā)的語(yǔ)音效果。

值得一提的是,團(tuán)隊(duì)通過(guò)使用無(wú)監(jiān)督特征的TTS建模方案,有效提高了模型的穩(wěn)定性與表現(xiàn)力,僅僅使用常規(guī)音庫(kù)1/4的數(shù)據(jù)規(guī)模,就可以實(shí)現(xiàn)十分自然多變的韻律效果,很贊吧?

article-body

致力文本口語(yǔ)化 讓“擬真人表達(dá)”躍然紙上

文本作為語(yǔ)音合成技術(shù)的輸入,其風(fēng)格是否貼近真人的表達(dá)方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語(yǔ)習(xí)慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調(diào)整,費(fèi)時(shí)費(fèi)力。為了解決此類問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)采用了兩階段方案并取得了不錯(cuò)的效果:

·階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對(duì)口語(yǔ)化模型進(jìn)行預(yù)訓(xùn)練,降低了數(shù)據(jù)量的需求;同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了文本可控性。

·階段二:利用少量?jī)?yōu)質(zhì)的人工標(biāo)注數(shù)據(jù),對(duì)預(yù)訓(xùn)練好的口語(yǔ)化模型進(jìn)行微調(diào),最終實(shí)現(xiàn)可控的、自然的口語(yǔ)化文本效果。

article-body

為了更好地還原真人,區(qū)別于傳統(tǒng)的語(yǔ)音合成技術(shù),火山語(yǔ)音在副語(yǔ)言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語(yǔ)言建模方面,團(tuán)隊(duì)推出的合成技術(shù)實(shí)現(xiàn)了聲學(xué)模型對(duì)自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語(yǔ)言現(xiàn)象建模,并且結(jié)合文本的語(yǔ)義信息自動(dòng)插入副語(yǔ)言現(xiàn)象。在插入過(guò)程中同時(shí)考慮合理性與隨機(jī)性,表現(xiàn)更加自然真實(shí)。

副語(yǔ)言建模+韻律多樣性可圈可點(diǎn) 語(yǔ)音真實(shí)感全面升級(jí)

“在韻律多樣化的探究中,我們結(jié)合無(wú)監(jiān)督表征學(xué)習(xí)技術(shù),自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架,通過(guò)發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實(shí)現(xiàn)對(duì)出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時(shí)使用無(wú)監(jiān)督表征特征并結(jié)合音素級(jí)別的基頻、能量信息等,實(shí)現(xiàn)了韻律的自然多變,促成高質(zhì)量對(duì)話語(yǔ)音生成?!被鹕秸Z(yǔ)音團(tuán)隊(duì)總結(jié)道。

article-body

火山語(yǔ)音,字節(jié)跳動(dòng)AI Lab Speech&Audio智能語(yǔ)音與音頻團(tuán)隊(duì),長(zhǎng)期以來(lái)面向抖音、剪映、番茄小說(shuō)、飛書等業(yè)務(wù)提供領(lǐng)先的AI語(yǔ)音技術(shù)能力及全棧語(yǔ)音產(chǎn)品解決方案,并通過(guò)火山引擎向外部企業(yè)開(kāi)放技術(shù)服務(wù)。(作者:張揚(yáng))

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Air8000 TTS開(kāi)源,語(yǔ)音合成從此“零距離”!

    技術(shù)不應(yīng)有圍墻,創(chuàng)新需要共生長(zhǎng)。Air8000宣布TTS應(yīng)用源代碼全面開(kāi)放,開(kāi)發(fā)者可自由定制語(yǔ)音風(fēng)格、優(yōu)化合成效果,讓文字與聲音的對(duì)話,不再受限于黑箱算法。 TTS (Text-to-
    的頭像 發(fā)表于 07-03 16:33 ?190次閱讀
    Air8000 TTS開(kāi)源,<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>從此“零距離”!

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    ,提高語(yǔ)音識(shí)別的準(zhǔn)確率;同時(shí)也可連接高質(zhì)量的揚(yáng)聲器,確保語(yǔ)音合成后的聲音清晰、自然。TF卡接口能夠存儲(chǔ)大量的語(yǔ)音數(shù)據(jù)、
    發(fā)表于 05-28 11:36

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)集

    大模型充分學(xué)習(xí)到語(yǔ)音的發(fā)音規(guī)律、語(yǔ)義特征、語(yǔ)境等信息,從而提升語(yǔ)音識(shí)別、語(yǔ)音合成等關(guān)鍵能力,提供更加準(zhǔn)確、自然、智能的
    的頭像 發(fā)表于 04-30 16:17 ?265次閱讀

    智能收銀語(yǔ)音交互新標(biāo)桿—WT3000T8語(yǔ)音合成芯片TTS技術(shù)應(yīng)用解析

    一、行業(yè)應(yīng)用背景在零售業(yè)態(tài)智能化轉(zhuǎn)型的浪潮中,收銀設(shè)備正經(jīng)歷從功能型向服務(wù)型轉(zhuǎn)變的關(guān)鍵階段。WT3000T8語(yǔ)音合成芯片應(yīng)運(yùn)而生,專為滿足新零售場(chǎng)景下智能收銀終端的語(yǔ)音交互需求而設(shè)計(jì)。該芯片通過(guò)創(chuàng)新
    的頭像 發(fā)表于 04-24 08:45 ?268次閱讀
    智能收銀<b class='flag-5'>語(yǔ)音</b>交互新標(biāo)桿—WT3000T8<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片TTS<b class='flag-5'>技術(shù)</b>應(yīng)用解析

    話語(yǔ)音配線架怎么接線

    話語(yǔ)音配線架的接線方法主要根據(jù)線纜類型、配線架規(guī)格及具體應(yīng)用場(chǎng)景選擇直接連接、跳線連接等方式,并需遵循色譜線序規(guī)范進(jìn)行打線操作。以下為具體步驟: 一、接線前的準(zhǔn)備工作 工具與材料準(zhǔn)備 工具:剝線鉗
    的頭像 發(fā)表于 04-10 10:36 ?712次閱讀

    【CW32模塊使用】語(yǔ)音合成播報(bào)模塊

    SYN6288E 中文語(yǔ)音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價(jià)比更高的 SYN6288 芯片的基礎(chǔ)上更改封裝方式的,效果更自然的一款中高端語(yǔ)音
    的頭像 發(fā)表于 03-29 17:25 ?635次閱讀
    【CW32模塊使用】<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>播報(bào)模塊

    芯資訊|WT3000T8語(yǔ)音合成芯片:高性價(jià)比語(yǔ)音交互解決方案

    在智能終端設(shè)備快速普及的當(dāng)下,語(yǔ)音交互已成為提升用戶體驗(yàn)的關(guān)鍵功能。廣州唯創(chuàng)電子推出的WT3000T8語(yǔ)音合成芯片,憑借其卓越的語(yǔ)音處理能力、靈活的控制模式及超低功耗設(shè)計(jì),成為工業(yè)控制
    的頭像 發(fā)表于 03-24 09:05 ?424次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片:高性價(jià)比<b class='flag-5'>語(yǔ)音</b>交互解決方案

    聆思CSK6大模型語(yǔ)音開(kāi)發(fā)板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動(dòng)華為昇騰滿血版)

    調(diào)用DeepSeek節(jié)點(diǎn),最終將大模型輸出的結(jié)果進(jìn)行語(yǔ)音合成實(shí)現(xiàn)端側(cè)播報(bào) 下載工程模板導(dǎo)入,配置參數(shù)后綁定開(kāi)發(fā)板ID即可。 關(guān)鍵參數(shù)說(shuō)明(以火山引擎版為例): HOST
    發(fā)表于 03-06 17:02

    基于W2605C語(yǔ)音識(shí)別合成芯片的智能語(yǔ)音交互鬧鐘方案-AI對(duì)話享受智能生活

    隨著科技的飛速發(fā)展,智能家居產(chǎn)品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時(shí)間管理的得力助手,也在不斷進(jìn)化?;赪2605C語(yǔ)音識(shí)別與語(yǔ)音合成芯片的智能語(yǔ)音交互鬧鐘,憑借其強(qiáng)大的聯(lián)
    的頭像 發(fā)表于 12-31 11:54 ?871次閱讀

    基于智能語(yǔ)音交互的智能呼叫中心工作機(jī)制

    作為實(shí)現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語(yǔ)音交互技術(shù),它通過(guò)集成自然語(yǔ)言處理(NLP)、語(yǔ)音識(shí)別(ASR)和
    的頭像 發(fā)表于 12-03 16:44 ?702次閱讀
    基于智能<b class='flag-5'>語(yǔ)音</b>交互的智能呼叫中心工作機(jī)制

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類的
    的頭像 發(fā)表于 11-26 09:21 ?1490次閱讀

    九芯語(yǔ)音合成芯片NVH-FLASH,看這一篇足矣!

    前言什么是語(yǔ)音合成芯片:簡(jiǎn)而言之,就是將文字信息轉(zhuǎn)化為語(yǔ)音信號(hào)輸出的電子器件。它能夠?qū)⒋鎯?chǔ)或接收到的文字內(nèi)容,通過(guò)內(nèi)部復(fù)雜的算法處理,轉(zhuǎn)換成自然流暢的
    的頭像 發(fā)表于 11-21 01:01 ?625次閱讀
    九芯<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片NVH-FLASH,看這一篇足矣!

    OpenAI發(fā)布ChatGPT高級(jí)語(yǔ)音版,付費(fèi)訂閱并設(shè)對(duì)話時(shí)長(zhǎng)限制

    ChatGPT已邁入語(yǔ)音交互的新紀(jì)元,為付費(fèi)用戶解鎖了高級(jí)語(yǔ)音功能,旨在讓對(duì)話體驗(yàn)更加自然流暢。OpenAI在本周二宣布了這一消息,標(biāo)志著其持續(xù)推動(dòng)
    的頭像 發(fā)表于 09-27 15:34 ?3090次閱讀

    字節(jié)跳動(dòng)豆包大模型已支持實(shí)時(shí)語(yǔ)音通話

    字節(jié)跳動(dòng)火山引擎今日隆重推出創(chuàng)新對(duì)話式AI實(shí)時(shí)交互解決方案,該方案以火山方舟大模型服務(wù)平臺(tái)為核心,全面升級(jí)語(yǔ)音交互體驗(yàn)。該方案深度融合火山
    的頭像 發(fā)表于 08-12 16:13 ?1192次閱讀

    OpenAI提前解鎖GPT-4o語(yǔ)音模式,引領(lǐng)對(duì)話新紀(jì)元

    OpenAI近日宣布了一項(xiàng)令人振奮的消息:即日起,部分ChatGPT Plus用戶將率先體驗(yàn)到GPT-4o的語(yǔ)音模式,這一創(chuàng)新功能標(biāo)志著自然語(yǔ)言處理與人工智能交互技術(shù)邁出了重要一步。GPT-4o的高級(jí)
    的頭像 發(fā)表于 08-01 18:24 ?1495次閱讀