一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百度研究院推出了他們有關(guān)TTS的成果——ClariNet

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-26 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音合成,也被稱(chēng)作TTS(text-to-speech),該技術(shù)的應(yīng)用目前已十分廣泛了,例如智能家居設(shè)備和智能助手等,論智也曾報(bào)道過(guò)很多相關(guān)研究項(xiàng)目。

百度研究者利用少量樣本實(shí)現(xiàn)語(yǔ)音克隆

谷歌發(fā)布新語(yǔ)音合成模型Tacotron 2:這竟是機(jī)器說(shuō)的話?

谷歌大腦發(fā)力語(yǔ)音搜索:一個(gè)用于語(yǔ)音識(shí)別的端到端模型

近日,百度研究院推出了他們有關(guān)TTS的成果——ClariNet,成為百度在TTS研究上的又一里程碑。此前基于神經(jīng)內(nèi)網(wǎng)絡(luò)的TTS模型是將優(yōu)化的文本到聲譜圖和波形合成模型分開(kāi)來(lái)的,這可能會(huì)導(dǎo)致不理想的表現(xiàn)。而ClariNet第一次做到了用完全的端到端TTS模型,直接將文本轉(zhuǎn)換成波形圖,并且只需要一個(gè)神經(jīng)網(wǎng)絡(luò)即可。它的全卷積結(jié)構(gòu)能夠從零開(kāi)始快速地訓(xùn)練。ClariNet在語(yǔ)音的自然度方面成功地超越了其他方法。以下是論智對(duì)這篇論文的編譯。

論文摘要

WaveNet是DeepMind去年推出的基于深度學(xué)習(xí)的語(yǔ)音生成模型,它可以生成平行的語(yǔ)音波形,即整個(gè)句子中所有的詞語(yǔ)都可以同時(shí)生成對(duì)應(yīng)的波形。現(xiàn)在,我們提出了一種替代WaveNet的方法,我們從自回歸的WaveNet中提取一個(gè)高斯逆自回歸流(Gaussian Inverse autoregressive flow),并且以閉合形式計(jì)算KL散度,簡(jiǎn)化了訓(xùn)練算法并且提供了非常高效的蒸餾過(guò)程。除此之外,我們還提出了首個(gè)針對(duì)語(yǔ)音合成的文本到波形的神經(jīng)架構(gòu)(text-to-wave),這是全卷積的,并且可以快速地從零開(kāi)始進(jìn)行端到端訓(xùn)練。除此之外,我們還成功地在模型的隱藏表示中創(chuàng)建了并行波形生成器。

并行波形生成

在模型中,我們用高斯自回歸WaveNet作為“老師網(wǎng)絡(luò)”,將高斯逆自回歸流作為“學(xué)生網(wǎng)絡(luò)”。2018年,Oord等人提出了概率密度蒸餾法來(lái)降低逆自回歸流(IAF)的最大可能學(xué)習(xí)中的難度。蒸餾過(guò)程中,學(xué)生網(wǎng)絡(luò)IAF試著將它自己的樣本分布與在自回歸的WaveNet中訓(xùn)練的樣本相匹配。然而,學(xué)生網(wǎng)絡(luò)IAF的輸出邏輯分布和教師網(wǎng)絡(luò)WaveNet的輸出之間的KL散度是不相容的,必須使用蒙特卡羅方法進(jìn)行大概計(jì)算。而最終并行的WaveNet需要在蒸餾過(guò)程中進(jìn)行雙次采樣:首先要將白噪聲輸入到學(xué)生網(wǎng)絡(luò)中,然后從學(xué)生網(wǎng)絡(luò)的輸出分布中選擇多個(gè)不同樣本對(duì)KL散度進(jìn)行估計(jì)。

但是在我們的模型中,加入了高斯設(shè)置,密度蒸餾方法只需要一個(gè)白噪聲樣本,然后將其輸入封閉的KL散度計(jì)算中。我們的學(xué)生IAF網(wǎng)絡(luò)在蒸餾過(guò)程中和老師WaveNet使用同一個(gè)條件網(wǎng)絡(luò)(2D卷積層)。

Text-to-Wave架構(gòu)

我們的卷積text-to-wave架構(gòu)如下圖所示:

它是基于另一個(gè)基于注意力的卷積TTS模型——Deep Voice 3創(chuàng)建的。Deep Voice 3能夠?qū)⑽谋咎卣鳎ɡ缱址?、音素、?qiáng)調(diào)等)轉(zhuǎn)換成波譜特征(例如log-mel聲譜和log-linear聲譜)。這些波普特征可以輸入到訓(xùn)練波形合成的模型中,例如WaveNet。相反,我們直接將從注意力機(jī)制中學(xué)習(xí)到的隱藏表示輸入到神經(jīng)語(yǔ)音編碼器中,用端到端的方式從零訓(xùn)練整個(gè)模型。

我們所提出的架構(gòu)包含四個(gè)部分:

編碼器:一個(gè)和Deep Voice 3相同的編碼器,它可以將文本特征編寫(xiě)進(jìn)內(nèi)部的隱藏表示。

解碼器:同樣和Deep Voice 3相同,可以用自回歸的方式將編碼器中的內(nèi)容加碼城log-mel聲譜。

Bridge-net:這是一個(gè)卷積中間處理模塊,它可以從解碼器中處理隱藏表示,并且預(yù)測(cè)log-linear聲譜。與解碼器不同的是,它并非是因果聯(lián)系的,并且可以使用未來(lái)的語(yǔ)境。另外,它還可以從框架層到采樣層對(duì)隱藏表示進(jìn)行上采樣。

語(yǔ)音編碼器:高斯自回歸WaveNet可以合成波形,但是只能在上采樣后的隱藏表示中實(shí)現(xiàn)。而它可以由自回歸語(yǔ)音編碼器的學(xué)生IAF網(wǎng)絡(luò)替換。

實(shí)驗(yàn)過(guò)程

我們進(jìn)行了幾組實(shí)驗(yàn)來(lái)評(píng)估所提出的并行波形生成方法和text-to-wave結(jié)構(gòu)。我們用了20個(gè)小時(shí)的英文演講作為訓(xùn)練數(shù)據(jù),下采樣后音頻變?yōu)?4kHz。

首先我們測(cè)試了生成語(yǔ)音的自然程度,用MOS分?jǐn)?shù)表示:

結(jié)果表示,高斯自回歸WaveNet和MoGul以及softmax輸出水平相當(dāng),比MoL要好。

接著我們將一個(gè)60層的并行學(xué)生網(wǎng)絡(luò)從20層的高斯自回歸WaveNet中進(jìn)行蒸餾,它包括6個(gè)堆疊的高斯逆自回歸流,每個(gè)流都由一個(gè)10層的WaveNet進(jìn)行參數(shù)化。我們測(cè)試了前向和逆向KL散度,結(jié)果如下:

兩種蒸餾方法都得到了不錯(cuò)的分?jǐn)?shù),我們希望未來(lái)加入感知和對(duì)比損失后會(huì)進(jìn)一步提升。

最后我們從零訓(xùn)練了text-to-wave模型,并將其與Deep Voice 3中的同類(lèi)模型相比,結(jié)果如下:

該分?jǐn)?shù)表明text-to-wave模型明顯比其他模型表現(xiàn)得好,并且有經(jīng)過(guò)蒸餾的語(yǔ)音編碼器的模型呢自回歸神經(jīng)編碼器的表現(xiàn)水平相當(dāng)。

結(jié)語(yǔ)

百度在語(yǔ)音合成方面的確做出了許多努力,今年三月,他們還推出了神經(jīng)語(yǔ)音克隆系統(tǒng),只需輸入少量樣本就能合成逼真語(yǔ)音。而今天的ClariNet是語(yǔ)音合成的又一里程碑,是該領(lǐng)域第一個(gè)真正的端到端模型,在GPU上取得了更高質(zhì)量的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3793

    瀏覽量

    137953
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2333

    瀏覽量

    92172
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122765

原文標(biāo)題:語(yǔ)音合成的里程碑:百度推出首個(gè)完全端到端的TTS模型

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中馬研究院正式掛牌成立

    `  12月30日下午,中馬研究院于園區(qū)正式掛牌成立,園區(qū)管委會(huì)副主任楊健豪、主任助理曹全來(lái)出席并為研究院揭牌,園區(qū)管委會(huì)經(jīng)濟(jì)發(fā)展局全體成員見(jiàn)證揭牌?! ≈旭R研究院旨在打造“立足中馬、面向東盟的新型
    發(fā)表于 01-07 16:02

    百度深度學(xué)習(xí)研究院科學(xué)家深度講解人工智能

    的研發(fā)經(jīng)驗(yàn)。在過(guò)去的工作中,他發(fā)表過(guò)論文十余篇,申請(qǐng)中國(guó)專(zhuān)利超過(guò)100項(xiàng),其中已經(jīng)授權(quán)的有95項(xiàng)。他曾任職百度深度學(xué)習(xí)研究院,負(fù)責(zé)人臉識(shí)別方向,曾經(jīng)多次帶領(lǐng)團(tuán)隊(duì)在主流的人臉檢測(cè)、人臉識(shí)別競(jìng)賽上取得
    發(fā)表于 07-19 10:01

    百度深度學(xué)習(xí)研究院科學(xué)家分享:機(jī)器視覺(jué)開(kāi)發(fā)實(shí)戰(zhàn)經(jīng)驗(yàn)

    其實(shí)就是計(jì)算機(jī)科學(xué)的一個(gè)分支,將來(lái)也是會(huì)成為人類(lèi)社會(huì)基礎(chǔ)設(shè)施的一部分?,F(xiàn)在我們邀請(qǐng)來(lái)百度深度學(xué)習(xí)研究院科學(xué)家,為大家分享人工智能視覺(jué)開(kāi)發(fā)的經(jīng)驗(yàn)。點(diǎn)擊報(bào)名直播觀看:http
    發(fā)表于 07-20 11:06

    延遲和指令呈現(xiàn)百度人工智能交互設(shè)計(jì)的最新研究

    有屏智能設(shè)備的多維對(duì)話:延遲和指令呈現(xiàn)百度人工智能交互設(shè)計(jì)最新研究
    發(fā)表于 05-25 09:46

    王勁為何離開(kāi)百度_百度的巨變真的和空降的陸奇有關(guān)?

    和E-Loan等。2000年,王勁回到中國(guó),歷任阿里巴巴資深技術(shù)總監(jiān)、EBay中國(guó)CTO,EBay中國(guó)研發(fā)中心總經(jīng)理、谷歌中國(guó)工程研究院副院長(zhǎng)。2010年4月15日,王勁加入百度,任百度技術(shù)副總裁,2013年12月晉升為
    發(fā)表于 12-24 14:22 ?1443次閱讀

    百度最新AI算法就能克隆任何人的聲音!只需 3.7 秒!

    Deep Voice是百度AI研究院一個(gè)由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語(yǔ)音轉(zhuǎn)(TTS )系統(tǒng)。該系統(tǒng)不僅提高的模擬的時(shí)間,百度還優(yōu)化了它出錯(cuò)的概率。甚至還在一個(gè)單GPU服務(wù)器上,把推斷規(guī)模
    的頭像 發(fā)表于 04-02 10:55 ?1.5w次閱讀

    百度推出NCRF算法,癌癥轉(zhuǎn)移檢測(cè)準(zhǔn)確率喜人

    昨天,百度研究院宣布他們開(kāi)發(fā)了一種深度學(xué)習(xí)算法,在檢測(cè)乳腺癌的微轉(zhuǎn)移方面超過(guò)了人類(lèi)病理學(xué)醫(yī)生的表現(xiàn)。
    的頭像 發(fā)表于 06-26 15:25 ?6152次閱讀

    百度深度學(xué)習(xí)研究院科學(xué)家分享:機(jī)器視覺(jué)開(kāi)發(fā)實(shí)戰(zhàn)!

    具有16年的計(jì)算機(jī)視覺(jué)和人工智能方向的研發(fā)經(jīng)驗(yàn),在過(guò)去的工作中,他發(fā)表過(guò)論文十余篇,申請(qǐng)中國(guó)專(zhuān)利超過(guò)100項(xiàng),其中已經(jīng)授權(quán)的有95項(xiàng)。他曾任職百度深度學(xué)習(xí)研究院,負(fù)責(zé)人臉識(shí)別方向,曾經(jīng)多次帶領(lǐng)團(tuán)隊(duì)在主流的人臉檢測(cè)、
    的頭像 發(fā)表于 07-19 15:43 ?336次閱讀

    百度研究院召開(kāi)大會(huì) 發(fā)現(xiàn)了窺視人工智能的新視角

    10個(gè)月前,百度研究院在硅谷召開(kāi)了一場(chǎng)全員大會(huì),院長(zhǎng)王海峰宣布了兩個(gè)新動(dòng)態(tài),一是設(shè)立商業(yè)智能實(shí)驗(yàn)室和機(jī)器人與自動(dòng)駕駛實(shí)驗(yàn)室,二是Kenneth Ward Church、浣軍、熊輝三位世界級(jí)人工智能領(lǐng)域的科學(xué)家加盟百度
    發(fā)表于 11-15 10:47 ?2195次閱讀

    百度研究院迎來(lái)9位世界級(jí)AI科學(xué)家,深遠(yuǎn)布局前瞻性研究

    2018-11-15 09:27 | 查看: 32 | 評(píng)論: 0 | 來(lái)自: 今日頭條 摘要 : 作為百度發(fā)展人工智能的核心機(jī)構(gòu),百度研究院又完成了一次重要的實(shí)力擴(kuò)充。美國(guó)當(dāng)?shù)貢r(shí)間11月13日
    發(fā)表于 11-26 20:49 ?394次閱讀

    百度再添9位世界級(jí)AI科學(xué)家加盟

    美國(guó)時(shí)間11月13日,百度研究院在美國(guó)硅谷召開(kāi)會(huì)議,宣布百度研究院顧問(wèn)委員會(huì)正式成立,并宣布在2018年陸續(xù)迎來(lái)9位世界級(jí)科學(xué)家加盟。當(dāng)天,百度
    發(fā)表于 03-01 17:23 ?833次閱讀

    百度研究院對(duì)AI產(chǎn)業(yè)的預(yù)測(cè)

    百度研究院發(fā)布2020十大科技趨勢(shì)預(yù)測(cè),從2019年科技的蓬勃發(fā)展中提前展望2020。作為2019年最受關(guān)注的科技熱詞之一,“AI”自然成為了焦點(diǎn)。百度
    的頭像 發(fā)表于 12-26 16:06 ?3893次閱讀

    百度研究院2023科技趨勢(shì)預(yù)測(cè)發(fā)布

    來(lái)源: 百度AI 1月5日,百度研究院發(fā)布2023年十大科技趨勢(shì)預(yù)測(cè),今年上榜的十大科技趨勢(shì)涵蓋了大模型生態(tài)、數(shù)實(shí)融合、虛實(shí)共生、自動(dòng)駕駛、機(jī)器人、科學(xué)計(jì)算、量子計(jì)算、隱私計(jì)算、科技倫理
    的頭像 發(fā)表于 01-06 17:15 ?748次閱讀

    百度研究院2023科技趨勢(shì)預(yù)測(cè)發(fā)布

    來(lái)源:百度AI1月5日,百度研究院發(fā)布2023年十大科技趨勢(shì)預(yù)測(cè),今年上榜的十大科技趨勢(shì)涵蓋了大模型生態(tài)、數(shù)實(shí)融合、虛實(shí)共生、自動(dòng)駕駛、機(jī)器人、科學(xué)計(jì)算、量子計(jì)算、隱私計(jì)算、科技倫理和科技可持續(xù)發(fā)展
    的頭像 發(fā)表于 01-13 11:05 ?734次閱讀
    <b class='flag-5'>百度</b><b class='flag-5'>研究院</b>2023科技趨勢(shì)預(yù)測(cè)發(fā)布

    百度蛋白大語(yǔ)言模型研究成果登上Nature子刊封面

    百度最新研究成果登上Nature子刊封面,文心生物計(jì)算大模型獲國(guó)際頂刊認(rèn)可!
    的頭像 發(fā)表于 11-25 11:25 ?1643次閱讀
    <b class='flag-5'>百度</b>蛋白大語(yǔ)言模型<b class='flag-5'>研究成果</b>登上Nature子刊封面