近日,百度研究者發(fā)表論文,利用兩種方法,只需少量樣本就能在幾秒鐘內(nèi)合成自然且相似度極高的語(yǔ)音。近些年關(guān)于高質(zhì)量的語(yǔ)音合成方法確實(shí)不少,但能在如此短時(shí)間內(nèi)完成的卻實(shí)屬罕見。
聲音克隆是個(gè)性化語(yǔ)音交互領(lǐng)域高度理想化的功能,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)已經(jīng)可以為大量發(fā)言者生成高質(zhì)量語(yǔ)音了。在這篇論文中,百度的研究人員向我們介紹了一種神經(jīng)語(yǔ)音克隆系統(tǒng),只需要輸入少量的語(yǔ)音樣本,就能合成逼真的語(yǔ)音。這里研究了兩種方法:說(shuō)話者適應(yīng)(speaker adaptation)和說(shuō)話者編碼(speaker encoding),最終結(jié)果表明兩種方法在語(yǔ)音的自然性和相似性方面都表現(xiàn)良好。
由于研究者要從有限且陌生的語(yǔ)音樣本中進(jìn)行語(yǔ)音克隆,這就相當(dāng)于一個(gè)“語(yǔ)音在特定語(yǔ)境下的few-shot生成建?!眴?wèn)題。若樣本充足,為任何目標(biāo)說(shuō)話者訓(xùn)練生成模型都不在話下。不過(guò),few-shot生成模型雖然聽起來(lái)很吸引人,但卻是個(gè)挑戰(zhàn)。生成模型需要通過(guò)少量的信息學(xué)習(xí)說(shuō)話者的特征,然后還要生成全新的語(yǔ)音。
語(yǔ)音克隆
我們計(jì)劃設(shè)計(jì)一個(gè)多說(shuō)話者生成模型(multi-speaker generative model):f(ti,j,si; W,esi),ti表示文本,si表示說(shuō)話者。模型以W進(jìn)行參數(shù)化,作為編碼器和解碼器的訓(xùn)練參數(shù)。esi是對(duì)應(yīng)到si的可訓(xùn)練說(shuō)話者嵌入。W和esi均通過(guò)最小化損失函數(shù)L進(jìn)行優(yōu)化,損失函數(shù)L對(duì)生成音頻和真視音頻之間的差異進(jìn)行懲罰。
這里S是一組說(shuō)話者,Tsi是為si準(zhǔn)備的文字-音頻訓(xùn)練集,ai和j是ti和j的真實(shí)音頻。期望值是通過(guò)所有訓(xùn)練說(shuō)話者的文本-音頻對(duì)來(lái)估計(jì)的。
在語(yǔ)音克隆中,實(shí)驗(yàn)的目的是從一組克隆音頻Ask中提取出sk的聲音特征,并且用該聲音生成不一樣的音頻。衡量生成結(jié)果的標(biāo)準(zhǔn)有二:
看語(yǔ)音是否自然;
看生成的語(yǔ)音與原音頻是否相似。
下圖總結(jié)了說(shuō)話者適應(yīng)和說(shuō)話者編碼兩種方法的語(yǔ)音克隆方法:
說(shuō)話者適應(yīng)運(yùn)用的是梯度下降原理,利用少數(shù)音頻和對(duì)應(yīng)的文本對(duì)多語(yǔ)音模型進(jìn)行微調(diào),微調(diào)可以用于說(shuō)話者嵌入或整個(gè)模型。
而說(shuō)話者編碼的方法是從說(shuō)話者的音頻樣本中估計(jì)說(shuō)話者嵌入。這種模式并不需要在語(yǔ)音克隆的過(guò)程中進(jìn)行微調(diào),因此它可以用于任何未知的說(shuō)話者。
說(shuō)話者編碼器結(jié)構(gòu)
語(yǔ)音克隆評(píng)估
語(yǔ)音克隆的結(jié)果可以通過(guò)眾包平臺(tái)經(jīng)過(guò)人類進(jìn)行評(píng)估,但是這樣的模型開發(fā)過(guò)程是非常緩慢且昂貴的。研究人員利用判別模型提出了兩種評(píng)估方法。
1.說(shuō)話者分類(Speaker Classification)
說(shuō)話者分類器決定音頻樣本的來(lái)源。對(duì)于語(yǔ)音克隆評(píng)估,說(shuō)話者分類器可以在用于克隆的語(yǔ)音上進(jìn)行訓(xùn)練。高質(zhì)量的語(yǔ)音克隆有助于提高分類器的精確度。
2.說(shuō)話者驗(yàn)證(Speaker Verification)
說(shuō)話者驗(yàn)證是用來(lái)檢測(cè)語(yǔ)音的相似性,具體來(lái)說(shuō),它利用二元分類識(shí)別測(cè)試音頻和生成音頻是否來(lái)自同一說(shuō)話者。
實(shí)驗(yàn)過(guò)程
我們對(duì)比了兩種方法(說(shuō)話者適應(yīng)和說(shuō)話者編碼)在語(yǔ)音克隆上的表現(xiàn)。對(duì)說(shuō)話者適應(yīng),我們訓(xùn)練了一個(gè)生成模型,讓其通過(guò)微調(diào)達(dá)到目標(biāo)說(shuō)話者的水平。對(duì)說(shuō)話者編碼,我們訓(xùn)練了一個(gè)多說(shuō)話者生成模型和一個(gè)說(shuō)話者編碼器,將嵌入輸入到多說(shuō)話者生成模型中生成目標(biāo)語(yǔ)音。
兩種方法訓(xùn)練的數(shù)據(jù)集是LibriSpeech,該數(shù)據(jù)集包含2484個(gè)樣本音頻,總時(shí)長(zhǎng)約820小時(shí),16KHz。LibriSpeech是一個(gè)用于自動(dòng)語(yǔ)音識(shí)別的數(shù)據(jù)集,它的音頻質(zhì)量比語(yǔ)音合成的數(shù)據(jù)集低。語(yǔ)音克隆是在VCTK數(shù)據(jù)集上進(jìn)行的,其中包括了108種不同口音、以英語(yǔ)為母語(yǔ)的音頻。為了與LibriSpeech保持一致,VCTK中的音頻樣本被壓縮為16KHz。
下圖總結(jié)了不同的方法在語(yǔ)音克隆上的表現(xiàn):
說(shuō)話者適應(yīng)和說(shuō)話者編碼在語(yǔ)音克隆上的不同需求。假設(shè)都在Titan X上進(jìn)行
對(duì)于說(shuō)話者適應(yīng)的方法,下圖表現(xiàn)了分類精確度與迭代時(shí)間的結(jié)果:
不同克隆樣本數(shù)量和微調(diào)次數(shù)的關(guān)系圖
說(shuō)話者適應(yīng)和說(shuō)話者編碼在不同克隆樣本下的分類精度對(duì)比
不同克隆樣本數(shù)量下,說(shuō)話者驗(yàn)證上的同等錯(cuò)誤率(EER)
下面兩個(gè)表顯示了人類評(píng)估的結(jié)果,這兩個(gè)結(jié)果都表明克隆音頻越多,說(shuō)話者適應(yīng)的方法越好。
結(jié)語(yǔ)
研究人員通過(guò)兩種方法,證明了他們可以用較少的聲音樣本生成自然、相似的新音頻。他們相信,語(yǔ)音克隆在未來(lái)依然有改善的前景。隨著元學(xué)習(xí)的進(jìn)展,這一領(lǐng)域?qū)⒌玫接行У奶岣撸?,可以通過(guò)將說(shuō)話者適應(yīng)或編碼這兩種方法整合到訓(xùn)練中,或者通過(guò)比說(shuō)話者嵌入更靈活的方式來(lái)推斷模型權(quán)重。
-
編碼器
+關(guān)注
關(guān)注
45文章
3808瀏覽量
138079 -
音頻
+關(guān)注
關(guān)注
30文章
3042瀏覽量
83452
原文標(biāo)題:百度研究者利用少量樣本實(shí)現(xiàn)語(yǔ)音克隆
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于序貫相似性測(cè)算法的圖像模板配準(zhǔn)算法
基于相似性的圖像融合質(zhì)量的客觀評(píng)估方法
基于相似性度量的高維聚類算法的研究
基于項(xiàng)目相似性度量方法的項(xiàng)目協(xié)同過(guò)濾推薦算法
基于網(wǎng)絡(luò)本體語(yǔ)言O(shè)WL表示模型語(yǔ)義的相似性計(jì)算方法

一種基于SQL的圖相似性查詢方法

一種新的混合相似性權(quán)重的非局部均值去躁算法
基于劃分思想的文件結(jié)構(gòu)化相似性比較方法

云模型重疊度的相似性度量算法
基于節(jié)點(diǎn)相似性社團(tuán)結(jié)構(gòu)劃分
一種基于程序向量樹的代碼克隆檢測(cè)方法

一種基于約束推導(dǎo)式的增強(qiáng)型相似性方法

一種快速計(jì)算動(dòng)態(tài)網(wǎng)絡(luò)相似性的方法
PyTorch教程15.7之詞的相似性和類比

基于結(jié)構(gòu)相似性可靠性監(jiān)測(cè)結(jié)果

評(píng)論