TTS(Text-To-Speech,語音合成),目前是一個(gè)“小而美”的AI領(lǐng)域,但我個(gè)人覺得非常有意思,感覺TTS在未來會(huì)被行業(yè)真正重視起來,并且會(huì)出現(xiàn)做得不錯(cuò)的創(chuàng)業(yè)公司。
本文,是作者收集了很多線上/線下的相關(guān)信息后,提煉出的AI產(chǎn)品經(jīng)理“最必要”了解的TTS技術(shù)知識(shí)和行業(yè)現(xiàn)狀(多了沒必要,少了又不足以入門、準(zhǔn)備面試或工作實(shí)戰(zhàn));不僅幫大家節(jié)省了時(shí)間,更是過濾了很多無用信息和過于技術(shù)的內(nèi)容。
目錄
一、核心概念
二、當(dāng)前技術(shù)邊界
三、瓶頸和機(jī)會(huì)(重點(diǎn))
一、核心概念
1、TTS和ASR的概念區(qū)別
我們比較熟悉的ASR技術(shù)(Automatic Speech Recognition,語音識(shí)別),是將聲音轉(zhuǎn)化為文字,可類比于人類的耳朵。
而TTS技術(shù)(Text-To-Speech,語音合成),是將文字轉(zhuǎn)化為聲音(朗讀出來),類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。
TTS的技術(shù)實(shí)現(xiàn)方法,主要有兩種:“拼接法”和“參數(shù)法”。
2、拼接法
1)定義:從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位。
2)優(yōu)點(diǎn):語音質(zhì)量較高
3)缺點(diǎn):數(shù)據(jù)庫要求太大。一般需要幾十個(gè)小時(shí)的成品預(yù)料。企業(yè)級(jí)商用的話,需要至少5萬句,費(fèi)用成本在幾百萬元。
3、參數(shù)法
1)定義:根據(jù)統(tǒng)計(jì)模型來產(chǎn)生每時(shí)每刻的語音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。主要分為3個(gè)模塊:前端、后端和聲碼器。
前端做的事情,是把文本進(jìn)行解析,決定每個(gè)字的發(fā)音是什么,這句話用什么樣的語氣語調(diào),用什么樣的節(jié)奏來讀,哪些地方是需要強(qiáng)調(diào)的重點(diǎn)等等。常見的語氣相關(guān)的數(shù)據(jù)描述包含但不限于下面這些:韻律邊界,重音,邊界調(diào),甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。
注:拼接法和參數(shù)法,都有前端模塊,拼接和參數(shù)的區(qū)別主要是后端聲學(xué)建模方法的區(qū)別。
2)優(yōu)點(diǎn):數(shù)據(jù)庫要求相對(duì)較小一些。
如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。
通用TTS,一般至少需要5000句,6個(gè)小時(shí)(一般錄制800句話,需要1個(gè)小時(shí))?!獜那捌诘臏?zhǔn)備、找人、找錄音場(chǎng)地、錄制、數(shù)據(jù)篩選、標(biāo)注,最終成為“可以用的數(shù)據(jù)”,可能至少需要3個(gè)月。(訊飛在各方面比較成熟,用時(shí)會(huì)短很多)
個(gè)性化TTS,大多數(shù)是用“參數(shù)”方法的。(adobe、微軟也有嘗試過拼接法,不過相對(duì)參數(shù)方法來說不是太成熟,效果也并不是太通用)
3)缺點(diǎn):質(zhì)量比拼接法差一些。因?yàn)槭苤朴诎l(fā)聲算法,有損失。
因?yàn)橹饕觞c(diǎn)和難點(diǎn)就是聲碼器。聲碼器的作用是復(fù)現(xiàn)聲音信號(hào),難在重現(xiàn)聲音細(xì)節(jié),并且讓人聽不出各種雜音、沉悶、機(jī)械感等等。目前常見的聲碼器都是對(duì)聲音信號(hào)本身作各種理論模型以及簡化假設(shè),可以說對(duì)細(xì)節(jié)的描述近似于忽略。
注:DeepMind的WaveNet,基本解決了聲碼器的問題。因?yàn)樗麄冎苯訉?duì)語音樣本進(jìn)行預(yù)測(cè),不依賴任何發(fā)音理論模型。最后出來的音質(zhì)細(xì)節(jié)十分豐富,基本達(dá)到了與原始語音類似的音質(zhì)水準(zhǔn)(所謂質(zhì)量提高了50%,就是這里),而且?guī)缀蹩梢詫?duì)任意聲音建模(這就太牛了)。
4、TTS的評(píng)判標(biāo)準(zhǔn)
1)主觀測(cè)試(自然度),以MOS為主
A)MOS(Mean Opinion Scores),專家級(jí)評(píng)測(cè)(主觀);1-5分,5分最好。
注:微軟小冰公開宣傳是4.3分,但有業(yè)內(nèi)朋友認(rèn)為,也不能據(jù)此就說其“絕對(duì)”比科大訊飛好,因?yàn)槊看卧u(píng)審的專家人選都不一樣。說白了,目前整個(gè)AI行業(yè)內(nèi),還是各家說自己好的節(jié)奏。
B)ABX,普通用戶評(píng)測(cè)(主觀)。讓用戶來試聽兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,看哪個(gè)好。
C)每次主觀測(cè)評(píng)應(yīng)該有區(qū)分。比如這次著重聽多音字,下次主要聽語氣詞等。
2)客觀測(cè)試
A)對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估,一般是計(jì)算歐式距離等(RMSE,LSD)。
B)對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語音時(shí)長)、首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用、CPU占用、3*24小時(shí)crash率等。
二、技術(shù)邊界
1、通用TTS
1)在用戶預(yù)期不苛刻的場(chǎng)景(APP/硬件),能滿足商業(yè)化需求,比如語音助手/滴滴/高德/智能音箱/機(jī)器人);但如果用戶預(yù)期非常高的話,是很難滿足的,因?yàn)檫€是會(huì)有“機(jī)器感/機(jī)械感”,不能非常自然的模擬人聲。
2)目前行業(yè)各家公司的產(chǎn)品效果差不多,都基本能商用。
2、個(gè)性化TTS
1)在用戶預(yù)期不苛刻的場(chǎng)景,能“基本”滿足商業(yè)化需求,但是效果沒通用TTS那么好。但如果用戶預(yù)期非常高的話,暫時(shí)是滿足不了的。
2)目前行業(yè)內(nèi)能成熟商用的,主要還是科大訊飛,也有些創(chuàng)業(yè)公司在這個(gè)領(lǐng)域有所布局,如微量分貝(HEARD)這家致力于海量內(nèi)容音頻化的企業(yè),對(duì)聲音進(jìn)行了分門別類的生成和儲(chǔ)備,他們瞄準(zhǔn)的企業(yè)級(jí)需求也會(huì)更為個(gè)性化、品牌化,諸如阿里巴巴旗下的“動(dòng)物園”品牌(如天貓、閑魚、盒馬、菜鳥等),都會(huì)生成諸如“小豬佩奇”這樣的角色化TTS 并被商用。
3、情感TTS
1)目前業(yè)界的情感合成更多了,是因?yàn)閿?shù)據(jù)本身變多了、更有節(jié)奏了,超過了傳統(tǒng)的播音風(fēng)格,但并不是真正的“喜怒哀樂”等情感合成(想高興就高興的這種智能)。
2)在情感TTS的理論方面,學(xué)術(shù)界是有儲(chǔ)備的,但是,整個(gè)行業(yè)目前都沒怎么做(或者沒做好),是因?yàn)榍楦蠺TS很依賴“情感意圖識(shí)別”,“情感特征挖掘”、“情感數(shù)據(jù)”以及“情感聲學(xué)技術(shù)”等,是個(gè)系統(tǒng)工程。其中第1點(diǎn),即是和自然語言處理相關(guān),比如需要知道“什么時(shí)侯該高興或悲傷”;同時(shí),具有情感演繹的語音數(shù)據(jù)的儲(chǔ)備,也非常重要。
三、瓶頸和機(jī)會(huì)
主要有5個(gè)方向的瓶頸(同時(shí)也是機(jī)會(huì))。
1、基礎(chǔ)技術(shù)
1)TTS技術(shù)正處于重大變革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的發(fā)展方向。
端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先時(shí)長模型和聲學(xué)模型的中段結(jié)構(gòu),可以接任何TTS前端和TTS后端。TTS前端如中文分詞、注音、詞性,都會(huì)提升tacotron性能;后端,參數(shù)、拼接、wavenet都可以選用。
關(guān)于WaveNet技術(shù)的商業(yè)化:Google今年初將第二代WaveNet技術(shù)商業(yè)化了,速度比第一代快一萬倍。而國內(nèi)各家公司,基本也仿制出來了(論文算法),但工程化還需要時(shí)間,而且成本還是太高,短期內(nèi)應(yīng)該沒法商用。
關(guān)于效果:TTS最終效果好壞,技術(shù)只占50%不到,在技術(shù)都差不多的情況下,聲優(yōu)質(zhì)量和數(shù)據(jù)量最重要,其次是相同部署規(guī)模和成本的TTS才能相互比較,即,不能簡單的說哪家公司的效果比另一家更好,a)比如,拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過訊飛線上的接口,但部署成本高幾萬倍,且不實(shí)時(shí);WaveNet V2商業(yè)化以后,雖然能實(shí)時(shí),但部署成本至少也比高配拼接TTS高10倍左右。b)成本,部分和采樣率相關(guān),例如,訊飛/百度TTS的采樣率都是16k,如果用24k和48k,主觀體驗(yàn)至少強(qiáng)50%,但成本會(huì)翻倍;也就是說,其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說他們的技術(shù)就比訊飛/百度強(qiáng),因?yàn)樵谏虡I(yè)化時(shí),會(huì)犧牲效果來降低成本。
2)如何讓離線版效果達(dá)到在線版水平。很多客戶希望(奢望)有離線版本,并且效果和在線版本一樣好……現(xiàn)階段來說,可能真是“臣妾做不到啊”。
2、數(shù)據(jù)缺乏
一方面,特別是個(gè)性化TTS,需要數(shù)據(jù)量更大。比如默認(rèn)男孩聲音,要轉(zhuǎn)成女孩,就比較難。
另一方面,數(shù)據(jù)的獲?。ㄖ谱鳎┏杀竞椭芷?,也是各家在初期的競(jìng)爭著力點(diǎn),比如,一般來說,一款(套)TTS數(shù)據(jù),至少需要先錄制2-3萬句話,再加上數(shù)據(jù)標(biāo)注,通常耗時(shí)在3個(gè)月以上(且需要主播全力配合),對(duì)于30小時(shí)的數(shù)據(jù),價(jià)格通常在30-50萬,而上文提到的微量分貝(HEARD)這家公司,調(diào)動(dòng)了8000+位優(yōu)質(zhì)播音人員,在給不同內(nèi)容配音的同時(shí),也做了大量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)(庫存化)。
這樣,針對(duì)大部分客戶的數(shù)據(jù)需求,并不需要再找主播進(jìn)行錄制,而是直接從倉庫調(diào)取數(shù)據(jù)進(jìn)行解凍即可(數(shù)據(jù)標(biāo)注);通過將這種“邊進(jìn)行業(yè)務(wù)邊賺取數(shù)據(jù)”的流程標(biāo)準(zhǔn)化,其獲取數(shù)據(jù)的成本大大降低到行業(yè)的五分之一,并且一旦有需求,可以在1個(gè)月內(nèi)進(jìn)行交付。這家公司在南方搭建的數(shù)據(jù)標(biāo)注工場(chǎng)的規(guī)模,也是巨大的,包括華為等公司都從其采購語音合成數(shù)據(jù)。
3、人才匱乏
不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。
4、產(chǎn)品化難度
由于技術(shù)限制,現(xiàn)階段不可能有非常完美的TTS效果,所以:
1)盡量選擇用戶預(yù)期不苛刻的場(chǎng)景,或者在產(chǎn)品體驗(yàn)設(shè)計(jì)時(shí),管理好用戶預(yù)期(比如打車軟件,郭德綱/林志玲的聲音,差不多就行)。
2)選擇“參數(shù)法”還是“拼接法”,和公司的技術(shù)儲(chǔ)備、成本、以及產(chǎn)品目標(biāo)相關(guān)。在垂直領(lǐng)域,現(xiàn)有的TTS技術(shù)(參數(shù)或者拼接)都可以針對(duì)產(chǎn)品做得很好?,F(xiàn)在行業(yè)還沒有太好的效果,很大原因是因?yàn)楫a(chǎn)品經(jīng)理還沒有深入介入,有很多細(xì)節(jié)的坑要踩(產(chǎn)品設(shè)計(jì)+工程化實(shí)現(xiàn))——未來應(yīng)該會(huì)有驚艷的產(chǎn)品出現(xiàn)。
3)體驗(yàn)細(xì)節(jié)設(shè)計(jì),和一般互聯(lián)網(wǎng)產(chǎn)品很不同,比如:
A)文案設(shè)計(jì),非常重要;因?yàn)樵谡Z音交互場(chǎng)景,不能太長,用戶沒耐心和時(shí)間聽完的。
B)可以加入背景音樂,掩蓋雜音等細(xì)節(jié)瑕疵。
C)特殊場(chǎng)景,還有特別的需求,比如遠(yuǎn)場(chǎng)場(chǎng)景和戴耳機(jī)場(chǎng)景相比,還是會(huì)有區(qū)別的。
D)中英文混合TTS。比如用戶想播首英語歌曲,困難在于:所有中文的發(fā)音當(dāng)中,中文和英文合拍念出來是很難的,為什么呢?因?yàn)橥浺舻娜?。錄中文是一批人,錄英文又是一批人。兩種語言結(jié)合起來,再用機(jī)器學(xué)習(xí)學(xué)出來,聲音就會(huì)變得非常怪。這方面,小雅音箱曾經(jīng)花了很大的精力和成本去“死磕”解決。
5、商業(yè)化壓力
1)如果要有足夠的市場(chǎng)競(jìng)爭力,至少需要12個(gè)月的時(shí)間,2~6人團(tuán)隊(duì)(如果有人做過前端相關(guān)工作,會(huì)節(jié)省巨大成本——工作量主要在中文前端NLP部分,比如分詞、注音、詞性文本規(guī)整化等),幾百萬資金投入(1個(gè)GPU一年十萬,支持并發(fā)只有幾十個(gè))。并且,大公司的先發(fā)優(yōu)勢(shì)巨大,小公司必須切細(xì)分場(chǎng)景。
2)我個(gè)人認(rèn)為,個(gè)性化TTS、情感TTS會(huì)在各細(xì)分場(chǎng)景得到更大的應(yīng)用,比如知識(shí)付費(fèi)、明星IP、智能硬件、車聯(lián)網(wǎng)、實(shí)體/虛擬機(jī)器人等。
附:相關(guān)資料
1、相關(guān)高校及實(shí)驗(yàn)室
語音合成涉及專業(yè)領(lǐng)域較廣,包含語言學(xué)、聽覺與發(fā)聲機(jī)理、自然語言分析、深度學(xué)習(xí)、信號(hào)處理等諸多領(lǐng)域,是一門綜合性學(xué)科。
國際上,英國愛丁堡大學(xué)Simon King教授,卡耐基梅隆大學(xué)Alan W Black教授, 日本和歌山大學(xué)Kawahara教授,谷歌Heiga Zen所在的實(shí)驗(yàn)室均為國際頂級(jí)實(shí)驗(yàn)室。
國內(nèi)來說,中國學(xué)術(shù)屆也一直走在行業(yè)的前列,國際語音合成挑戰(zhàn)賽blizzard challenge已經(jīng)連續(xù)10多年冠軍在中國。國內(nèi)大部分的語音合成人才,均來自于中科大、中科院自動(dòng)化所、中科院聲學(xué)所、清華大學(xué)、西北工業(yè)大學(xué)等幾家單位,比如西北工業(yè)大學(xué)的謝磊老師組,已向語音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說、出門問問、獵戶星空、同盾等公司的核心崗位上,都有來自西工大的學(xué)生。
2、參考文章
《目前,人工智能語音在說中文時(shí)的語氣感覺上還比較機(jī)械,怎樣使人工智能語音的語氣更自然一些?》http://t.cn/RFnP7EH
《如何評(píng)價(jià)谷歌下一代語音合成系統(tǒng)WaveNet?》http://t.cn/RFnPUkA
《TTS(Text-To-Speech)的原理是什么?》http://t.cn/RFnPfP1
《百度Deep Voice作者與Bengio團(tuán)隊(duì)探討五大技術(shù)細(xì)節(jié),端到端的語音合成還有多遠(yuǎn)?》http://t.cn/RoUvHAg
3、相關(guān)產(chǎn)品
訊飛配音app、訊飛朗讀助手app、閃電配(http://www.soundems.com )等。
-
AI
+關(guān)注
關(guān)注
88文章
34765瀏覽量
276931 -
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1777瀏覽量
114067 -
TTS
+關(guān)注
關(guān)注
0文章
52瀏覽量
11132
原文標(biāo)題:語音合成(TTS)技術(shù)的概念、技術(shù)邊界與未來機(jī)會(huì)
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

使用google-translate和wwe合并后無法使用google-tts怎么解決?
整合離線語音識(shí)別ASR和TTS,內(nèi)存映射時(shí)發(fā)生內(nèi)存不足怎么解決?
【W(wǎng)RTnode2R申請(qǐng)】TTS中文語音處理
怎樣通過ekho8.0去實(shí)現(xiàn)tts技術(shù)呢
CB5654開發(fā)應(yīng)用TTS
基于TTS技術(shù)和腦電采集設(shè)備的精神疲勞實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)

使用balena部署B(yǎng)asics Station TTS LoRa網(wǎng)關(guān)

TTS語音合成技術(shù)及其應(yīng)用
TTS語音合成技術(shù)的挑戰(zhàn)和未來發(fā)展
基于GPS和TTS的自動(dòng)報(bào)站器方案設(shè)計(jì)

玩轉(zhuǎn)語音合成芯片(TTS芯片),看這一篇就夠了

評(píng)論