基于大量數(shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化,近年,語(yǔ)音識(shí)別準(zhǔn)確率取得了不斷的提升。2016年10月,微軟宣布英語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)率下降到5.9%,從而能夠媲美人類(lèi)。現(xiàn)階段,在理想的環(huán)境下,多家公司的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)越過(guò)了實(shí)用的門(mén)檻,并在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。
人工智能產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語(yǔ)音識(shí)別亦由這三層組成,本文從語(yǔ)音識(shí)別的商業(yè)化應(yīng)用出發(fā),并探討驅(qū)動(dòng)語(yǔ)音識(shí)別發(fā)展的算法及硬件計(jì)算能力,三位一體淺析語(yǔ)音識(shí)別現(xiàn)狀、發(fā)展趨勢(shì)及仍然面臨的難點(diǎn)。
一、應(yīng)用
智能語(yǔ)音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而,其具有巨大的市場(chǎng)空間。中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟《2015中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展白皮書(shū)》數(shù)據(jù)顯示,2017年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模將首次超過(guò)百億美元,達(dá)到105億美元。中國(guó)2017年智能語(yǔ)音產(chǎn)業(yè)規(guī)模也將首次突破百億元,五年復(fù)合增長(zhǎng)率超過(guò)60%。
科技巨頭都在打造自己的智能語(yǔ)音生態(tài)系統(tǒng),國(guó)外有IBM、微軟、Google,國(guó)內(nèi)有百度、科大訊飛等。
IBM、微軟、百度等公司在語(yǔ)音識(shí)別方面,使用組合模型,不斷提升語(yǔ)音識(shí)別性能。微軟基于6個(gè)不同的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成的聲學(xué)模型以及4個(gè)不同的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成的語(yǔ)言模型,取得了超越人類(lèi)的識(shí)別準(zhǔn)確率。科大訊飛則基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別框架,取得了實(shí)用級(jí)的識(shí)別性能。云知聲、捷通華聲、思必馳等智能語(yǔ)音創(chuàng)業(yè)公司亦在不斷打磨自己的識(shí)別引擎,并能夠把自己的技術(shù)落地到產(chǎn)業(yè)中。
在巨頭和創(chuàng)新者的推動(dòng)下,語(yǔ)音識(shí)別逐漸在智能家居、智能車(chē)載、語(yǔ)音助手、機(jī)器人等領(lǐng)域取得迅猛發(fā)展。
1、智能家居
在智能家居,尤其是智能音箱市場(chǎng),亞馬遜與Google處于行業(yè)統(tǒng)治地位,并各具特色。
亞馬遜的Echo已經(jīng)賣(mài)出近千萬(wàn)臺(tái),引爆了在線(xiàn)智能音箱市場(chǎng)。相比于傳統(tǒng)的音箱,Echo具有遠(yuǎn)程喚醒播放音樂(lè)、聯(lián)網(wǎng)查詢(xún)咨詢(xún)信息、智能控制家電等功能。但是在智能問(wèn)答方面,Echo表現(xiàn)一般,Google以此為突破口,發(fā)布Google Home,從亞馬遜手中搶奪23.8%的智能音箱市場(chǎng)份額。2017年9月,亞馬遜發(fā)布了多款Echo二代產(chǎn)品,相比一代在音質(zhì)上有明顯的提升,且Echo Plus具備更加強(qiáng)大的家居控制功能,能夠自動(dòng)搜索到附件的智能家居設(shè)備,并進(jìn)行控制。
在我國(guó)的語(yǔ)控電視、語(yǔ)控空調(diào)、語(yǔ)控照明等智能語(yǔ)控家電市場(chǎng),科大訊飛、云知聲、啟英泰倫做了深入布局。
科大訊飛聯(lián)合京東發(fā)布叮咚音箱,并于2016年推出訊飛電視助理,打造智能家居領(lǐng)域的入口級(jí)應(yīng)用。云知聲提供物聯(lián)網(wǎng)人工智能技術(shù),通過(guò)與格力等公司合作,把自己的語(yǔ)音識(shí)別技術(shù)集成到終端家電產(chǎn)品中,另外,云知聲發(fā)布的‘Pandora’語(yǔ)音中控方案,能夠大幅縮短產(chǎn)品智能化周期。啟英泰倫結(jié)合自己強(qiáng)大的硬件(終端智能語(yǔ)音識(shí)別芯片CI1006)及算法(深度學(xué)習(xí)語(yǔ)音識(shí)別引擎)優(yōu)勢(shì),提供離線(xiàn)與在線(xiàn)的整套語(yǔ)音識(shí)別方案,并在物聯(lián)網(wǎng)各個(gè)領(lǐng)域有廣泛的布局。
2、智能車(chē)載
隨著智能網(wǎng)聯(lián)的發(fā)展,預(yù)計(jì)未來(lái)車(chē)聯(lián)網(wǎng)在車(chē)載端的滲透率將超過(guò)50%。但是基于安全性等因素考慮,車(chē)載端智能與手機(jī)端智能有極大的差別,從手機(jī)端簡(jiǎn)單拷貝的方式并不適合車(chē)載端使用場(chǎng)景。語(yǔ)音基于其交互的自然性,被認(rèn)為是未來(lái)人與車(chē)交互的主要入口路徑。
百度借助自己的人工智能生態(tài)平臺(tái),推出了智能行車(chē)助手CoDriver??拼笥嶏w與奇瑞等汽車(chē)制造商合作,推出了飛魚(yú)汽車(chē)助理,推進(jìn)車(chē)聯(lián)網(wǎng)進(jìn)程。搜狗與四維圖新合作推出了飛歌導(dǎo)航。云知聲、思必馳在導(dǎo)航、平視顯示器等車(chē)載應(yīng)用方面推出了多款智能語(yǔ)控車(chē)載產(chǎn)品。出門(mén)問(wèn)問(wèn)則基于自己的問(wèn)問(wèn)魔鏡進(jìn)入到智能車(chē)載市場(chǎng)。
在語(yǔ)音識(shí)別的商業(yè)化落地中,需要內(nèi)容、算法等各個(gè)方面的協(xié)同支撐,但是良好的用戶(hù)體驗(yàn)是商業(yè)應(yīng)用的第一要素,而識(shí)別算法是提升用戶(hù)體驗(yàn)的核心因素。下文將從語(yǔ)音識(shí)別的算法發(fā)展路徑、算法發(fā)展現(xiàn)狀及前沿算法研究三個(gè)方面來(lái)探討語(yǔ)音識(shí)別技術(shù)。
二、算法
對(duì)于語(yǔ)音識(shí)別系統(tǒng)而言,第一步要檢測(cè)是否有語(yǔ)音輸入,即,語(yǔ)音激活檢測(cè)(VAD)。在低功耗設(shè)計(jì)中,相比于語(yǔ)音識(shí)別的其它部分,VAD采用always on的工作機(jī)制。當(dāng)VAD檢測(cè)到有語(yǔ)音輸入之后,VAD便會(huì)喚醒后續(xù)的識(shí)別系統(tǒng)。識(shí)別系統(tǒng)總體流程如圖2所示,主要包括特征提取、識(shí)別建模及模型訓(xùn)練、解碼得到結(jié)果幾個(gè)步驟。
圖2.語(yǔ)音識(shí)別系統(tǒng)
1、VAD(語(yǔ)音激活檢測(cè))
用于判斷什么時(shí)候有語(yǔ)音輸入,什么時(shí)候是靜音狀態(tài)。語(yǔ)音識(shí)別后續(xù)的操作都是在VAD截取出來(lái)的有效片段上進(jìn)行,從而能夠減小語(yǔ)音識(shí)別系統(tǒng)噪聲誤識(shí)別率及系統(tǒng)功耗。在近場(chǎng)環(huán)境下,由于語(yǔ)音信號(hào)衰減有限,信噪比(SNR)比較高,只需要簡(jiǎn)單的方式(比如過(guò)零率、信號(hào)能量)來(lái)做激活檢測(cè)。但是在遠(yuǎn)場(chǎng)環(huán)境中,由于語(yǔ)音信號(hào)傳輸距離比較遠(yuǎn),衰減比較嚴(yán)重,因而導(dǎo)致麥克風(fēng)采集數(shù)據(jù)的SNR很低,這種情況下,簡(jiǎn)單的激活檢測(cè)方法效果很差。使用深度神經(jīng)網(wǎng)絡(luò)(DNN)做激活檢測(cè)是基于深度學(xué)習(xí)的語(yǔ)音識(shí)別系統(tǒng)中常用的方法(在該方法下,語(yǔ)音激活檢測(cè)即為一個(gè)分類(lèi)問(wèn)題)。在MIT的智能語(yǔ)音識(shí)別芯片中使用了精簡(jiǎn)版的DNN來(lái)做VAD,該方法在噪聲比較大的情況下也具有很好的性能。但是更復(fù)雜的遠(yuǎn)場(chǎng)環(huán)境中,VAD仍然是未來(lái)研究的重點(diǎn)。
2、特征提取
梅爾頻率倒譜系數(shù)(MFCC)是最為常用的語(yǔ)音特征,梅爾頻率是基于人耳聽(tīng)覺(jué)特征提取出來(lái)的。MFCC主要由預(yù)加重、分幀、加窗、快速傅里葉變換(FFT)、梅爾濾波器組、離散余弦變換幾部分組成,其中FFT與梅爾濾波器組是MFCC最重要的部分。但是近年研究表明,對(duì)于語(yǔ)音識(shí)別而言,梅爾濾波器組不一定是最優(yōu)方案。受限的玻爾茲曼機(jī)(RBM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、CNN-LSTM-DNN(CLDNN)等深度神經(jīng)網(wǎng)絡(luò)模型作為一個(gè)直接學(xué)習(xí)濾波器代替梅爾濾波器組被用于自動(dòng)學(xué)習(xí)的語(yǔ)音特征提取中,并取得良好的效果。
目前已經(jīng)證明,在特征提取方面,CLDNN比對(duì)數(shù)梅爾濾波器組有明顯的性能優(yōu)勢(shì)?;贑LDNN的特征提取過(guò)程可以總結(jié)為:在時(shí)間軸上的卷積、pooling、pooled信號(hào)進(jìn)入到CLDNN中三個(gè)步驟。
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別領(lǐng)域,由于存在強(qiáng)噪聲、回響等問(wèn)題,麥克風(fēng)陣列波束成形仍然是主導(dǎo)方法。
另外,現(xiàn)階段,基于深度學(xué)習(xí)的波束成形方法在自動(dòng)特征提取方面亦取得了眾多研究成果。
3、識(shí)別建模
語(yǔ)音識(shí)別本質(zhì)上是音頻序列到文字序列轉(zhuǎn)化的過(guò)程,即在給定語(yǔ)音輸入的情況下,找到概率最大的文字序列。基于貝葉斯原理,可以把語(yǔ)音識(shí)別問(wèn)題分解為給定文字序列出現(xiàn)這條語(yǔ)音的條件概率以及出現(xiàn)該條文字序列的先驗(yàn)概率,對(duì)條件概率建模所得模型即為聲學(xué)模型,對(duì)出現(xiàn)該條文字序列的先驗(yàn)概率建模所得模型是語(yǔ)言模型。
3.1 聲學(xué)模型
聲學(xué)模型是把語(yǔ)音轉(zhuǎn)化為聲學(xué)表示的輸出,即找到給定的語(yǔ)音源于某個(gè)聲學(xué)符號(hào)的概率。對(duì)于聲學(xué)符號(hào),最直接的表達(dá)方式是詞組,但是在訓(xùn)練數(shù)據(jù)量不充分的情況下,很難得到一個(gè)好的模型。詞組是由多個(gè)音素的連續(xù)發(fā)音構(gòu)成,另外,音素不但有清晰的定義而且數(shù)量有限。因而,在語(yǔ)音識(shí)別中,通常把聲學(xué)模型轉(zhuǎn)換成了一個(gè)語(yǔ)音序列到發(fā)音序列(音素)的模型和一個(gè)發(fā)音序列到輸出文字序列的字典。
需要注意的是,由于人類(lèi)發(fā)聲器官運(yùn)動(dòng)的連續(xù)性,以及某些語(yǔ)言中特定的拼讀習(xí)慣,會(huì)導(dǎo)致音素的發(fā)音受到前后音素的影響。為了對(duì)不同語(yǔ)境的音素加以區(qū)分,通常使用能夠考慮前后各一個(gè)音素的三音子作為建模單元。
另外,在聲學(xué)模型中,可以把三音子分解為更小的顆?!獱顟B(tài),通常一個(gè)三音子對(duì)應(yīng)3個(gè)狀態(tài),但是這會(huì)引起建模參數(shù)的指數(shù)增長(zhǎng),常用的解決方案是使用決策樹(shù)先對(duì)這些三音子模型進(jìn)行聚類(lèi),然后使用聚類(lèi)的結(jié)果作為分類(lèi)目標(biāo)。
至此,語(yǔ)音識(shí)別有了最終的分類(lèi)目標(biāo)—狀態(tài)。最常用的聲學(xué)建模方式是隱馬爾科夫模型(HMM)。在HMM下,狀態(tài)是隱變量,語(yǔ)音是觀(guān)測(cè)值,狀態(tài)之間的跳轉(zhuǎn)符合馬爾科夫假設(shè)。其中,狀態(tài)轉(zhuǎn)移概率密度多采用幾何分布建模,而擬合隱變量到觀(guān)測(cè)值的觀(guān)測(cè)概率的模型常用高斯混合模型(GMM)?;谏疃葘W(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等模型被應(yīng)用到觀(guān)測(cè)概率的建模中,并取得了非常好的效果。下文給出各個(gè)模型的原理、所解決的問(wèn)題及各自局限性,且給出了由模型的局限性而引起建模方式發(fā)展的脈絡(luò)。
1)高斯混合模型(GMM)
觀(guān)測(cè)概率密度函數(shù)由高斯混合模型建模,訓(xùn)練中,不斷迭代優(yōu)化,以求取GMM中的加權(quán)系數(shù)及各個(gè)高斯函數(shù)的均值與方差。GMM模型訓(xùn)練速度較快,且GMM聲學(xué)模型參數(shù)量小,可以容易地嵌入到終端設(shè)備中。在很長(zhǎng)一段時(shí)間內(nèi),GMM-HMM混合模型都是表現(xiàn)最優(yōu)秀的語(yǔ)音識(shí)別模型。但是GMM不能利用語(yǔ)境信息,其建模能力有限。
2)深度神經(jīng)網(wǎng)絡(luò)(DNN)
最早用于聲學(xué)模型建模的神經(jīng)網(wǎng)絡(luò),DNN解決了基于高斯混合模型進(jìn)行數(shù)據(jù)表示的低效問(wèn)題。語(yǔ)音識(shí)別中,DNN-HMM混合模型大幅度的提升了識(shí)別率。目前階段,DNN-HMM基于其相對(duì)有限的訓(xùn)練成本及高識(shí)別率,仍然是特定的語(yǔ)音識(shí)別工業(yè)領(lǐng)域常用的聲學(xué)模型。需要注意的是,基于建模方式的約束(模型輸入特征長(zhǎng)度的一致性需求),DNN模型使用的是固定長(zhǎng)度的滑動(dòng)窗來(lái)提取特征。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)/卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型
對(duì)于不同的音素與語(yǔ)速,利用語(yǔ)境信息最優(yōu)的特征窗長(zhǎng)度是不同的。能夠有效利用可變長(zhǎng)度語(yǔ)境信息的RNN與CNN在語(yǔ)音識(shí)別中能夠取得更好的識(shí)別性能。因而,在語(yǔ)速魯棒性方面,CNN/RNN比DNN表現(xiàn)的更好。
在使用RNN建模方面,用于語(yǔ)音識(shí)別建模的模型有:多隱層的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、highway LSTM、ResidualLSTM、雙向LSTM、時(shí)延控制的雙向LSTM。
LSTM,基于門(mén)控電路設(shè)計(jì),其能夠利用長(zhǎng)短時(shí)信息,在語(yǔ)音識(shí)別中取得了非常好的性能。另外,可以通過(guò)增加層數(shù)進(jìn)一步提升識(shí)別性能,但是簡(jiǎn)單地增加LSTM的層數(shù)會(huì)引起訓(xùn)練困難及梯度消失問(wèn)題。
Highway LSTM,在LSTM相鄰層的記憶單元間添加一個(gè)門(mén)控的直接鏈路,為信息在不同層間流動(dòng)提供一個(gè)直接且不衰減的路徑,從而解決梯度消失問(wèn)題
Residual LSTM,在LSTM層間提供一個(gè)捷徑,亦能解決梯度消失問(wèn)題。
雙向LSTM,能夠利用過(guò)去及未來(lái)的語(yǔ)境信息,因而其識(shí)別性能比單向的LSTM好,但是由于雙向LSTM利用了未來(lái)的信息,因而基于雙向LSTM建模的語(yǔ)音識(shí)別系統(tǒng)需要觀(guān)察完整的一段話(huà)之后才能識(shí)別,從而不適用于實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng)。
時(shí)延控制的雙向LSTM,通過(guò)調(diào)整雙向LSTM的反向LSTM,實(shí)現(xiàn)了性能與實(shí)時(shí)性的一個(gè)折中建模方案,能夠應(yīng)用于實(shí)時(shí)的語(yǔ)音識(shí)別系統(tǒng)。
CNN建模方面,包括時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM(CDL)、深度CNN、逐層語(yǔ)境擴(kuò)展和注意(LACE)CNN、dilated CNN。
TDNN,最早被用于語(yǔ)音識(shí)別的CNN建模方式,TDNN 會(huì)沿頻率軸和時(shí)間軸同時(shí)進(jìn)行卷積,因此能夠利用可變長(zhǎng)度的語(yǔ)境信息。TDNN用于語(yǔ)音識(shí)別分為兩種情況,第一種情況下:只有TDNN,很難用于大詞匯量連續(xù)性語(yǔ)音識(shí)別(LVCSR),原因在于可變長(zhǎng)度的表述(utterance)與可變長(zhǎng)度的語(yǔ)境信息是兩回事,在LVCSR中需要處理可變長(zhǎng)度表述問(wèn)題,而TDNN只能處理可變長(zhǎng)度語(yǔ)境信息;第二種情況:TDNN-HMM 混合模型,由于HMM能夠處理可變長(zhǎng)度表述問(wèn)題,因而該模型能夠有效地處理LVCSR問(wèn)題。
CNN-DNN,在DNN前增加一到兩層的卷積層,以提升對(duì)不同說(shuō)話(huà)人的可變長(zhǎng)度聲道(vocal tract)問(wèn)題的魯棒性,對(duì)比于單純DNN,CNN-DNN性能有一定幅度(5%)的提升
CLDNN及CDL,在這兩個(gè)模型中,CNN只處理頻率軸的變化,LSTM用于利用可變長(zhǎng)度語(yǔ)境信息。
深度CNN,這里的“深度”是指一百層以上。語(yǔ)譜圖可以被看作是帶有特定模式的圖像,通過(guò)使用比較小的卷積核以及更多的層,來(lái)利用時(shí)間及頻率軸上長(zhǎng)范圍的相關(guān)信息,深度CNN的建模性能與雙向LSTM性能相當(dāng),但是深度CNN沒(méi)有時(shí)延問(wèn)題。在控制計(jì)算成本的情況下,深度CNN能夠很好的應(yīng)用于實(shí)時(shí)系統(tǒng)。
逐層語(yǔ)境擴(kuò)展和注意(LACE)CNN及dilated CNN,深度CNN的計(jì)算量比較大,因而提出了能夠減小計(jì)算量的 LACE CNN與dilated CNN,其把整個(gè)話(huà)語(yǔ)看作單張輸入圖,因而可以復(fù)用中間結(jié)果,另外,可以通過(guò)設(shè)計(jì)LACE CNN及dilated CNN網(wǎng)絡(luò)每一層的步長(zhǎng),使其能夠覆蓋整個(gè)核,來(lái)降低計(jì)算成本。
語(yǔ)音識(shí)別的應(yīng)用環(huán)境常常比較復(fù)雜,選擇能夠應(yīng)對(duì)各種情況的模型建模聲學(xué)模型是工業(yè)界及學(xué)術(shù)界常用的建模方式。但是各個(gè)單一模型都有局限性。HMM能夠處理可變長(zhǎng)度的表述,CNN能夠處理可變聲道,RNN/CNN能夠處理可變語(yǔ)境信息。聲學(xué)模型建模中,混合模型由于能夠結(jié)合各個(gè)模型的優(yōu)勢(shì),是目前聲學(xué)建模的主流方式。
3.2 語(yǔ)言模型
語(yǔ)音識(shí)別中,最常見(jiàn)的語(yǔ)言模型是N-Gram。近年,深度神經(jīng)網(wǎng)絡(luò)的建模方式也被應(yīng)用到語(yǔ)言模型中,比如基于CNN及RNN的語(yǔ)言模型。
4、端到端的語(yǔ)音識(shí)別系統(tǒng)
在DNN-HMM或者CNN/RNN-HMM模型中,DNN/CNN/RNN與HMM是分開(kāi)優(yōu)化的,但是語(yǔ)音識(shí)別本質(zhì)上是一個(gè)序列識(shí)別問(wèn)題,如果模型中的所有組件都能夠聯(lián)合優(yōu)化,很可能會(huì)獲取更好的識(shí)別準(zhǔn)確度,這一點(diǎn)從語(yǔ)音識(shí)別的數(shù)學(xué)表達(dá)式也可以看出(利用貝葉斯準(zhǔn)則變化之后的表達(dá)式),因而端到端的處理方式亦被引入到語(yǔ)音識(shí)別系統(tǒng)中。
4.1 CTC準(zhǔn)則
其核心思想是引入空白標(biāo)簽,然后基于前向后向算法做序列到序列的映射。CTC準(zhǔn)則可分為character-based CTC、other output units-based CTC、word-based CTC,由于CTC準(zhǔn)則是直接預(yù)測(cè)字符、單詞等,而不是預(yù)測(cè)音素,因而其能夠剔除語(yǔ)音識(shí)別中的字典等專(zhuān)家知識(shí)。由于在非word-based CTC中,仍然需要語(yǔ)言模型及解碼器。因而,character-basedCTC與other output units-based CTC是非純粹的端到端的語(yǔ)音識(shí)別系統(tǒng)。相反,word-based CTC模型是純粹的端到端語(yǔ)音識(shí)別系統(tǒng)。
基于word-based CTC準(zhǔn)則,使用10萬(wàn)個(gè)詞作為輸出目標(biāo)且使用 12.5 萬(wàn)小時(shí)訓(xùn)練樣本得到的語(yǔ)音序列到單詞序列的模型,能夠超越基于音素單元的模型。但是word-based CTC模型有訓(xùn)練困難及收斂慢的問(wèn)題。
4.2 Attention-based模型
相比于CTC準(zhǔn)則,Attention-based模型不需要有幀間獨(dú)立性假設(shè),這也是Attention-based模型的一大優(yōu)勢(shì),因而Attention-based模型可能能夠取得更好的識(shí)別性能。但是相比于CTC準(zhǔn)則,Attention-based模型訓(xùn)練更加困難,且有不能單調(diào)地從左到右對(duì)齊及收斂更慢的缺點(diǎn)。通過(guò)將 CTC 目標(biāo)函數(shù)用作輔助代價(jià)函數(shù),Attention訓(xùn)練和 CTC 訓(xùn)練以一種多任務(wù)學(xué)習(xí)的方式結(jié)合到了一起。這種訓(xùn)練策略能夠很大程度上改善Attention-based模型的收斂問(wèn)題,并且緩解了對(duì)齊問(wèn)題。
語(yǔ)音識(shí)別的發(fā)展過(guò)程中,深度學(xué)習(xí)起到了關(guān)鍵的作用。聲學(xué)模型遵循從 DNN 到 LSTM再到端到端建模的發(fā)展路徑。深度學(xué)習(xí)最大的優(yōu)勢(shì)之一是特征表征。在有噪聲、回響等情況下,深度學(xué)習(xí)可以把噪聲、回響看為新的特征,并通過(guò)對(duì)有噪聲、回響數(shù)據(jù)的學(xué)習(xí),達(dá)到比較理想的識(shí)別性能。目前階段,端到端的建模方式是聲學(xué)模型建模的重點(diǎn)研究方向,但是相比于其它的建模方式,其還沒(méi)有取得明顯的性能優(yōu)勢(shì)。如何在端到端建模的基礎(chǔ)上,提升訓(xùn)練速度及性能,并解決收斂問(wèn)題是聲學(xué)模型的重要研究方向。
5、解碼
基于訓(xùn)練好的聲學(xué)模型,并結(jié)合詞典、語(yǔ)言模型,對(duì)輸入的語(yǔ)音幀序列識(shí)別的過(guò)程即為解碼的過(guò)程。傳統(tǒng)的解碼是將聲學(xué)模型、詞典以及語(yǔ)言模型編譯成一個(gè)網(wǎng)絡(luò)。解碼就是在這個(gè)動(dòng)態(tài)網(wǎng)絡(luò)空間中,基于最大后驗(yàn)概率,選擇一條或多條最優(yōu)路徑作為識(shí)別結(jié)果(最優(yōu)的輸出字符序列)。搜索常用的方法是Viterbi算法。對(duì)于端到端的語(yǔ)音識(shí)別系統(tǒng),最簡(jiǎn)單的解碼方法是beam search算法。
6、遠(yuǎn)場(chǎng)復(fù)雜環(huán)境下解決方案
目前階段,在近場(chǎng)安靜環(huán)境下,語(yǔ)音識(shí)別能夠取得非常理想的識(shí)別效果,但是在高噪聲、多人說(shuō)話(huà)、強(qiáng)口音等環(huán)境,特別是遠(yuǎn)場(chǎng)環(huán)境下,語(yǔ)音識(shí)別還有諸多問(wèn)題需要解決。語(yǔ)音模型自適應(yīng)、語(yǔ)音增強(qiáng)與分離、識(shí)別模型優(yōu)化等是常用的可選解決方案。
6.1 語(yǔ)音增強(qiáng)與分離
遠(yuǎn)場(chǎng)環(huán)境下,語(yǔ)音輸入信號(hào)衰減比較嚴(yán)重,為了對(duì)語(yǔ)音信號(hào)增強(qiáng),常采用麥克風(fēng)陣列的波束形成技術(shù),比如,Google Home采用雙麥的設(shè)計(jì)方案,亞馬遜Echo采用6+1的麥克風(fēng)陣列設(shè)計(jì)方案。近年,深度學(xué)習(xí)方法被應(yīng)用到語(yǔ)音增強(qiáng)與分離中,核心思想是把語(yǔ)音增強(qiáng)與分離轉(zhuǎn)化為一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題,即預(yù)測(cè)輸入聲音源的問(wèn)題。有研究使用DNN替代波束形成,實(shí)現(xiàn)語(yǔ)音增強(qiáng),并在一定場(chǎng)景下取得了比較理想的效果。但是在背景噪聲很大的環(huán)境中,該方法性能還有較大提升空間。
在多人說(shuō)話(huà)的情況下,如果不對(duì)輸入信號(hào)做分離處理,而進(jìn)行語(yǔ)音識(shí)別的話(huà),識(shí)別效果會(huì)很差。對(duì)于該問(wèn)題,在多個(gè)說(shuō)話(huà)人距離較遠(yuǎn)的情況下,波束形成是一個(gè)比較好的解決方案,但是當(dāng)多個(gè)說(shuō)話(huà)人距離很近的時(shí)候,波束形成的語(yǔ)音分離效果也很差。為了避開(kāi)波束形成所帶來(lái)的場(chǎng)景分類(lèi)問(wèn)題,傳統(tǒng)的方法多是在單通道下嘗試解決該問(wèn)題,常用算法有computational auditory scene analysis、非負(fù)矩陣分解、deep clustering 等,但是這些方法只有當(dāng)噪聲信號(hào)(除聲源外的其他信號(hào))與聲音源信號(hào)有明顯不同的特征時(shí),這些技術(shù)才取得比較好的效果。其它情況下,這些方法在語(yǔ)音分離中取得的效果一般。2016年,俞棟博士提出了一種新的深度學(xué)習(xí)訓(xùn)練準(zhǔn)則-- permutation invariant training,巧妙地解決了該問(wèn)題,并取得了不錯(cuò)的效果。
6.2 語(yǔ)音模型自適應(yīng)
大量且豐富(能夠提供更多信息)的數(shù)據(jù)集是提升模型泛化能力的最直接簡(jiǎn)單的方法;
基于成本及訓(xùn)練時(shí)間的考慮,一般情況下只使用有限的訓(xùn)練數(shù)據(jù)。此時(shí),在模型訓(xùn)練中加入Kullback-Leiblerdivergence正則項(xiàng)是解決模型自適應(yīng)問(wèn)題非常有效的方式;
除了加入正則項(xiàng)外,使用非常少的參數(shù)來(lái)表征說(shuō)話(huà)者特征是另一種自適應(yīng)方式,其包括:奇異值分解瓶頸自適應(yīng),把滿(mǎn)秩矩陣分解為兩個(gè)低秩矩陣,減小訓(xùn)練參數(shù);子空間法,子空間法又包括:
1. 在輸入空間及深度網(wǎng)絡(luò)的各個(gè)層中加入i-vector、揚(yáng)聲器(speaker)編碼、噪聲估計(jì)等輔助特征;
2. 聚類(lèi)自適應(yīng)訓(xùn)練(CAT);
3. 隱層分解(FHL),相比于CAT,F(xiàn)HL只需要少量的訓(xùn)練數(shù)據(jù),原因在于FHL的基是秩為1的矩陣,而CAT的基是滿(mǎn)秩矩陣,在基數(shù)量一樣的情況下,CAT需要更多的訓(xùn)練數(shù)據(jù)。
實(shí)時(shí)性是語(yǔ)音識(shí)別應(yīng)用中關(guān)注度很高的問(wèn)題之一,實(shí)時(shí)性直接影響用戶(hù)的體驗(yàn)感,提高語(yǔ)音識(shí)別的實(shí)時(shí)性可以通過(guò)降低運(yùn)算時(shí)間成本與提升識(shí)別硬件計(jì)算能力兩方面完成。
7、降低運(yùn)算時(shí)間成本
SVD,基于奇異值分解的數(shù)學(xué)原理,把滿(mǎn)秩矩陣分解為兩個(gè)低秩矩陣,減小深度模型的參數(shù),且能夠不降低模型識(shí)別性能;
壓縮模型,使用向量量化或者極低比特量化算法;
改變模型結(jié)構(gòu),主要針對(duì)LSTM,在LSTM中增加一個(gè)線(xiàn)性映射層,降低原有LSTM的輸出維度,從而降低運(yùn)算時(shí)間成本;
使用跨幀的相關(guān)性來(lái)降低評(píng)估深度網(wǎng)絡(luò)分?jǐn)?shù)的頻率,對(duì)于DNN或CNN而言,這可以通過(guò)使用跳幀策略完成,即每隔幾幀才計(jì)算一次聲學(xué)分?jǐn)?shù),并在解碼時(shí)將該分?jǐn)?shù)復(fù)制到?jīng)]有評(píng)估聲學(xué)分?jǐn)?shù)的幀 。
另外,提升識(shí)別階段硬件的運(yùn)算能力,開(kāi)發(fā)專(zhuān)用的語(yǔ)音識(shí)別芯片對(duì)增強(qiáng)語(yǔ)音識(shí)別的實(shí)時(shí)性意義重大,下文將會(huì)在這方面展開(kāi)討論。
三、芯片
不斷積累的高質(zhì)量大數(shù)據(jù)與深度學(xué)習(xí)算法是語(yǔ)音識(shí)別性能能夠不斷提升的關(guān)鍵?;A(chǔ)層的核心處理芯片是支持海量訓(xùn)練數(shù)據(jù)、復(fù)雜的深度網(wǎng)絡(luò)建模方式以及實(shí)時(shí)推斷的關(guān)鍵要素。語(yǔ)音識(shí)別包括訓(xùn)練與識(shí)別(給定訓(xùn)練好的模型,對(duì)輸入語(yǔ)音進(jìn)行識(shí)別)兩部分。
在訓(xùn)練階段,由于數(shù)據(jù)量及計(jì)算量巨大,傳統(tǒng)的CPU或者單一處理器幾乎無(wú)法單獨(dú)地完成一個(gè)模型訓(xùn)練過(guò)程(初始階段,谷歌大腦語(yǔ)音識(shí)別項(xiàng)目是基于16000個(gè)CPU,用了75天,完成一個(gè)有156M參數(shù)的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練工作)。原因在于CPU芯片架構(gòu)中只有少量的邏輯運(yùn)算單元,且指令執(zhí)行是一條接一條的串行過(guò)程,其算力不足。研發(fā)具有高計(jì)算能力的芯片成為語(yǔ)音識(shí)別乃至整個(gè)人工智能硬件的發(fā)展趨勢(shì)。
與CPU不同的是,GPU具有大量的計(jì)算單元,因而特別適合大規(guī)模并行計(jì)算。另外,FPGA、TPU、ASIC這些延續(xù)傳統(tǒng)架構(gòu)的芯片亦在大規(guī)模并行計(jì)算中得到廣泛的應(yīng)用。需要注意的是,從本質(zhì)上講,這些芯片都是計(jì)算性能與靈活性/通用性trade-off的結(jié)果,即,如圖3所示。CPU,GPU是通用處理器,DSP歸為ASP,TPU是ASIC這一類(lèi),F(xiàn)PGA則是一種Configurable Hardware。
另外,基于實(shí)時(shí)性、低功耗、高計(jì)算力的需求,使用專(zhuān)屬語(yǔ)音識(shí)別AI芯片處理識(shí)別階段大量的矩陣運(yùn)算,進(jìn)行運(yùn)算加速是今后終端語(yǔ)音識(shí)別芯片市場(chǎng)的主流方向。
1、云端場(chǎng)景
由于計(jì)算量、訓(xùn)練數(shù)據(jù)量極大,且需要大量的并行運(yùn)算,目前語(yǔ)音識(shí)別的模型訓(xùn)練部分基本都放在云端進(jìn)行。在云端訓(xùn)練中,英偉達(dá)的GPU占主導(dǎo)市場(chǎng),多GPU并行架構(gòu)是終端訓(xùn)練常用的基礎(chǔ)架構(gòu)方案。另外,Google在自己的人工智能生態(tài)中,使用TPU做訓(xùn)練與識(shí)別。
目前階段,語(yǔ)音識(shí)別公司的識(shí)別部分也大多放在云端,比如Google home、亞馬遜Echo,國(guó)內(nèi)的科大訊飛、云知聲等。在云端識(shí)別中,雖然也有使用GPU,但是GPU并不是最優(yōu)方案,更多的是利用CPU、GPU、FPGA各自?xún)?yōu)勢(shì),采用異構(gòu)計(jì)算方案(CPU+GPU+FPGA/ASIC)。
2、終端場(chǎng)景
在智能家居等行業(yè)應(yīng)用中,對(duì)實(shí)時(shí)性、穩(wěn)定性及隱私性有極高的要求。出于對(duì)云端數(shù)據(jù)處理能力、網(wǎng)絡(luò)延遲及數(shù)據(jù)安全性的考慮,把計(jì)算下放到終端硬件中的邊緣計(jì)算得到了快速的發(fā)展。終端離線(xiàn)的語(yǔ)音識(shí)別即是一種基于邊緣計(jì)算的邊緣智能,我們認(rèn)為離線(xiàn)與在線(xiàn)是語(yǔ)音識(shí)別共存的發(fā)展路線(xiàn)。在終端離線(xiàn)識(shí)別中,需要把訓(xùn)練好的模型存儲(chǔ)到芯片。給定語(yǔ)音輸入時(shí),引擎會(huì)調(diào)用模型,完成識(shí)別。終端語(yǔ)音識(shí)別兩個(gè)關(guān)鍵因素是實(shí)時(shí)性與成本,其中實(shí)時(shí)性影響用戶(hù)體驗(yàn),成本影響語(yǔ)音識(shí)別應(yīng)用范圍。
由于深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中取得明顯的性能優(yōu)勢(shì),其是目前主流的語(yǔ)音識(shí)別建模方式。但是神經(jīng)網(wǎng)絡(luò)的模型參數(shù)量一般非常大,且識(shí)別過(guò)程中有大量的矩陣計(jì)算,常用的DSP或者CPU處理該問(wèn)題時(shí)需要大量的時(shí)間,從而無(wú)法滿(mǎn)足語(yǔ)音識(shí)別的實(shí)時(shí)性需求。GPU、FPGA的價(jià)格又是阻礙其在終端語(yǔ)音識(shí)別中大規(guī)模應(yīng)用的主要障礙??紤]到終端應(yīng)用中,場(chǎng)景相對(duì)比較固定,且需要很高的計(jì)算性能,研發(fā)語(yǔ)音識(shí)別專(zhuān)屬芯片是終端語(yǔ)音識(shí)別硬件發(fā)展趨勢(shì)。
啟英泰倫(ChipIntelli):2015年11月在成都成立。2016年6月推出了全球首款基于人工智能的語(yǔ)音識(shí)別芯片CI1006,該芯片集成了神經(jīng)網(wǎng)絡(luò)加速硬件,可實(shí)現(xiàn)單芯片、本地離線(xiàn)、大詞匯量識(shí)別,且識(shí)別率明顯高于傳統(tǒng)終端語(yǔ)音識(shí)別方案。另外,啟英泰倫能夠提供廉價(jià)的單麥遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別模組,其實(shí)際識(shí)別效果能夠媲美使用了科勝訊降噪模塊的雙麥模組,大幅度降低遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別模組成本。啟英泰倫在終端語(yǔ)音識(shí)別專(zhuān)用芯片發(fā)展上取得了明顯的技術(shù)及先發(fā)優(yōu)勢(shì)。
MIT項(xiàng)目:MIT黑科技,即,MIT在ISSCC2017上發(fā)表的paper里的芯片,該芯片能夠支持DNN運(yùn)算架構(gòu),進(jìn)行高性能的數(shù)據(jù)并行計(jì)算,可以實(shí)現(xiàn)單芯片離線(xiàn)識(shí)別上千單詞。
云知聲:云知聲致力于打造“云端芯”語(yǔ)音生態(tài)服務(wù)系統(tǒng),其剛獲取3億人民幣的投資,將把部分資金投入到終端語(yǔ)音識(shí)別芯片“UniOne”的研發(fā)中,據(jù)報(bào)道,該芯片將會(huì)內(nèi)置DNN處理單元,兼容多麥克風(fēng)陣列。
過(guò)去幾十年,尤其是最近幾年,語(yǔ)音識(shí)別技術(shù)不斷取得突破。但是,在大多數(shù)場(chǎng)景下,語(yǔ)音識(shí)別遠(yuǎn)沒(méi)有達(dá)到完美。解決遠(yuǎn)場(chǎng)復(fù)雜環(huán)境下的語(yǔ)音識(shí)別問(wèn)題仍然是當(dāng)前研究熱點(diǎn)。另外,通常情況下,語(yǔ)音識(shí)別都是針對(duì)特定的任務(wù),訓(xùn)練專(zhuān)用的模型,因而,模型的可移植性比較差。
人類(lèi)在對(duì)話(huà)過(guò)程中,可以很高效的利用先驗(yàn)知識(shí),但是目前的語(yǔ)音識(shí)別系統(tǒng)都還無(wú)法有效利用先驗(yàn)知識(shí)。因此,語(yǔ)音識(shí)別還有很多問(wèn)題待解決。令人興奮的是,隨著高質(zhì)量數(shù)據(jù)的不斷積累、技術(shù)的不斷突破及硬件平臺(tái)算力的提升,語(yǔ)音識(shí)別正在向我們期待的方向快速發(fā)展。
評(píng)論