國際頂級的語音技術(shù)圈會議INTERSPEECH 2020于10月25-30日在中國上海舉辦,本次會議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國內(nèi)領(lǐng)先的對話式人工智能平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產(chǎn)學(xué)研用的一體化進程。
思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室
10篇論文被INTERSPEECH 2020收錄
INTERSPEECH 2020共接收有效論文總數(shù)2100余篇,實際收錄數(shù)量為1022篇。其中,思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態(tài)語音分離、口語語義理解等多方面的技術(shù)創(chuàng)新研究。
10篇論文簡要介紹如下:
《用于單通道多說話人語音識別的上下文嵌入表示學(xué)習(xí)方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文信息來提升多說話人語音識別的性能。我們設(shè)計了嵌入表示學(xué)習(xí)模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高級的訓(xùn)練策略來改進該新模型,即嵌入表示采樣和兩階段訓(xùn)練。實驗結(jié)果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。
圖:基于上下文嵌入表示的多說話人語音識別模型結(jié)構(gòu)
《在雞尾酒會中聆聽、觀察、理解:音頻-視頻-上下文的多模態(tài)語音分離》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多個說話人同時說話時,人類可以通過聽混合語音,觀看說話者并理解上下文信息,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(tài)(視覺模態(tài)、語音模態(tài)以及上下文信息模態(tài))來解決與說話者無關(guān)的語音分離問題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比,我們設(shè)計了特定模型來直接從語音混合中提取所有目標(biāo)說話人的上下文語言信息,然后將這些提取的上下文知識通過適當(dāng)?shù)淖⒁饬C制進一步合并到基于多模態(tài)信息的語音分離體系結(jié)構(gòu)中。實驗表明,在新提出的基于上下文信息的語音分離模型上可以觀察到性能顯著改善。
圖:基于音頻-視頻-上下文的多模態(tài)語音分離示意圖
《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》
Multi-modality Matters: A Performance Leap on VoxCeleb
來自不同模態(tài)的信息通常相互補償。我們在說話人嵌入特征級別探索了視聽人員驗證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們在說話人嵌入特征級別上使用視聽知識的最佳系統(tǒng)在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該數(shù)據(jù)集上報告的最好的結(jié)果。此外,我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個嘈雜的測試集。我們在說話人嵌入特征級別使用數(shù)據(jù)增廣策略來幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過這種數(shù)據(jù)增廣策略,所提出的視聽人員驗證系統(tǒng)在嘈雜的測試集上取得了更好的效果。
圖:在帶噪測試集上的性能比較
《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對話上下文的口語語義理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口語理解可以將自動語音識別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語義表示,語音識別錯誤會使后續(xù)口語理解模塊的性能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)(WCN)和BERT預(yù)訓(xùn)練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對WCN和對話上下文進行聯(lián)合編碼,在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語音識別的后驗概率。在口語理解的基準數(shù)據(jù)集DSTC2上進行的實驗表明,該方法大大優(yōu)于以前的最佳模型。
圖:與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較
《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對抗訓(xùn)練的說話人驗證領(lǐng)域自適應(yīng)》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我們使用領(lǐng)域?qū)褂?xùn)練來研究具有不同語言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現(xiàn)了約25.0%的相對平均等錯誤率(EER)的改進。
《基于雙重對抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我們提出了對偶對抗領(lǐng)域自適應(yīng)的框架,通過使用兩個領(lǐng)域鑒別器分別對欺騙數(shù)據(jù)和真實數(shù)據(jù)進行細粒度的對齊,從而提高欺騙檢測的性能。實驗表明:該框架對于通用的重放攻擊檢測更加地魯棒和有效。
《噪聲環(huán)境下通過半監(jiān)督音頻事件檢測模型訓(xùn)練的語音端點檢測器》
Voice activity detection in the wild via weakly supervised sound event detection
我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標(biāo)準VAD模型提升很多,GPV-B模型也獲得和標(biāo)準VAD模型可比的性能。
《神經(jīng)同態(tài)聲碼器》
Neural Homomorphic Vocoder
本文提出了神經(jīng)同態(tài)聲碼器(NHV),一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架,能夠通過多分辨率 STFT 損失和對抗損失函數(shù)聯(lián)合進行優(yōu)化,計算效率高,可控性和可解釋性好。
《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語種混雜語音識別》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結(jié)果表明,相比于基線的Transformer模型,我們的結(jié)構(gòu)可以取得大幅度的性能提升。
思必馳擁有全鏈路的軟硬一體化端到端語音交互系統(tǒng)能力,近年來不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新,通過思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語音識別解碼技術(shù)、說話人識別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達技術(shù)等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實“全鏈路智能對話”技術(shù)以及“高自由度定制”方案能力。未來也會持續(xù)加大對基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級的核心投入,持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?;芰Γ铀傧蚋嘈袠I(yè)場景縱深賦能。
思必馳xiaochi獲2020 AESR
“口音種類識別“冠軍和“口音英語語音識別”亞軍
2020 AESR,即“INTERSPEECH 2020口音英語語音識別挑戰(zhàn)賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數(shù)據(jù),設(shè)置了“Track1-口音種類識別”和“Track2-口音英語語音識別”兩個賽道。由思必馳組建的“xiaochi”隊伍表現(xiàn)優(yōu)異,分別獲得“口音種類識別”第一名(全球共30個隊伍參賽),和“口音英語語音識別”第二名(全球42個隊伍參賽)。
在“Track1-口音種類識別”技術(shù)挑戰(zhàn)賽中,參賽隊伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù),訓(xùn)練語種分類模型。xiaochi隊伍的準確率高出第二名11個百分點,最終摘得冠軍。
數(shù)據(jù)策略上,xiaochi對8種口音訓(xùn)練音頻進行變語速數(shù)據(jù)增強,利用kaldi工具模擬噪聲和遠場,使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器,并生成8種口音訓(xùn)練音頻,最后對測試音頻采用sox變語速后與原始音頻拼接。模型訓(xùn)練時,采用了多機多卡的并行訓(xùn)練策略,有效降低了模型迭代和實驗速度。最終我們采用深層的TDNN模型,結(jié)合AAM loss等進行優(yōu)化,來訓(xùn)練8種口音的8分類模型。
經(jīng)過多個不同策略組合的實驗測試,最終發(fā)現(xiàn),“利用PPG等特征,結(jié)合基于tts的數(shù)據(jù)生成,多嵌入多層聯(lián)合優(yōu)化”等方法,能夠最高效快速識別不同口音種類。這也為未來業(yè)界進行多語種混合識別提供了很好的參考策略。
思必馳語音應(yīng)用負責(zé)人薛少飛
參與INTERSPEECH工業(yè)論壇并在線分享
今年INTERSPEECH 2020首次推出虛擬展會,以直播的方式舉辦在線論壇。思必馳高級技術(shù)總監(jiān)、語音應(yīng)用技術(shù)負責(zé)人薛少飛,10月29日(今晚)將在線分享思必馳在語音識別、語音喚醒、音頻檢測等語音交互關(guān)鍵技術(shù)方面的新進展。
責(zé)任編輯:xj
原文標(biāo)題:【會員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信公眾號:深圳市汽車電子行業(yè)協(xié)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
人機交互
+關(guān)注
關(guān)注
12文章
1247瀏覽量
56442 -
語音識別
+關(guān)注
關(guān)注
39文章
1781瀏覽量
114226 -
思必馳
+關(guān)注
關(guān)注
4文章
337瀏覽量
15334
原文標(biāo)題:【會員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信號:qidianxiehui,微信公眾號:深圳市汽車電子行業(yè)協(xié)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
思必馳與上海交大聯(lián)合實驗室研究成果入選兩大頂級會議

思必馳宣布,再獲新一輪融資
思必馳AI辦公本亮相京東直播間
思必馳與上海交大聯(lián)合實驗室12篇論文被ICASSP 2025收錄

評論