一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳人工智能:10篇論文被收錄在INTERSPEECH 2020

深圳市汽車電子行業(yè)協(xié)會 ? 來源:深圳市汽車電子行業(yè)協(xié)會 ? 作者:深圳市汽車電子行 ? 2020-11-10 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

國際頂級的語音技術(shù)圈會議INTERSPEECH 2020于10月25-30日在中國上海舉辦,本次會議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國內(nèi)領(lǐng)先的對話式人工智能平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產(chǎn)學(xué)研用的一體化進程。

思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室

10篇論文被INTERSPEECH 2020收錄

INTERSPEECH 2020共接收有效論文總數(shù)2100余篇,實際收錄數(shù)量為1022篇。其中,思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態(tài)語音分離、口語語義理解等多方面的技術(shù)創(chuàng)新研究。

10篇論文簡要介紹如下:

《用于單通道多說話人語音識別的上下文嵌入表示學(xué)習(xí)方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文信息來提升多說話人語音識別的性能。我們設(shè)計了嵌入表示學(xué)習(xí)模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高級的訓(xùn)練策略來改進該新模型,即嵌入表示采樣和兩階段訓(xùn)練。實驗結(jié)果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。

圖:基于上下文嵌入表示的多說話人語音識別模型結(jié)構(gòu)

《在雞尾酒會中聆聽、觀察、理解:音頻-視頻-上下文的多模態(tài)語音分離》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多個說話人同時說話時,人類可以通過聽混合語音,觀看說話者并理解上下文信息,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(tài)(視覺模態(tài)、語音模態(tài)以及上下文信息模態(tài))來解決與說話者無關(guān)的語音分離問題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比,我們設(shè)計了特定模型來直接從語音混合中提取所有目標(biāo)說話人的上下文語言信息,然后將這些提取的上下文知識通過適當(dāng)?shù)淖⒁饬C制進一步合并到基于多模態(tài)信息的語音分離體系結(jié)構(gòu)中。實驗表明,在新提出的基于上下文信息的語音分離模型上可以觀察到性能顯著改善。

圖:基于音頻-視頻-上下文的多模態(tài)語音分離示意圖

《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》

Multi-modality Matters: A Performance Leap on VoxCeleb

來自不同模態(tài)的信息通常相互補償。我們在說話人嵌入特征級別探索了視聽人員驗證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們在說話人嵌入特征級別上使用視聽知識的最佳系統(tǒng)在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該數(shù)據(jù)集上報告的最好的結(jié)果。此外,我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個嘈雜的測試集。我們在說話人嵌入特征級別使用數(shù)據(jù)增廣策略來幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過這種數(shù)據(jù)增廣策略,所提出的視聽人員驗證系統(tǒng)在嘈雜的測試集上取得了更好的效果。

圖:在帶噪測試集上的性能比較

《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對話上下文的口語語義理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口語理解可以將自動語音識別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語義表示,語音識別錯誤會使后續(xù)口語理解模塊的性能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)(WCN)和BERT預(yù)訓(xùn)練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對WCN和對話上下文進行聯(lián)合編碼,在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語音識別的后驗概率。在口語理解的基準數(shù)據(jù)集DSTC2上進行的實驗表明,該方法大大優(yōu)于以前的最佳模型。

圖:與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較

《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對抗訓(xùn)練的說話人驗證領(lǐng)域自適應(yīng)》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我們使用領(lǐng)域?qū)褂?xùn)練來研究具有不同語言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現(xiàn)了約25.0%的相對平均等錯誤率(EER)的改進。

《基于雙重對抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測》

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我們提出了對偶對抗領(lǐng)域自適應(yīng)的框架,通過使用兩個領(lǐng)域鑒別器分別對欺騙數(shù)據(jù)和真實數(shù)據(jù)進行細粒度的對齊,從而提高欺騙檢測的性能。實驗表明:該框架對于通用的重放攻擊檢測更加地魯棒和有效。

《噪聲環(huán)境下通過半監(jiān)督音頻事件檢測模型訓(xùn)練的語音端點檢測器》

Voice activity detection in the wild via weakly supervised sound event detection

我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標(biāo)準VAD模型提升很多,GPV-B模型也獲得和標(biāo)準VAD模型可比的性能。

《神經(jīng)同態(tài)聲碼器》

Neural Homomorphic Vocoder

本文提出了神經(jīng)同態(tài)聲碼器(NHV),一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架,能夠通過多分辨率 STFT 損失和對抗損失函數(shù)聯(lián)合進行優(yōu)化,計算效率高,可控性和可解釋性好。

《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語種混雜語音識別》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結(jié)果表明,相比于基線的Transformer模型,我們的結(jié)構(gòu)可以取得大幅度的性能提升。

思必馳擁有全鏈路的軟硬一體化端到端語音交互系統(tǒng)能力,近年來不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新,通過思必馳-上海交通大學(xué)智能人機交互聯(lián)合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語音識別解碼技術(shù)、說話人識別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達技術(shù)等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實“全鏈路智能對話”技術(shù)以及“高自由度定制”方案能力。未來也會持續(xù)加大對基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級的核心投入,持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?;芰Γ铀傧蚋嘈袠I(yè)場景縱深賦能。

思必馳xiaochi獲2020 AESR

“口音種類識別“冠軍和“口音英語語音識別”亞軍

2020 AESR,即“INTERSPEECH 2020口音英語語音識別挑戰(zhàn)賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數(shù)據(jù),設(shè)置了“Track1-口音種類識別”和“Track2-口音英語語音識別”兩個賽道。由思必馳組建的“xiaochi”隊伍表現(xiàn)優(yōu)異,分別獲得“口音種類識別”第一名(全球共30個隊伍參賽),和“口音英語語音識別”第二名(全球42個隊伍參賽)。

在“Track1-口音種類識別”技術(shù)挑戰(zhàn)賽中,參賽隊伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù),訓(xùn)練語種分類模型。xiaochi隊伍的準確率高出第二名11個百分點,最終摘得冠軍。

數(shù)據(jù)策略上,xiaochi對8種口音訓(xùn)練音頻進行變語速數(shù)據(jù)增強,利用kaldi工具模擬噪聲和遠場,使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器,并生成8種口音訓(xùn)練音頻,最后對測試音頻采用sox變語速后與原始音頻拼接。模型訓(xùn)練時,采用了多機多卡的并行訓(xùn)練策略,有效降低了模型迭代和實驗速度。最終我們采用深層的TDNN模型,結(jié)合AAM loss等進行優(yōu)化,來訓(xùn)練8種口音的8分類模型。

經(jīng)過多個不同策略組合的實驗測試,最終發(fā)現(xiàn),“利用PPG等特征,結(jié)合基于tts的數(shù)據(jù)生成,多嵌入多層聯(lián)合優(yōu)化”等方法,能夠最高效快速識別不同口音種類。這也為未來業(yè)界進行多語種混合識別提供了很好的參考策略。

思必馳語音應(yīng)用負責(zé)人薛少飛

參與INTERSPEECH工業(yè)論壇并在線分享

今年INTERSPEECH 2020首次推出虛擬展會,以直播的方式舉辦在線論壇。思必馳高級技術(shù)總監(jiān)、語音應(yīng)用技術(shù)負責(zé)人薛少飛,10月29日(今晚)將在線分享思必馳在語音識別、語音喚醒、音頻檢測等語音交互關(guān)鍵技術(shù)方面的新進展。

責(zé)任編輯:xj

原文標(biāo)題:【會員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信公眾號:深圳市汽車電子行業(yè)協(xié)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關(guān)注

    關(guān)注

    12

    文章

    1247

    瀏覽量

    56442
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1781

    瀏覽量

    114226
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    337

    瀏覽量

    15334

原文標(biāo)題:【會員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信號:qidianxiehui,微信公眾號:深圳市汽車電子行業(yè)協(xié)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    與上海交大聯(lián)合實驗室研究成果入選兩大頂級會議

    近日,計算語言學(xué)與自然語言處理領(lǐng)域全球頂級會議ACL 2025及語音研究領(lǐng)域旗艦會議INTERSPEECH 2025相繼公布論文錄用結(jié)果。
    的頭像 發(fā)表于 07-11 16:24 ?194次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與上海交大聯(lián)合實驗室研究成果入選兩大頂級會議

    宣布,再獲新一輪融資

    自主品牌在辦公會議場景的深度創(chuàng)新、推動產(chǎn)品迭代與升級。 ? 成立于2007年,是國內(nèi)領(lǐng)先的對話式人工智能平臺公司。自創(chuàng)立以來,
    的頭像 發(fā)表于 06-26 01:09 ?3019次閱讀

    AI辦公本亮相京東直播間

    近日,董事長、CEO高始興與IOT事業(yè)部首席產(chǎn)品官馬斌斌現(xiàn)身「京東3C數(shù)碼采銷」直播
    的頭像 發(fā)表于 06-09 11:10 ?535次閱讀

    與上海交大聯(lián)合實驗室12論文ICASSP 2025收錄

    廣大學(xué)者的現(xiàn)場交流需求,IEEE信號處理學(xué)會特別安排ICASSP 2025在5月23日-25日于蘇州舉辦衛(wèi)星會議。-上海交大聯(lián)合實驗室團隊將參與本次現(xiàn)場交流。
    的頭像 發(fā)表于 05-17 11:41 ?734次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與上海交大聯(lián)合實驗室12<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>被</b>ICASSP 2025<b class='flag-5'>收錄</b>

    何維率一行蒞臨調(diào)研

    現(xiàn)場,董事長、CEO高始興介紹了的業(yè)務(wù)布局與落地應(yīng)用情況。
    的頭像 發(fā)表于 04-24 15:36 ?375次閱讀

    出席語言計算技術(shù)創(chuàng)新專題研討會

    近日,與東南大學(xué)蘇州校區(qū)聯(lián)合舉辦語言計算技術(shù)創(chuàng)新專題研討暨校企合作洽談會。聯(lián)合創(chuàng)始人
    的頭像 發(fā)表于 04-17 15:42 ?283次閱讀

    柳州市領(lǐng)導(dǎo)蒞臨調(diào)研考察

    近日,柳州市政府副市長湯振國、市政府副秘書長李榮軍、市工業(yè)和信息化局副局長莫春燕、市大數(shù)據(jù)局局長李玉輝、柳東新區(qū)管委會副主任吳佑松等一行蒞臨廣西,圍繞企業(yè)人工智能產(chǎn)品研發(fā)、應(yīng)用場
    的頭像 發(fā)表于 03-24 16:37 ?566次閱讀

    全新AI辦公本4G暢寫版即將上市

    智能辦公設(shè)備新品即將發(fā)布,全新「AI辦公
    的頭像 發(fā)表于 03-21 16:31 ?755次閱讀

    2月份大事件回顧

    董事長、CEO高始興受邀參會。習(xí)近平總書記召開民營企業(yè)座談會充分肯定了民營經(jīng)濟的重要地位和作用,作為江蘇省土生土長的人工智能企業(yè),備受鼓舞,
    的頭像 發(fā)表于 02-28 17:45 ?669次閱讀

    亮相2025年蘇州市“人工智能+”創(chuàng)新發(fā)展推進大會

    近日,2025年蘇州市“人工智能+”創(chuàng)新發(fā)展推進大會暨人工智能賦能新型工業(yè)化深度行(蘇州站)活動隆重舉行,專家學(xué)者、產(chǎn)業(yè)大咖、金融精英齊聚蘇州,共商“人工智能+”融合創(chuàng)新。作為人工智能
    的頭像 發(fā)表于 02-17 16:16 ?608次閱讀

    參與的智能家居團體標(biāo)準發(fā)布

    近日,中國標(biāo)準化協(xié)會發(fā)布通知:《智能家居場景工程技術(shù)規(guī)范》T/CAS 979-2024已起草完成并審查通過,正式準予發(fā)布,為該標(biāo)準起草單位。
    的頭像 發(fā)表于 12-31 16:57 ?857次閱讀

    攜手長城汽車入選2024年人工智能先鋒案例集

    日前,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟《2024年人工智能先鋒案例集》正式發(fā)布,長城汽車與聯(lián)合申報的“長城汽車Coffee Al語音助手”成功
    的頭像 發(fā)表于 11-26 17:56 ?1495次閱讀

    AI辦公本Turbo重磅發(fā)布

    近日,AI辦公本新品發(fā)布會如約而至,IOT事業(yè)部首席產(chǎn)品官馬斌斌詳細介紹了
    的頭像 發(fā)表于 10-31 14:23 ?1509次閱讀

    10月份大事件盤點

    日前,省科技廳黨組書記、廳長徐光輝一行在進行調(diào)研。董事長、CEO高始興,副總裁李春梅
    的頭像 發(fā)表于 10-30 15:01 ?683次閱讀

    9月份大事件盤點

    在“人工智能+”創(chuàng)新發(fā)展試驗區(qū)推進大會上,發(fā)布了蘇州市制造業(yè)應(yīng)用模型——中樞大模型,圍繞人工智能在行業(yè)中的痛點問題,整合多模態(tài)數(shù)據(jù),實
    的頭像 發(fā)表于 10-14 14:05 ?1056次閱讀