2020科大訊飛全球1024開發(fā)者節(jié)今天正式拉開帷幕,伴隨著AI的發(fā)展,我們得以更全面和細致地洞察人們的生活習(xí)慣,并為人們提供更加智能和便捷的服務(wù)。在人工智能的應(yīng)用場景中,最重要的一個就是語音交互。針對這一點,科大訊飛AI研究院常務(wù)副院長劉聰做了細致的講解,讓我們對當前語音交互技術(shù)有了更清晰和深入的了解。
我們知道語音識別是訊飛的傳統(tǒng)強項,從早期的呼叫、導(dǎo)航到2010年發(fā)布的訊飛超腦語音云和輸入法,從而開啟了中文語音輸入的新時代。通過深度學(xué)習(xí)等框架持續(xù)的迭代效果,我們又陸續(xù)推出了方言識別、遠場交互、多麥克風陣列等相關(guān)的功能。2015年,我們又將人機交互的場景拓展到人人對話的場景。為此我們總結(jié)出三點,我們將語音聽寫從簡單場景的可用做到了通用。這種場景的好用,語音轉(zhuǎn)寫從原來的不好用,做到了像演講、會議、庭審等很多復(fù)雜場景的好用。像語音控制、命令喚醒,我們也是從簡單場景的可用,做到了復(fù)雜場景的好用。
隨著現(xiàn)在語音識別在更多場景的應(yīng)用,語音識別的下一步發(fā)展方向是什么?又有哪些技術(shù)可以從實驗室場景走向成熟,還有哪些價值得我們發(fā)掘?
首先,我們認為語音識別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場景,去實現(xiàn)從語音到聲音,從單純的文字內(nèi)容識別到音頻的全場景解析。例如現(xiàn)在我們在泛娛樂當中,直播、短視頻,我們可以看到這里面有很多的更加復(fù)雜的聲音場景需要我們?nèi)ソ鉀Q。例如在直播的過程中,背景可能是復(fù)雜多樣的,可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經(jīng)常出現(xiàn)多人混疊的對話,這些對我們的語音識別都會有很大的影響。除此之外,這些視頻當中還會包含像笑聲、掌聲、各種音效等聲音,所以我們需要提出一些新的方案。當前的框架已經(jīng)難以去解決這樣一個復(fù)雜的問題。
針對這樣一個場景,我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面,要有針對性的將我們感興趣的聲音提取出來。這里我們也是展示了全場景音頻解析的整體方案。首先我們是通過多分辨率特征提取的聲音檢測方案,再結(jié)合我們的序列訓(xùn)練,對一些相似聲音進行精細建模,可以實現(xiàn)將笑聲、音效等非語音的聲音和語音內(nèi)容分離。針對包含語音的有效內(nèi)容,我們也使用了語音降噪和分離的方案,綜合利用我們的聲音、文本、說話等信息,以及在有條件的情況下,還可以使用多模態(tài)的唇形、視線以及麥克風陣列的空間位置等信息來進行聯(lián)合建模。以上這些才能保證我們能夠持續(xù)保持語音合成以及語音識別技術(shù)的領(lǐng)先。
與此同時,我們也和合作伙伴一起,不斷提升在直播等復(fù)雜場景上的語音識別效果,并且準確率從60%提到了85%。未來我們相關(guān)的技術(shù)也會在我們的開放平臺——訊飛聽見等上線。未來,我們會做得更好,請大家繼續(xù)期待。
責任編輯:PSY
-
智能
+關(guān)注
關(guān)注
8文章
1733瀏覽量
120243 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279921 -
語音識別技術(shù)
+關(guān)注
關(guān)注
0文章
55瀏覽量
13076
發(fā)布評論請先 登錄
各位大佬,想問一下為什么這個程序一步一步運行就可以讀出正確的讀數(shù),正常運行卻讀不出正確讀數(shù)
語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實例
xshell免費版,xshell免費版的一般情況

語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
語音識別技術(shù)的應(yīng)用與發(fā)展
如何限制容器可以使用的CPU資源

評論