五月丁香婷婷男人天堂超碰在线亚洲区,青青草原视频网站

智能語音發(fā)展如火如荼

根據(jù)《2018中國智能語音行業(yè)前景研究報告》，2017年中國的智能語音市場規(guī)模已經(jīng)達到了105.71億元，比2016年增長了70%，而2018年這個規(guī)模預計將繼續(xù)擴大三分之一，達到159.7億元。

國內(nèi)的行業(yè)規(guī)模越來越大，但從技術角度看，目前的智能語音發(fā)展到了什么階段呢？我們先從頭開始說。

上世紀50年代到60年代，語音識別研究著眼于單個字詞到連續(xù)語音的識別，當時最大的困境是對相關數(shù)據(jù)的計算能力的低下，這直接導致該時期研究進展極其緩慢。到了70年代，計算機性能大幅提升，之前的問題便不復存在，并且隨著計算機軟硬件技術的高速發(fā)展，該研究已不再受困于計算能力，人們便開始將研究重點放在數(shù)據(jù)算法的優(yōu)化提升上，并將這一方向保持至今。

簡單來講，這個方向的問題解決方案是基于一個框架，通過對框架內(nèi)的各部分進行改進，最終向著識別的極限正確率邁進。各部分中，聲學模型和語言模型的構建，則是整個方案中的研究焦點。

80年代末李開復將隱馬爾科夫模型與高斯混合模型（GMM）相結合進行語音識別建模，開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”,即SPHINX系統(tǒng)。隨后，主流的GMM-HMM技術框架的發(fā)展日益穩(wěn)定，但語音識別效果難以轉向應用化的局面長時期沒有被打破，這意味著語音識別技術又遇到了瓶頸。

轉機出現(xiàn)在2006年。這一年，深度學習的概念被辛頓提出，深度神經(jīng)網(wǎng)絡（Deep Neural Network，DNN）研究因此而復蘇。2009年，辛頓和他的學生將深度神經(jīng)網(wǎng)絡應用于語音的聲學建模上并獲得成功。到了2010年前后，微軟研究院的俞棟、鄧力等人將深度學習在圖像領域的突破移植到語音識別領域，使識別錯誤率降低了20%以上。從此，基于GMM-HMM的語音識別框架被打破，人們開始轉向基于DNN-HMM的語音識別模型的研究。

從2011年到2018年，以深度神經(jīng)網(wǎng)絡為基礎的語音識別建模技術迅速發(fā)展，語音識別乃至語音交互行業(yè)呈現(xiàn)出這樣一個現(xiàn)象：全世界范圍內(nèi)的企業(yè)的建模技術萬變不離“深度神經(jīng)網(wǎng)絡”這一宗，雖大同小異但又各顯神通。

技術篇：語音識別和NLP技術仍不成熟

智能語音語義包含語音合成、語音識別和自然語言處理（NLP）三項主要技術。

語音合成技術發(fā)展最早，應用已較為普遍，除了合成音仍偏機械之外，基本不存在太大技術問題；語音識別在2012年卷積神經(jīng)網(wǎng)絡（CNN）應用之后，準確率大幅提升，已經(jīng)在C端、B端得到了廣泛應用，但效果和體驗還不夠理想；NLP技術雖然在搜索引擎中早有應用，但在人機交互領域仍屬于淺層處理。

語音識別“魯棒性“問題顯著

在生物學中，有個術語叫做“魯棒性”，是指系統(tǒng)在擾動或不確定的情況下，仍能保持它的特征行為。這一問題在語音識別領域也存在。

語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復雜性，系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實使用場景中，考慮到遠場、方言、噪音、斷句等問題，準確率會大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識別準確率，更多的是人工測評結果，只在安靜室內(nèi)的進場識別中才能實現(xiàn)。

要解決語音識別魯棒性問題，需要在技術和產(chǎn)品兩方面進行優(yōu)化。一方面，在語音增強、麥克風陣列以及說話人分離等多項技術領域持續(xù)投入，并結合后端語義，促進對上下文的理解，從而提升識別效果；另一方面，需要從產(chǎn)品設計上進行優(yōu)化，比如通過進一步交互，使語音識別變得更為準確。

語義分析仍是淺層處理

NLP技術大致包含三個層面：詞法分析、句法分析、語義分析，三者之間既遞進又相互包含。

詞義消歧是NLP技術的最大瓶頸。機器在切詞、標注詞性、并識別完后，需要對各個詞語進行理解。由于語言中往往一詞多義，人在理解時會基于已有知識儲備和上下文環(huán)境，但機器很難做到。雖然系統(tǒng)會對句子做句法分析，可以在一定程度上幫助機器理解詞義和語義，但實際情況并不理想。

目前，機器對句子的理解還只能做到語義角色標注層面，即標出句中的句子成分和主被動關系等，它屬于比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言，并實現(xiàn)自然交互，還是需要依賴深度學習技術，通過大規(guī)模的數(shù)據(jù)訓練，讓機器不斷學習。當然，在實際應用領域中，也可以通過產(chǎn)品設計來減少較為模糊的問答內(nèi)容，以提升用戶體驗。

由于人工智能技術對數(shù)據(jù)依賴性極高，因此，這一領域的技術進步和產(chǎn)業(yè)化推進是一種協(xié)同關系——通過工程化的方法提升技術效果和體驗，從而促進產(chǎn)業(yè)化應用，再根據(jù)實際應用中的數(shù)據(jù)和反饋，反過來推動技術實現(xiàn)突破。那么，智能語音語義在產(chǎn)業(yè)化方面都有哪些應用領域，又存在哪些問題？

應用篇：C端提升體驗，B端提升效率

以問答和聊天為服務形式，智能語音語義在多個使用場景和行業(yè)領域都有廣泛應用，我們可以簡單從C端和B端兩個方向分別來看。

C端應用方面，主要用于移動設備、汽車、家居三大場景，用來變革原有人機交互方式；B端則針對垂直行業(yè)需求，提升人工效率，比如幫助醫(yī)生做電子病歷錄入，或代替部分人力工作，比如回答大部分簡單重復的客服問題。由于兩大領域解決的問題不同，因此遇到的挑戰(zhàn)也各不相同。

特別地，在智能機器人的應用方面，目前的機器人與用戶一般都會采用相互問答的小型對話形式進行交流。為實現(xiàn)上方便，問答對話的領域將被進行合理的限制。

除迎賓和問候語外，一般設計為4個問題域：有關時間、日期和星期的問答，有關全世界各大城市所在時區(qū)和當?shù)貢r間的問答，100以內(nèi)的數(shù)學四則運算題目的問答，沒有關系機器人的身世、本領等自身情況的問答。對于每個限定的問題域，相應詞匯表的大小是有限的。在限定領域、有限詞匯的條件下，機器人基本可以與觀眾進行自由問答，并可以在不同的問題與之間相互切換。系統(tǒng)工作流程圖如下：

智能語音語義在產(chǎn)業(yè)化方面有哪些應用

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關注

關注
213

文章
29748

瀏覽量
212965
語音識別

語音識別

+關注

關注
39

文章
1782

瀏覽量
114250
智能語音

智能語音

+關注

關注
11

文章
804

瀏覽量
49531

原文標題：智能語音主題月開啟，DNN時代語音技術的突破口在哪？

文章出處：【微信號：robotplaces，微信公眾號：機器人創(chuàng)新生態(tài)】歡迎添加關注！文章轉載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

智能語音語義在產(chǎn)業(yè)化方面有哪些應用

評論