一、語音識別技術(shù)介紹
語音識別技術(shù),也被稱為自動(dòng)語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
二、語音識別的基本原理
系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個(gè)基本單元,它的基本結(jié)構(gòu)如下圖所示:
未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預(yù)處理,再根據(jù)人的語音特點(diǎn)建立語音模型,對輸入的語音信號進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識別所需的模板。而計(jì)算機(jī)在識別過程中要根據(jù)語音識別的模型,將計(jì)算機(jī)中存放的語音模板與輸入的語音信號的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義,通過查表就可以給出計(jì)算機(jī)的識別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系。
三、語音識別系統(tǒng)的分類
系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。如果從說話者與識別系統(tǒng)的相關(guān)性考慮,可以將識別系統(tǒng)分為三類:(1)特定人語音識別系統(tǒng)。僅考慮對于專人的話音進(jìn)行識別。(2)非特定人語音系統(tǒng)。識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行學(xué)習(xí)。(3)多人的識別系統(tǒng)。通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進(jìn)行訓(xùn)練。
如果從說話的方式考慮,也可以將識別系統(tǒng)分為三類:(1)孤立詞語音識別系統(tǒng)。孤立詞識別系統(tǒng)要求輸入每個(gè)詞后要停頓。(2)連接詞語音識別系統(tǒng)。連接詞輸入系統(tǒng)要求對每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn)。(3)連續(xù)語音識別系統(tǒng)。連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。
如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為三類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個(gè)詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號處理器運(yùn)算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識別系統(tǒng),將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
四、語音識別的應(yīng)用
可以應(yīng)用的領(lǐng)域大致分為大五類:
辦公室或商務(wù)系統(tǒng)。典型的應(yīng)用包括:填寫數(shù)據(jù)表格、數(shù)據(jù)庫管理和控制、鍵盤功能增強(qiáng)等等。
制造業(yè):在質(zhì)量控制中,語音識別系統(tǒng)可以為制造過程提供一種“不用手”、“不用眼”的檢控(部件檢查)。
電信:相當(dāng)廣泛的一類應(yīng)用在撥號電話系統(tǒng)上都是可行的,包括話務(wù)員協(xié)助服務(wù)的自動(dòng)化、國際國內(nèi)遠(yuǎn)程電子商務(wù)、語音呼叫分配、語音撥號、分類訂貨。
醫(yī)療:這方面的主要應(yīng)用是由聲音來生成和編輯專業(yè)的醫(yī)療報(bào)告。
其他:包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識別系統(tǒng)、車輛行駛中一些非關(guān)鍵功能的語音控制,如車載交通路況控制系統(tǒng)、音響系統(tǒng)。
五、國內(nèi)語音識別技術(shù)上市公司匯總
國內(nèi)語音識別技術(shù)上市公司——科大訊飛
?。ü善贝a:002230)
科大訊飛股份有限公司成立于1999年,是一家專業(yè)從事智能語音及語言技術(shù)、人工智能技術(shù)研究,軟件及芯片產(chǎn)品開發(fā),語音信息服務(wù)及電子政務(wù)系統(tǒng)集成的國家級骨干軟件企業(yè)。2008年,科大訊飛在深圳證券交易所掛牌上市,股票代碼:002230。
科大訊飛在智能語音核心技術(shù)研究領(lǐng)域,一直秉承“從市場中來、到市場中去”,“用正確的方法、做有用的研究”等核心理念,致力于建立智能語音及語言核心技術(shù)和核心技術(shù)應(yīng)用產(chǎn)業(yè)化兩大方面的競爭力??拼笥嶏w的核心技術(shù)主要包括:語音識別技術(shù)、語音合成技術(shù)、自然語言理解技術(shù)、語音評測技術(shù)、聲紋語種技術(shù)、手寫識別技術(shù)等。科大訊飛始終堅(jiān)持提供國際領(lǐng)先的語音及語言整體解決方案,不斷推出符合國家和社會(huì)需求的智能語音及語言技術(shù)產(chǎn)品及應(yīng)用服務(wù)。
科大訊飛的主要核心技術(shù)介紹如下:
2017年11月22日,匯頂科技(603160)宣布獲得國家集成電路產(chǎn)業(yè)投資基金股份有限公司(以下簡稱大基金)的戰(zhàn)略投資。同時(shí),公司控股股東張帆先生宣布,增持匯頂科技股份。其中,大基金通過協(xié)議轉(zhuǎn)讓方式受讓匯發(fā)國際持有的匯頂科技22,712,917股股票,受讓匯信投資持有的匯頂科技7,487,083股股票,共計(jì)受讓股份30,200,000股,持股比例6.65%;張帆先生通過上海證券交易所交易系統(tǒng)以大宗交易方式增持公司股份4,542,584股,增持比例1%。
全球人機(jī)交互及生物識別技術(shù)領(lǐng)導(dǎo)者:1)公司實(shí)際控制人張帆持持股48.3946%,擁有4家全資子公司匯芯科技、匯頂香港、匯頂美國、金慧通和1家控股子公司易易非凡。2)公司主營業(yè)務(wù)電容屏觸控芯片、指紋識別芯片和固定電話芯片,主要客戶為手機(jī)、平板電腦等智能終端廠商。4)公司主營業(yè)務(wù)始終保持高的產(chǎn)銷率,指紋識別芯片上升到80%多,電容屏觸控芯片、固定電話芯片始終保持在100%左右。
國內(nèi)語音識別技術(shù)上市公司——匯頂科技
?。ü善贝a:603160)
匯頂科技成立于2002年,作為全球人機(jī)交互及生物識別技術(shù)領(lǐng)導(dǎo)者,目前已在包括手機(jī)、平板電腦和可穿戴產(chǎn)品等在內(nèi)的智能移動(dòng)終端領(lǐng)域構(gòu)筑了領(lǐng)先優(yōu)勢,先后推出全球領(lǐng)先的單層多點(diǎn)觸控芯片、全球首創(chuàng)的觸摸屏近場通信技術(shù)Goodix LinkTM、全球首家應(yīng)用于Android手機(jī)正面的按壓式指紋識別芯片、全球首創(chuàng)的Invisible Fingerprint Sensor(IFSTM)、全球首創(chuàng)支持玻璃蓋板的指紋識別芯片、全球首創(chuàng)應(yīng)用于移動(dòng)終端的活體指紋檢測技術(shù)Live Finger DetectionTM、全球首創(chuàng)的顯示屏內(nèi)指紋識別技術(shù)等。
其中,Live Finger DetectionTM憑借其卓越的創(chuàng)新應(yīng)用價(jià)值斬獲了2017國際消費(fèi)電子展(CES)全球創(chuàng)新金獎(jiǎng),這是匯頂科技繼2016年憑借IFSTM(觸控與指紋識別一體化技術(shù))和Goodix LinkTM(觸摸屏近場通信技術(shù))兩項(xiàng)技術(shù)獲得CES創(chuàng)新大獎(jiǎng)后再次得到CES創(chuàng)新獎(jiǎng)項(xiàng),匯頂科技也由此成為首家榮獲CES全球創(chuàng)新金獎(jiǎng)的中國IC設(shè)計(jì)公司。目前,產(chǎn)品和解決方案主要應(yīng)用于華為、OPPO、vivo、小米、中興、魅族、聯(lián)想、金立、錘子、TCL、Nokia、Dell、HP、LG、ASUS、acer、 TOSHIBA、Panasonic等國際國內(nèi)知名品牌,服務(wù)全球數(shù)億人群。
國內(nèi)語音識別技術(shù)上市公司——漢王科技
(股票代碼:002362)
漢王科技股份有限公司成立于1998年,是全球文字識別技術(shù)與智能交互產(chǎn)品引領(lǐng)者,多年來,通過不斷自主創(chuàng)新,在手寫識別、光學(xué)字符識別(OCR)、筆跡輸入等領(lǐng)域擁有多項(xiàng)具有自主知識產(chǎn)權(quán)的核心技術(shù),綜合技術(shù)水平在國內(nèi)外均處于領(lǐng)先地位,手寫漢字識別獲得國家科技進(jìn)步一等獎(jiǎng),OCR獲得國家科技進(jìn)步二等獎(jiǎng)。
漢王科技以核心技術(shù)為基礎(chǔ),面向市場需求,已形成了以識別技術(shù)為核心的、針對不同細(xì)分市場的軟硬件產(chǎn)品系列,既有通用產(chǎn)品,如e典筆、漢王電紙書、漢王筆、文本王、名片通、繪圖板等,也有針對教育、金融等行業(yè)應(yīng)用的文表識別解決方案;既有手寫手機(jī)、OCR等多種技術(shù)授權(quán)方案,也有輔助方案實(shí)施的硬件產(chǎn)品,如證照識別等。
國內(nèi)語音識別技術(shù)上市公司——共達(dá)電聲
?。ü善贝a:002655)
山東共達(dá)電聲股份有限公司是專業(yè)的電聲元器件及電聲組件制造商、服務(wù)商和電聲技術(shù)整體解決方案提供商,是國家級高新技術(shù)企業(yè)、中國電子元件百強(qiáng)企業(yè)。
公司始創(chuàng)于2001年,自設(shè)立以來,堅(jiān)持“共融、共創(chuàng)、共享、共達(dá)”的企業(yè)核心價(jià)值觀,秉承“和諧、超越、高效、求是”的企業(yè)精神,專注于電聲元器件產(chǎn)品的研發(fā)和制造,致力于成為世界一流的電聲技術(shù)整體解決方案提供商,主要產(chǎn)品包括微型麥克風(fēng)、微型揚(yáng)聲器/受話器及其陣列模組,廣泛應(yīng)用于移動(dòng)通訊設(shè)備及其周邊產(chǎn)品、筆記本電腦、平板電視、個(gè)人數(shù)碼產(chǎn)品、汽車電子等消費(fèi)類電子產(chǎn)品領(lǐng)域。
國內(nèi)語音識別技術(shù)上市公司——拓爾思
?。ü善贝a:300229)
拓爾思是一家技術(shù)驅(qū)動(dòng)型企業(yè),歷經(jīng)二十余年的深耕和積累,在中文檢索、自然語言處理等領(lǐng)域始終處于行業(yè)前沿,公司2011年在深交所創(chuàng)業(yè)板上市,股票代碼300229,是第一家在A股上市的大數(shù)據(jù)技術(shù)企業(yè)。拓爾思以大數(shù)據(jù)+人工智能為發(fā)展戰(zhàn)略,旨在幫助客戶實(shí)現(xiàn)從數(shù)據(jù)洞察到智慧決策的飛躍。
拓爾思的核心業(yè)務(wù)包括軟件產(chǎn)品研發(fā),行業(yè)應(yīng)用解決方案和數(shù)據(jù)分析挖掘云服務(wù)三大板塊,涉及大數(shù)據(jù)管理、信息安全、互聯(lián)網(wǎng)營銷和人工智能等應(yīng)用方向。
拓爾思是自主可靠軟件產(chǎn)品領(lǐng)域的領(lǐng)軍企業(yè),TRS中文全文檢索系統(tǒng)、WCM內(nèi)容管理平臺(tái)、CKM中文文本挖掘等軟件均代表了國內(nèi)相關(guān)領(lǐng)域自主創(chuàng)新的最高水平。同時(shí)拓爾思不斷拓寬產(chǎn)品線和綜合服務(wù)能力,為政府、媒體、安全、金融等多個(gè)行業(yè)提供領(lǐng)先的產(chǎn)品、技術(shù)和解決方案。為了迎接云計(jì)算時(shí)代的來臨,公司近年來加快了基于云服務(wù)的數(shù)據(jù)分析和知識服務(wù)的發(fā)展步伐,旨在實(shí)現(xiàn)軟件企業(yè)的戰(zhàn)略轉(zhuǎn)型和升級。
國內(nèi)語音識別技術(shù)上市公司——精倫電子
?。ü善贝a:600355)
精倫電子股份有限公司是“武漢·中國光谷”國家級高新技術(shù)企業(yè),成立于1994年,于2002年上市,是中國首家以全自然人作為發(fā)起人的上市公司,注冊資本24,604.46萬元,股票代碼:600355?,F(xiàn)有精倫工業(yè)園位于武漢總部,占地310畝。
精倫電子致力于各類電子智能終端的研發(fā)、設(shè)計(jì)與生產(chǎn)。目前公司主營產(chǎn)品包括:電子廣告媒體終端;電子伺服系統(tǒng)終端;二代身份證閱讀終端;電子交易終端;電力終端;家庭媒體娛樂終端;導(dǎo)航定位終端等。涵蓋了:通訊、電力、傳媒、三網(wǎng)融合、工業(yè)縫紉制造、公共安全等多個(gè)領(lǐng)域。并提供各類產(chǎn)品的服務(wù)平臺(tái)、系統(tǒng)及整體設(shè)計(jì)、運(yùn)營方案。
精倫電子一直秉承自主知識產(chǎn)權(quán)和核心技術(shù)為基礎(chǔ)的理念,每年投入銷售利潤的較大部分作為研發(fā)投入,與華中科技大學(xué)、上海浦東等地建立合作研發(fā)基地。擁有國家人事部批準(zhǔn)的博士后科研工作站,在嵌入式操作系統(tǒng)、嵌入式硬件設(shè)計(jì)、嵌入式軟件設(shè)計(jì)、音頻視頻信號處理、智能卡應(yīng)用技術(shù)、大型數(shù)據(jù)庫應(yīng)用設(shè)計(jì)、網(wǎng)絡(luò)信息安全設(shè)計(jì)技術(shù)等方面形成了自主核心技術(shù)體系。承建了多項(xiàng)國家高技術(shù)實(shí)施項(xiàng)目。公司正在逐步成為業(yè)界領(lǐng)先的智能終端研發(fā)與設(shè)計(jì)基地。
六、語音識別技術(shù)現(xiàn)狀
我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計(jì)劃后,國家863智能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng),每兩年滾動(dòng)一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢,并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室。
清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達(dá)到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達(dá)到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達(dá)到98.73%,前三選識別率達(dá)99.96%;并且可以識別普通話與四川話兩種語言,達(dá)到實(shí)用要求。
中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。
評論