一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶(hù)?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>電子百科>通信技術(shù)>基礎(chǔ)知識(shí)>

語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思

2010年03月06日 11:16 www.www27dydycom.cn 作者:本站 用戶(hù)評(píng)論(0

語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)是什么意思

 語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話(huà)人識(shí)別及說(shuō)話(huà)人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話(huà)人而非其中所包含的詞匯內(nèi)容。
  語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。
  語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。

特定人語(yǔ)音識(shí)別的方法

  目前,常用的說(shuō)話(huà)人識(shí)別方法有模板匹配法、統(tǒng)計(jì)建模法、聯(lián)接主義法(即人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn))。考慮到數(shù)據(jù)量、實(shí)時(shí)性以及識(shí)別率的問(wèn)題,筆者采用基于矢量量化和隱馬爾可夫模型(HMM)相結(jié)合的方法。

  說(shuō)話(huà)人識(shí)別的系統(tǒng)主要由語(yǔ)音特征矢量提取單元(前端處理)、訓(xùn)練單元、識(shí)別單元和后處理單元組成,其系統(tǒng)構(gòu)成如圖1所示。


  由上圖也可以看出,每個(gè)司機(jī)在購(gòu)買(mǎi)車(chē)后必須將自己的語(yǔ)音輸入系統(tǒng),也就是訓(xùn)練過(guò)程,當(dāng)然最好是在安靜、次數(shù)達(dá)到一定的數(shù)目。從此在以后駕駛過(guò)程中就可以利用這個(gè)系統(tǒng)了。

  所謂預(yù)處理是指對(duì)語(yǔ)音信號(hào)的特殊處理:預(yù)加重,分幀處理。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。用具有 6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。雖然語(yǔ)音信號(hào)是非平穩(wěn)時(shí)變的,但是可以認(rèn)為是局部短時(shí)平穩(wěn)。故語(yǔ)音信號(hào)分析常分段或分幀來(lái)處理。


  歷史
  早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。
  1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線(xiàn)性預(yù)測(cè)編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間彎折Dynamic Time Warp技術(shù)。
  語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過(guò)Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開(kāi)復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。[3]。此后嚴(yán)格來(lái)說(shuō)語(yǔ)音識(shí)別技術(shù)并沒(méi)有脫離HMM框架。
  盡管多年來(lái)研究人員一直嘗試將“聽(tīng)寫(xiě)機(jī)”推廣,語(yǔ)音識(shí)別技術(shù)在目前還無(wú)法支持無(wú)限領(lǐng)域,無(wú)限說(shuō)話(huà)人的聽(tīng)寫(xiě)機(jī)應(yīng)用。


  模型
  目前,主流的大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模式識(shí)別方法的 語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成
  信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話(huà)人等因素對(duì)特征造成的影響。 統(tǒng)計(jì)聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。 發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。 語(yǔ)言模型。語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。理論上,包括正則語(yǔ)言,上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。 解碼器。解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。 從數(shù)學(xué)角度可以更加清楚的了解上述模塊之間的關(guān)系。首先,統(tǒng)計(jì)語(yǔ)音識(shí)別的最基本問(wèn)題是,給定輸入信號(hào)或特征序列,符號(hào)集(詞典),求解符號(hào)串使得:
  W = argmaxP(W | O) 通過(guò)貝葉斯公式,上式可以改寫(xiě)為
  由于對(duì)于確定的輸入串O,P(O)是確定的,因此省略它并不會(huì)影響上式的最終結(jié)果,因此,一般來(lái)說(shuō)語(yǔ)音識(shí)別所討論的問(wèn)題可以用下面的公式來(lái)表示,可以將它稱(chēng)為語(yǔ)音識(shí)別的基本公式。 W = argmaxP(O | W)P(W)
  從這個(gè)角度來(lái)看,信號(hào)處理模塊提供了對(duì)輸入信號(hào)的預(yù)處理,也就是說(shuō),提供了從采集的語(yǔ)音信號(hào)(記為S)到 特征序列O的映射。而聲學(xué)模型本身定義了一些更具推廣性的聲學(xué)建模單元,并且提供了在給定輸入特征下,估計(jì)P(O | uk)的方法。
  為了將聲學(xué)模型建模單元串映射到符號(hào)集,就需要發(fā)音詞典發(fā)揮作用。它實(shí)際上定義了映射的映射。為了表示方便,也可以定義一個(gè)由到U的全集的笛卡爾積,而發(fā)音詞典則是這個(gè)笛卡爾積的一個(gè)子集。并且有:
  最后,語(yǔ)言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫(xiě)成:
  對(duì)于解碼器來(lái)所,就是要在由,,ui以及時(shí)間標(biāo)度t張成的搜索空間中,找到上式所指明的W。
  語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
  與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。


  一、語(yǔ)音識(shí)別的發(fā)展歷史
  (1)國(guó)外研究歷史及現(xiàn)狀
  語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。
  但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)音信號(hào)線(xiàn)性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期的語(yǔ)音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線(xiàn)性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
  隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語(yǔ)音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來(lái)了許多新的問(wèn)題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語(yǔ)音中,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說(shuō)相同的話(huà)相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說(shuō)同樣內(nèi)容的話(huà)也會(huì)有很大的差異;第四,識(shí)別的語(yǔ)音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。
  實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
  這一時(shí)期,語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語(yǔ)音識(shí)別技術(shù)的主流。
  統(tǒng)計(jì)方法將研究者的視線(xiàn)從微觀轉(zhuǎn)向宏觀,不再刻意追求語(yǔ)音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來(lái)建立最佳的語(yǔ)音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。
  20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋(píng)果、AT&T和NTT都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語(yǔ)音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語(yǔ)音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。
  其中IBM公司于1997年開(kāi)發(fā)出漢語(yǔ)ViaVoice語(yǔ)音識(shí)別系統(tǒng),次年又開(kāi)發(fā)出可以識(shí)別上海話(huà)、廣東話(huà)和四川話(huà)等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
  (2)國(guó)內(nèi)研究歷史及現(xiàn)狀
  我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專(zhuān)家組為語(yǔ)音識(shí)別技術(shù)研究專(zhuān)門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過(guò)語(yǔ)音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。
  清華大學(xué)電子工程系語(yǔ)音技術(shù)與專(zhuān)用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話(huà)與四川話(huà)兩種語(yǔ)言,達(dá)到實(shí)用要求。
  中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——PattekASR,結(jié)束了中文語(yǔ)音識(shí)別產(chǎn)品自1998年以來(lái)一直由國(guó)外公司壟斷的歷史。
  二、語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)
  語(yǔ)音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語(yǔ)音的限制加以分類(lèi)。如果從說(shuō)話(huà)者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為3類(lèi):(1)特定人語(yǔ)音識(shí)別系統(tǒng):僅考慮對(duì)于專(zhuān)人的話(huà)音進(jìn)行識(shí)別;(2)非特定人語(yǔ)音系統(tǒng):識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。
  如果從說(shuō)話(huà)的方式考慮,也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)孤立詞語(yǔ)音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語(yǔ)音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn);(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng):連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。
  如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類(lèi)也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。


  三、語(yǔ)音識(shí)別的幾種基本方法
  一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。
  (1)基于語(yǔ)音學(xué)和聲學(xué)的方法
  該方法起步較早,在語(yǔ)音識(shí)別技術(shù)提出的開(kāi)始,就有了這方面的研究,但由于其模型及語(yǔ)音知識(shí)過(guò)于復(fù)雜,現(xiàn)階段沒(méi)有達(dá)到實(shí)用的階段。
  通常認(rèn)為常用語(yǔ)言中有有限個(gè)不同的語(yǔ)音基元,而且可以通過(guò)其語(yǔ)音信號(hào)的頻域或時(shí)域特性來(lái)區(qū)分。這樣該方法分為兩步實(shí)現(xiàn):
  第一步,分段和標(biāo)號(hào)
  把語(yǔ)音信號(hào)按時(shí)間分成離散的段,每段對(duì)應(yīng)一個(gè)或幾個(gè)語(yǔ)音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分段給出相近的語(yǔ)音標(biāo)號(hào)
  第二步,得到詞序列
  根據(jù)第一步所得語(yǔ)音標(biāo)號(hào)序列得到一個(gè)語(yǔ)音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語(yǔ)義同時(shí)進(jìn)行。
  (2)模板匹配的方法
  模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過(guò)四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類(lèi)、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。
  1、動(dòng)態(tài)時(shí)間規(guī)整(DTW)
  語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語(yǔ)音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語(yǔ)音信號(hào)中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語(yǔ)音信號(hào)中排除無(wú)聲段。在早期,進(jìn)行端點(diǎn)檢測(cè)的主要依據(jù)是能量、振幅和過(guò)零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長(zhǎng)或縮短,直到與參考模式的長(zhǎng)度一致。在這一過(guò)程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。
  2、隱馬爾可夫法(HMM)
  隱馬爾可夫法(HMM)是70年代引入語(yǔ)音識(shí)別理論的,它的出現(xiàn)使得自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語(yǔ)音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語(yǔ)音的非特定人語(yǔ)音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)是不可測(cè)的。人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機(jī)過(guò)程,語(yǔ)音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流。可見(jiàn)HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語(yǔ)音模型。
  3、矢量量化(VQ)
  矢量量化(VectorQuantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是:將語(yǔ)音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無(wú)限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書(shū),從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。
  核心思想可以這樣理解:如果一個(gè)碼書(shū)是為某一特定的信源而優(yōu)化設(shè)計(jì)的,那么由這一信息源產(chǎn)生的信號(hào)與該碼書(shū)的平均量化失真就應(yīng)小于其他信息的信號(hào)與該碼書(shū)的平均量化失真,也就是說(shuō)編碼器本身存在區(qū)分能力。
  在實(shí)際的應(yīng)用過(guò)程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類(lèi):無(wú)記憶的矢量量化和有記憶的矢量量化。無(wú)記憶的矢量量化包括樹(shù)形搜索的矢量量化和多級(jí)矢量量化。
  (3)神經(jīng)網(wǎng)絡(luò)的方法
  利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語(yǔ)音識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線(xiàn)性動(dòng)力學(xué)系統(tǒng),模擬了人類(lèi)神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類(lèi)能力和輸入-輸出映射能力在語(yǔ)音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太長(zhǎng)的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。
  由于ANN不能很好的描述語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自?xún)?yōu)點(diǎn)來(lái)進(jìn)行語(yǔ)音識(shí)別。


  四、語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)
  一個(gè)完整的基于統(tǒng)計(jì)的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分:
  (1)語(yǔ)音信號(hào)預(yù)處理與特征提取;
  (2)聲學(xué)模型與模式匹配;
  (3)語(yǔ)言模型與語(yǔ)言處理、
 ?。?)語(yǔ)音信號(hào)預(yù)處理與特征提取
  選擇識(shí)別單元是語(yǔ)音識(shí)別研究的第一步。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。
  單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿(mǎn)足實(shí)時(shí)性要求。
  音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別,主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而英語(yǔ)是多音節(jié),并且漢語(yǔ)雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),以音節(jié)為識(shí)別單元基本是可行的。
  音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。原因在于漢語(yǔ)音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。


  語(yǔ)音識(shí)別一個(gè)根本的問(wèn)題是合理的選用特征。特征參數(shù)提取的目的是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去掉與語(yǔ)音識(shí)別無(wú)關(guān)的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息,同時(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。在實(shí)際應(yīng)用中,語(yǔ)音信號(hào)的壓縮率介于10-100之間。語(yǔ)音信號(hào)包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時(shí)間,計(jì)算量等。非特定人語(yǔ)音識(shí)別系統(tǒng)一般側(cè)重提取反映語(yǔ)義的特征參數(shù),盡量去除說(shuō)話(huà)人的個(gè)人信息;而特定人語(yǔ)音識(shí)別系統(tǒng)則希望在提取反映語(yǔ)義的特征參數(shù)的同時(shí),盡量也包含說(shuō)話(huà)人的個(gè)人信息。
  線(xiàn)性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線(xiàn)性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒(méi)有考慮人類(lèi)聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。
  Mel參數(shù)和基于感知線(xiàn)性預(yù)測(cè)(PLP)分析提取的感知線(xiàn)性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽(tīng)覺(jué)感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語(yǔ)音識(shí)別系統(tǒng)的性能有一定提高。從目前使用的情況來(lái)看,梅爾刻度式倒頻譜參數(shù)已逐漸取代原本常用的線(xiàn)性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類(lèi)發(fā)聲與接收聲音的特性,具有更好的魯棒性(Robustness)。
  也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。
 ?。?)聲學(xué)模型與模式匹配
  聲學(xué)模型通常是將獲取的語(yǔ)音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。
  聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大的影響。必須根據(jù)不同語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。
  以漢語(yǔ)為例:
  漢語(yǔ)按音素的發(fā)音特征分類(lèi)分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類(lèi)為聲母和韻母。并且由音素構(gòu)成聲母或韻母。有時(shí),將含有聲調(diào)的韻母稱(chēng)為調(diào)母。由單個(gè)調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語(yǔ)的一個(gè)音節(jié)就是漢語(yǔ)一個(gè)字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。
  漢語(yǔ)聲母共有22個(gè),其中包括零聲母,韻母共有38個(gè)。按音素分類(lèi),漢語(yǔ)輔音共有22個(gè),單元音13個(gè),復(fù)元音13個(gè),復(fù)鼻尾音16個(gè)。
  目前常用的聲學(xué)模型基元為聲韻母、音節(jié)或詞,根據(jù)實(shí)現(xiàn)目的不同來(lái)選取不同的基元。漢語(yǔ)加上語(yǔ)氣詞共有412個(gè)音節(jié),包括輕音字,共有1282個(gè)有調(diào)音節(jié)字,所以當(dāng)在小詞匯表孤立詞語(yǔ)音識(shí)別時(shí)常選用詞作為基元,在大詞匯表語(yǔ)音識(shí)別時(shí)常采用音節(jié)或聲韻母建模,而在連續(xù)語(yǔ)音識(shí)別時(shí),由于協(xié)同發(fā)音的影響,常采用聲韻母建模。
  基于統(tǒng)計(jì)的語(yǔ)音識(shí)別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識(shí)別算法等。
 ?。?)語(yǔ)言模型與語(yǔ)言處理
  語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。
  語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類(lèi)發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。


  五、語(yǔ)音識(shí)別所面臨的問(wèn)題
  1、就算法模型方面而言,需要有進(jìn)一步的突破。目前能看出它的一些明顯不足,尤其在中文語(yǔ)音識(shí)別方面,語(yǔ)言模型還有待完善,因?yàn)檎Z(yǔ)言模型和聲學(xué)模型正是聽(tīng)寫(xiě)識(shí)別的基礎(chǔ),這方面沒(méi)有突破,語(yǔ)音識(shí)別的進(jìn)展就只能是一句空話(huà)。目前使用的語(yǔ)言模型只是一種概率模型,還沒(méi)有用到以語(yǔ)言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類(lèi)的語(yǔ)言,就必須在這一點(diǎn)上取得進(jìn)展,這是一個(gè)相當(dāng)艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進(jìn)一步改進(jìn)??梢韵嘈牛?a target="_blank">半導(dǎo)體和軟件技術(shù)的共同進(jìn)步將為語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)性工作帶來(lái)福音。


  2、就自適應(yīng)方面而言,語(yǔ)音識(shí)別技術(shù)也有待進(jìn)一步改進(jìn)。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶(hù)在使用前進(jìn)行幾百句話(huà)的訓(xùn)練,以讓計(jì)算機(jī)適應(yīng)你的聲音特征。這必然限制了語(yǔ)音識(shí)別技術(shù)的進(jìn)一步應(yīng)用,大量的訓(xùn)練不僅讓用戶(hù)感到厭煩,而且加大了系統(tǒng)的負(fù)擔(dān)。并且,不能指望將來(lái)的消費(fèi)電子應(yīng)用產(chǎn)品也針對(duì)單個(gè)消費(fèi)者進(jìn)行訓(xùn)練。因此,必須在自適應(yīng)方面有進(jìn)一步的提高,做到不受特定人、口音或者方言的影響,這實(shí)際上也意味著對(duì)語(yǔ)言模型的進(jìn)一步改進(jìn)。現(xiàn)實(shí)世界的用戶(hù)類(lèi)型是多種多樣的,就聲音特征來(lái)講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標(biāo)準(zhǔn)發(fā)音差距甚遠(yuǎn),這就涉及到對(duì)口音或方言的處理。如果語(yǔ)音識(shí)別能做到自動(dòng)適應(yīng)大多數(shù)人的聲線(xiàn)特征,那可能比提高一二個(gè)百分點(diǎn)識(shí)別率更重要。事實(shí)上,ViaVoice的應(yīng)用前景也因?yàn)檫@一點(diǎn)打了折扣,只有普通話(huà)說(shuō)得很好的用戶(hù)才可以在其中文版連續(xù)語(yǔ)音識(shí)別方面取得相對(duì)滿(mǎn)意的成績(jī)。


  3、就強(qiáng)健性方面而言,語(yǔ)音識(shí)別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對(duì)語(yǔ)音識(shí)別效果影響最大的就是環(huán)境雜音或嗓音,在公共場(chǎng)合,你幾乎不可能指望計(jì)算機(jī)能聽(tīng)懂你的話(huà),來(lái)自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語(yǔ)音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語(yǔ)音識(shí)別技術(shù)必須有特殊的抗嗓(NoiseCancellation)麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶(hù)來(lái)說(shuō)是不現(xiàn)實(shí)的。在公共場(chǎng)合中,個(gè)人能有意識(shí)地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語(yǔ)音識(shí)別技術(shù)也能達(dá)成這一點(diǎn)呢?這的確是一個(gè)艱巨的任務(wù)。


  此外,帶寬問(wèn)題也可能影響語(yǔ)音的有效傳送,在速率低于1000比特/秒的極低比特率下,語(yǔ)音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語(yǔ)音,以及水聲通信、地下通信、戰(zhàn)略及保密話(huà)音通信等,要在這些情況下實(shí)現(xiàn)有效的語(yǔ)音識(shí)別,就必須處理聲音信號(hào)的特殊特征,如因?yàn)閹挾舆t或減損等。語(yǔ)音識(shí)別技術(shù)要進(jìn)一步應(yīng)用,就必須在強(qiáng)健性方面有大的突破。


  4、多語(yǔ)言混合識(shí)別以及無(wú)限詞匯識(shí)別方面:簡(jiǎn)單地說(shuō),目前使用的聲學(xué)模型和語(yǔ)音模型太過(guò)于局限,以至用戶(hù)只能使用特定語(yǔ)音進(jìn)行特定詞匯的識(shí)別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計(jì)算機(jī)就會(huì)不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶(hù)偶爾使用了某個(gè)專(zhuān)門(mén)領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ),如“信噪比"等,可能也會(huì)得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進(jìn)步,將來(lái)的語(yǔ)音和聲學(xué)模型可能會(huì)做到將多種語(yǔ)言混合納入,用戶(hù)因此就可以不必在語(yǔ)種之間來(lái)回切換。此外,對(duì)于聲學(xué)模型的進(jìn)一步改進(jìn),以及以語(yǔ)義學(xué)為基礎(chǔ)的語(yǔ)言模型的改進(jìn),也能幫助用戶(hù)盡可能少或不受詞匯的影響,從而可實(shí)行無(wú)限詞匯識(shí)別。


  5、多語(yǔ)種交流系統(tǒng)的應(yīng)用:最終,語(yǔ)音識(shí)別是要進(jìn)一步拓展我們的交流空間,讓我們能更加自由地面對(duì)這個(gè)世界。可以想見(jiàn),如果語(yǔ)音識(shí)別技術(shù)在上述幾個(gè)方面確實(shí)取得了突破性進(jìn)展,那么多語(yǔ)種交流系統(tǒng)的出現(xiàn)就是順理成章的事情,這將是語(yǔ)音識(shí)技術(shù)、機(jī)器翻譯技術(shù)以及語(yǔ)音合成技術(shù)的完美結(jié)合,而如果硬件技術(shù)的發(fā)展能將這些算法進(jìn)而固化到更為細(xì)小的芯片,比如手持移動(dòng)設(shè)備上,那么個(gè)人就可以帶著這種設(shè)備周游世界而無(wú)需擔(dān)心任何交流的困難,你說(shuō)出你想表達(dá)的意思,手持設(shè)備同時(shí)識(shí)別并將它翻譯成對(duì)方的語(yǔ)言,然后合成并發(fā)送出去;同時(shí)接聽(tīng)對(duì)方的語(yǔ)言,識(shí)別并翻譯成已方的語(yǔ)言,合成后朗讀給你聽(tīng),所有這一切幾乎都是同時(shí)進(jìn)行的,只是機(jī)器充當(dāng)著主角。
  任何技術(shù)的進(jìn)步都是為了更進(jìn)一步拓展我們?nèi)祟?lèi)的生存和交流空間,以使我們獲得更大的自由,就服務(wù)于人類(lèi)而言,這一點(diǎn)顯然也是語(yǔ)音識(shí)別技術(shù)的發(fā)展方向,而為了達(dá)成這一點(diǎn),它還需要在上述幾個(gè)方面取得突破性進(jìn)展,最終,多語(yǔ)種自由交流系統(tǒng)將帶給我們?nèi)碌纳羁臻g。


  六、語(yǔ)音識(shí)別技術(shù)的前景和應(yīng)用
  在電話(huà)與通信系統(tǒng)中,智能語(yǔ)音接口正在把電話(huà)機(jī)從一個(gè)單純的服務(wù)工具變成為一個(gè)服務(wù)的“提供者”和生活“伙伴”;使用電話(huà)與通信網(wǎng)絡(luò),人們可以通過(guò)語(yǔ)音命令方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢(xún)與提取有關(guān)的信息;隨著計(jì)算機(jī)的小型化,鍵盤(pán)已經(jīng)成為移動(dòng)平臺(tái)的一個(gè)很大障礙,想象一下如果手機(jī)僅僅只有一個(gè)手表那么大,再用鍵盤(pán)進(jìn)行撥號(hào)操作已經(jīng)是不可能的。語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
  語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿(mǎn)足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專(zhuān)用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶(hù)交機(jī)、電話(huà)機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能,還有語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品也包括語(yǔ)音識(shí)別與語(yǔ)音合成功能。人們可以通過(guò)電話(huà)網(wǎng)絡(luò)用語(yǔ)音識(shí)別口語(yǔ)對(duì)話(huà)系統(tǒng)查詢(xún)有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語(yǔ)音識(shí)別的信息查詢(xún)服務(wù)系統(tǒng)的性能表示滿(mǎn)意。


  可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話(huà)方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類(lèi)面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語(yǔ)音識(shí)別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語(yǔ)音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。就像在60年代,誰(shuí)又能預(yù)測(cè)今天超大規(guī)模集成電路技術(shù)會(huì)對(duì)我們的社會(huì)產(chǎn)生這么大的影響。

非常好我支持^.^

(4) 7.1%

不好我反對(duì)

(52) 92.9%

( 發(fā)表人:admin )

      發(fā)表評(píng)論

      用戶(hù)評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?