久热免费在线视频福利资源,日韩A∨免费视频播放,久久精品久久蜜桃

一、概述

作為最自然的人機(jī)交互方式 ——語音，正在改變?nèi)藗兊纳?，豐富多媒體技術(shù)的應(yīng)用。語音識(shí)別技術(shù)是語音信號(hào)處理的一個(gè)重要分支，也是近年來很火的一個(gè)研究領(lǐng)域。隨著科技的飛速發(fā)展，語音識(shí)別不僅在桌面PC和大型工作站得到了廣泛應(yīng)用，而且在嵌入式系統(tǒng)領(lǐng)域也占有一席之地，如智能家居、語音助手、車載語音識(shí)別系統(tǒng)等。相信在不久的將來，語音識(shí)別技術(shù)必定會(huì)滲透在人們生活的每個(gè)角落。

二、語音識(shí)別系統(tǒng)的分類

語音識(shí)別按照說話人的說話方式可以分為孤立詞（IsolatedWord）識(shí)別、連接詞（Connected Word）識(shí)別和連續(xù)語音（Continuous Speech）識(shí)別。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語，每個(gè)詞或短語在詞匯表中都算作一個(gè)詞條，一般用在語音電話撥號(hào)系統(tǒng)中；連接詞語音識(shí)別支持一個(gè)小的語法網(wǎng)絡(luò)，其內(nèi)部形成一個(gè)狀態(tài)機(jī)，可以實(shí)現(xiàn)簡單的家用電器的控制，而復(fù)雜的連接詞語音識(shí)別系統(tǒng)可以用于電話語音查詢、航空訂票等系統(tǒng)；連續(xù)語音識(shí)別是指對說話人以日常自然的方式發(fā)音，通常特指用于語音錄入的聽寫機(jī)。

從識(shí)別對象的類型來看，語音識(shí)別可以分為特定人（SpeakerDependent）語音識(shí)別和非特定人（Speaker Independent）語音識(shí)別。特定人是指只針對一個(gè)用戶的語音識(shí)別，非特定人則可用于不同的用戶。

從識(shí)別的詞匯量大小可以分為小詞匯量（詞數(shù)少于100）、中等詞匯量（詞數(shù)100~500）和大詞匯量（詞數(shù)多于500）。

非特定人大詞匯量連續(xù)語音識(shí)別是近幾年研究的重點(diǎn)，也是研究的難點(diǎn)。目前的連續(xù)語音識(shí)別大多是基于HMM（隱馬爾科夫模型）框架，并將聲學(xué)、語言學(xué)的知識(shí)統(tǒng)一引入來改善這個(gè)框架，其硬件平臺(tái)通常是功能強(qiáng)大的工作站或PC機(jī)。

三、語音識(shí)別的原理

語音識(shí)別就是對麥克風(fēng)輸入的語音信號(hào)進(jìn)行解析和理解，并將其轉(zhuǎn)化為相應(yīng)的文本或命令。

一個(gè)完整的語音識(shí)別系統(tǒng)主要包括三個(gè)部分：

語音特征提?。ㄇ岸颂幚聿糠郑耗康氖菫V除各種干擾成分，從語音波形中提取出隨時(shí)間變化的能表現(xiàn)語音內(nèi)容的特征矢量序列。

聲學(xué)模型和模式匹配（識(shí)別算法）：聲學(xué)模型通常由獲得的語音特征通過訓(xùn)練產(chǎn)生，目的是為每個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型進(jìn)行匹配與比較，得到最佳識(shí)別結(jié)果。

語義理解（后處理）：計(jì)算機(jī)對識(shí)別結(jié)果進(jìn)行語義、語法分析，明白語音的意義以便做出相應(yīng)的反應(yīng)，通常通過語言模型來實(shí)現(xiàn)。

語音識(shí)別原理如下圖所示：

待識(shí)別語音經(jīng)話筒轉(zhuǎn)化為電信號(hào)后加在識(shí)別系統(tǒng)的輸入端，經(jīng)過預(yù)處理，接著進(jìn)行語音特征提取，用反映語音信號(hào)特征的若干參數(shù)來代表原始語音。常用的語音特征包括：線性預(yù)測系數(shù)（LPC）、線性預(yù)測倒譜系數(shù)（LPCC）、Mel頻譜系數(shù)（MFCC）等。

接下來分為兩個(gè)階段：：訓(xùn)練階段和識(shí)別階段。

在訓(xùn)練階段，對用特征參數(shù)形式表示的語音信號(hào)進(jìn)行相應(yīng)處理，獲得表示識(shí)別基本單元共性特點(diǎn)的標(biāo)準(zhǔn)數(shù)據(jù)，以此構(gòu)成參考模板，將所有能識(shí)別的基本單元的參考模板結(jié)合在一起，形成參考模式庫；

在識(shí)別階段，將待識(shí)別的語音信號(hào)經(jīng)特征提取后逐一與參考模式庫中的各個(gè)模板按某種原則進(jìn)行匹配，找出最相似的參考模板所對應(yīng)的發(fā)音，即為識(shí)別結(jié)果。

最后進(jìn)行語音處理，涉及語法分析、語音理解、語義網(wǎng)絡(luò)等。

語音識(shí)別過程要根據(jù)模式匹配原則，計(jì)算未知語音模式與語音模板庫中的每一個(gè)模板的距離測度，從而得到最佳的匹配模式。語音識(shí)別所應(yīng)用的模式匹配方法主要有動(dòng)態(tài)時(shí)間規(guī)整（Dynamic Time Warping，DTW），隱馬爾科夫模型（Hidden Markov Model，HMM）和人工神經(jīng)元網(wǎng)絡(luò)（Artificial Neural Networks，ANN）。

四、難題

識(shí)別率是衡量語音識(shí)別系統(tǒng)性能好壞的一個(gè)重要指標(biāo)，在實(shí)際應(yīng)用中，識(shí)別率主要受到以下幾個(gè)因素的影響：

對于漢語語音識(shí)別，方言或口音會(huì)降低識(shí)別率；

背景噪聲。公共場所的強(qiáng)噪聲對識(shí)別效果影響甚大，即使是在實(shí)驗(yàn)室環(huán)境下，敲擊鍵盤、移動(dòng)麥克風(fēng)都會(huì)成為背景噪聲；

“口語”問題。它既涉及到自然語言理解，又與聲學(xué)有關(guān)。語音識(shí)別技術(shù)的最終目的是要讓用戶在“人機(jī)對話”時(shí)，能夠像進(jìn)行“人與人對話”一樣自然，而一旦用戶以跟人交談的方式進(jìn)行語音輸入時(shí)，口語的語法不規(guī)范和語序不正常的特點(diǎn)會(huì)給語義的分析和理解帶來困難。

此外，識(shí)別率還與說話人的性別、說話時(shí)間長短等有關(guān)。

實(shí)時(shí)性是衡量語音識(shí)別系統(tǒng)性能好壞的另一指標(biāo)。對于具有高速運(yùn)算能力的CPU和大容量存儲(chǔ)器的PC而言，基本上能夠滿足實(shí)時(shí)性的要求；而對于資源有限的嵌入式系統(tǒng)來說，實(shí)時(shí)性幾乎得不到保證。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)器

存儲(chǔ)器

+關(guān)注

關(guān)注
38

文章
7653

瀏覽量
167447
智能家居

智能家居

+關(guān)注

關(guān)注
1934

文章
9806

瀏覽量
190608
語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
39

文章
1782

瀏覽量
114251

原文標(biāo)題：語音識(shí)別之初體驗(yàn)

文章出處：【微信號(hào)：Imgtec，微信公眾號(hào)：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

語音識(shí)別技術(shù)必定會(huì)滲透在人們生活的每個(gè)角落

評論