隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的迅速發(fā)展,語(yǔ)音口令識(shí)別已經(jīng)成為了人機(jī)交互的一個(gè)重要方式之一。語(yǔ)音口令識(shí)別系統(tǒng)將根據(jù)人發(fā)出的聲音、音節(jié)或短語(yǔ)給出響應(yīng),如通過(guò)語(yǔ)音口令控制一些執(zhí)行機(jī)構(gòu)、控制家用電器的運(yùn)行或做出回答等。在數(shù)字信號(hào)處理芯片上已經(jīng)實(shí)現(xiàn)了語(yǔ)音口令識(shí)別系統(tǒng)或語(yǔ)音口令識(shí)別系統(tǒng)的部分功能,然而隨著嵌入式微處理器處理能力的大幅度提高,計(jì)算量大的語(yǔ)音口令識(shí)別算法已經(jīng)能夠通過(guò)嵌入式微處理器來(lái)完成,將語(yǔ)音口令識(shí)別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合,發(fā)揮語(yǔ)音識(shí)別系統(tǒng)的潛力,使語(yǔ)音識(shí)別系統(tǒng)能夠廣泛應(yīng)用于便攜式設(shè)備中。
采用隱馬爾克夫模型(Hidden Markov MODEL,HMM) 描述語(yǔ)音信號(hào)的非平穩(wěn)性和局部平穩(wěn)性,HMM中的狀態(tài)與語(yǔ)音信號(hào)的某個(gè)平穩(wěn)段相對(duì)應(yīng),平穩(wěn)段之間以轉(zhuǎn)移概率相聯(lián)系。由于HMM建模對(duì)語(yǔ)音信號(hào)長(zhǎng)度和模型的混合度的要求都比較低,因此在現(xiàn)有的非特定人語(yǔ)音口令識(shí)別系統(tǒng)中,多采用狀態(tài)輸出具有連續(xù)概率分布的連續(xù)隱馬爾可夫模型(ConTInuous Density Hidden Markov MODEL,CDHMM)。
論文給出一種基于嵌入式系統(tǒng)的語(yǔ)音口令識(shí)別系統(tǒng)的設(shè)計(jì)方案,硬件系統(tǒng)的核心芯片是嵌入式微處理器,語(yǔ)音口令識(shí)別算法采用CDHMM。語(yǔ)音口令首先經(jīng)過(guò)預(yù)處理,提取MFCC(Mel-Frequency Ceptral Coefficients)特征參數(shù),然后建立此口令的CDHMM模型,把所有語(yǔ)音口令的模型放在模型庫(kù)中,在識(shí)別階段,通過(guò)概率輸出*分,取*分最大的一個(gè)作為識(shí)別出的口令。將語(yǔ)音識(shí)別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合,可以使語(yǔ)音口令識(shí)別系統(tǒng)廣泛應(yīng)用于便攜式設(shè)備中。
1 硬件電路的設(shè)計(jì)和工作原理
基于嵌入式系統(tǒng)的語(yǔ)音口令識(shí)別系統(tǒng)需要有接收語(yǔ)音信號(hào)的輸入芯片配合麥克風(fēng)實(shí)現(xiàn)將模擬語(yǔ)音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的功能,然后由嵌入式微處理器對(duì)輸入的語(yǔ)音口令信號(hào)進(jìn)行處理。完成語(yǔ)音口令信號(hào)輸入功能的芯片采用的是PHILIPS公司的低功耗芯片UDAl341TS,供電電源電壓為3V,該音頻處理芯片由模數(shù)/數(shù)模轉(zhuǎn)換(ADC)、控制邏輯電路、可編程增益放大器(PGA)和數(shù)字自動(dòng)增益控制器(DAGC)以及數(shù)字信號(hào)處理器等部分組成,能進(jìn)行數(shù)字語(yǔ)音處理。
芯片UDAl341TS采用標(biāo)準(zhǔn)的內(nèi)部集成電路聲音總線IIS(Inter IC Sound Bus),該總線是由PHILIPS等公司共同提出的數(shù)字音頻總線協(xié)議,專門用于音頻設(shè)備之間的數(shù)據(jù)傳輸,目前很多音頻芯片和微處理器都提供了對(duì)IIS總線的支持。
IIS總線有三根信號(hào)線,分別是位時(shí)鐘信號(hào)BCK(Bit Clock)、字選擇控制信號(hào)WS(Word Select)和串行數(shù)據(jù)信號(hào)Data,由主設(shè)備提供串行時(shí)鐘信號(hào)和字選擇控制信號(hào),IIS總線的時(shí)序如圖1所示。
2 基于CDHMM的口令識(shí)別的軟件設(shè)計(jì)
2.1 口令識(shí)別的軟件系統(tǒng)框圖
語(yǔ)音口令識(shí)別的軟件系統(tǒng)分別由特征參數(shù)提取、語(yǔ)音模型庫(kù)和概率輸出*分三大模塊組成,如圖3所示:1)語(yǔ)音口令特征參數(shù)的提取,輸入不同的語(yǔ)音口令,首先要進(jìn)行特征參數(shù)提取,采用Mel頻率參數(shù)作為CDHMM的建模參數(shù),Mel頻率參數(shù)是根據(jù)人耳的聽覺特性將語(yǔ)音信號(hào)的頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。2)在訓(xùn)練階段,對(duì)不同的語(yǔ)音口令建立CDHMM模型。3)在口令識(shí)別階段,通過(guò)概率輸出*分對(duì)待測(cè)語(yǔ)音口令做出識(shí)別。
N(o,ujk,∑jk)為多維高斯概率密度函數(shù),o是觀察矢量序列,即從語(yǔ)音中提取的特征矢量參數(shù)(o1,o2,…,ot),t為觀察矢量序列的時(shí)間長(zhǎng)度。ujk,∑jk分別為高斯分布的均值和方差參數(shù),Cjk為高斯分布的權(quán)值,滿足約束條件
是改進(jìn)后的模型,再將作為初始值,重新估計(jì)。
基于“分段K-平均法”的CDHMM參數(shù)估計(jì)具體過(guò)程為:
(1)設(shè)置模型參數(shù)初始值λ=(π,A,B)。
(2)根據(jù)此λ用Viterbi算法將輸入的訓(xùn)練語(yǔ)音數(shù)據(jù)劃分為最可能的狀態(tài)序列,利用狀態(tài)序列估計(jì)參數(shù)A。
對(duì)于概率密度函數(shù)由若干正態(tài)分布函數(shù)線性相加的CDHMM系統(tǒng),每個(gè)狀態(tài)θj(1≤j≤N)的概率密度函數(shù)bj(X)由K個(gè)正態(tài)分布函數(shù)線性相加而成,這樣可以把每一狀態(tài)語(yǔ)音幀分成K類,然后計(jì)算同一類中諸語(yǔ)音幀矢量X的均值矢量,方差矩陣∑jk和混合密度函數(shù)中各概率密度函數(shù)的權(quán)重系數(shù) Cjk。
(4)由(2)和(3)估計(jì)的CDHMM參數(shù)作為初值,利用重估公式對(duì)CDHMM參數(shù)進(jìn)行重估,得到參數(shù)。
(5)利用(4)所得的計(jì)算,并與p(O/λ)相比較。如果差值小于預(yù)定的閾值或迭代次數(shù)超過(guò)預(yù)定的次數(shù),即說(shuō)明模型參數(shù)已經(jīng)收斂,無(wú)需進(jìn)行重估計(jì)算,可將作為模型參數(shù)輸出。反之,若差值超出閾值或迭代未到預(yù)定的次數(shù),則將計(jì)算結(jié)果作為新的初值,重復(fù)進(jìn)行下一次迭代。
3 結(jié)束語(yǔ)
論文建立了一種基于嵌入式系統(tǒng)的語(yǔ)音口令識(shí)別系統(tǒng),并且對(duì)上升、下降等14條口令進(jìn)行測(cè)試,每條語(yǔ)音先切除靜音,預(yù)加重,然后通過(guò) Hamming窗分幀處理,幀長(zhǎng)和幀移分別為20ms和10ms,然后對(duì)每一幀語(yǔ)音信號(hào)提取16MFCC+16AMFCC共32維參數(shù)作為特征矢量。該語(yǔ)音口令識(shí)別系統(tǒng)達(dá)到了實(shí)時(shí)的要求,可以使語(yǔ)音口令識(shí)別系統(tǒng)廣泛應(yīng)用于便攜式設(shè)備中。
評(píng)論