一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別的技術(shù)原理是什么?

九芯電子語音芯片 ? 2022-05-10 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自動語音辨認技術(shù)(ASR,Automatic Speech Recognition)是一種經(jīng)過讓機器經(jīng)過辨認和了解的過程,把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)文本的技術(shù)。我們先來看看語音辨認的歷史,其實早在計算機創(chuàng)造之前,有關(guān)ASR技術(shù)的理念就曾經(jīng)降生了,而早期的聲碼器就能夠被視為是語音辨認及合成的雛形。而1920年代消費的"Radio Rex"玩具狗,可能是早的語音辨認器,當這只狗的名字被召喚的時分,它可以從底座上彈出來。這么看來論輩分它是阿爾法狗的爺爺……但毫無疑問60年代計算機的開展推進了語音辨認技術(shù)技術(shù),這其中重要的一個里程碑就是動態(tài)規(guī)劃技術(shù)(DP)和線性預(yù)測剖析技術(shù)(LP),后者又開展出了更成熟的動態(tài)時間歸正技術(shù)(DTW),包括矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。但這些還都只是單調(diào)又晦澀的算法,換句話說,工程師看到這些玩意也一頭霧水,基本沒方法疾速在應(yīng)用到理論里。所以在80年代時,著名的AT&T Bell實驗室經(jīng)過努力,把本來深奧無比的HMM純數(shù)學(xué)模型工程化,為應(yīng)用開發(fā)打下了重要的基石。到90年代時,深度神經(jīng)網(wǎng)絡(luò)技術(shù)的打破性開展,終于把語音辨認技術(shù)本來的難關(guān)攻破了。所以在我們會發(fā)現(xiàn),從21世紀后語音辨認技術(shù)的開展就疾速加快了。其實看起來高大上的語音辨認技術(shù),原理并沒有多么復(fù)雜。不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內(nèi)一些獨立做語音辨認的比方訊飛、Rokid,在原理在實質(zhì)上沒有幾差別:就是語音輸入后,停止特征提取,將提取的特征值放進模型庫里,再不時地停止鍛煉和匹配,終解碼得到結(jié)果。

假如要細說的話就比擬復(fù)雜了,比方模型庫中又分為聲學(xué)模型和言語模型。其中言語模型是依據(jù)不同品種的言語,對詞串停止統(tǒng)計建模,目前普遍采用的是基于(n-1)階馬爾可夫鏈統(tǒng)計的n元語法模型。這里細致說下聲學(xué)建模吧。首先經(jīng)過前端特征提取取得聲學(xué)特征,再進一步對聲學(xué)特征停止統(tǒng)計建模。建模運用到的貝葉斯統(tǒng)計建模框架,也就是大后驗概率決策原則。這里算法這種深奧的東西就不說了,除非深度開發(fā),否則直接套用就行了,我本人也是博古通今,還是念書的時分學(xué)的。說說提取聲學(xué)特征該如何完成:當語音輸入之后,首先停止模電轉(zhuǎn)換,將模仿信號轉(zhuǎn)變?yōu)?a target="_blank">數(shù)字信號,再停止靜音切除去掉無關(guān)噪音,然后停止分幀。將此時的信號分紅一幀一幀之后(每一幀并不是獨立存在的而是相互關(guān)聯(lián)的),還要停止一系列的信號處置,包括預(yù)加重、加窗之后,再停止FFT變換之后,再經(jīng)過Mel參數(shù)的濾波和取對數(shù)、離散余弦變換等一系列算法處置后,能夠停止用梅爾頻率倒譜系數(shù)(MFCC)停止特征提取,得到聲學(xué)特征。覺得越說越復(fù)雜了……后面簡單點說吧。前面說了言語模型,而聲學(xué)模型就是將聲學(xué)特征統(tǒng)計建模后得到的。得到了模型庫之后就能夠停止模型鍛煉和形式匹配了。所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個具特征的模型參數(shù)。而形式匹配則相反,是依據(jù)一定原則,將未知語音形式與模型庫中的某一個模型取得佳匹配后的解碼過程又能夠分紅動態(tài)解碼網(wǎng)絡(luò)和靜態(tài)解碼網(wǎng)絡(luò)兩種:動態(tài)網(wǎng)絡(luò)會編譯一個狀態(tài)網(wǎng)絡(luò)并構(gòu)成搜索空間,把單詞轉(zhuǎn)換成一個個的音素后將其依照語序拆分紅狀態(tài)序列,再依據(jù)音素上下文分歧性準繩將狀態(tài)序列停止銜接。而靜態(tài)網(wǎng)絡(luò)普通是針對一些特殊詞(孤立詞)的辨認網(wǎng)絡(luò),它的構(gòu)造就簡單多了:先將每條特殊詞擴展成HMM狀態(tài)序列,然后再計算得分,選擇得分大的作為辨認輸出結(jié)果。由于靜態(tài)網(wǎng)絡(luò)是依據(jù)聲學(xué)概率計算權(quán)重,不需求查詢言語模型概率,因而解碼速度很快。 這樣的一個流程大致上就是語音辨認技術(shù)的主要原理。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1780

    瀏覽量

    114218
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    普強信息入選2024語音識別技術(shù)公司TOP30榜單

    普強憑借在語音識別領(lǐng)域多年的技術(shù)積淀與持續(xù)的創(chuàng)新突破,成功入選“2024語音識別技術(shù)公司TOP3
    的頭像 發(fā)表于 04-18 17:25 ?625次閱讀

    語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:12 ?696次閱讀

    詳解語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:05 ?780次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應(yīng)用

    新品| Unit ASR,一體化離線語音識別單元

    UnitASR是一款A(yù)I語音識別單元,內(nèi)置AI智能離線語音模塊CI-03T。它具有語音識別、聲紋識別
    的頭像 發(fā)表于 02-14 18:34 ?418次閱讀
    新品| Unit ASR,一體化離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>單元

    【「嵌入式系統(tǒng)設(shè)計與實現(xiàn)」閱讀體驗】+ 基于語音識別的智能杯墊

    語音命令Q 識別,適用于智能家居控制、玩具、人機交互等多個領(lǐng)域。該模塊以其高識別率、低功耗和易于集成的特點受到廣大開發(fā)者的青睞。 主要技術(shù)及功能有: 磁力攪拌、重量采集、
    發(fā)表于 01-02 18:15

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標貝科技專注智能語音交互領(lǐng)域多年,在語音識別語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標貝與多個智能會議系統(tǒng)廠商合作,成功將語音
    的頭像 發(fā)表于 12-20 10:35 ?585次閱讀

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來越廣泛,為醫(yī)療服務(wù)帶來了諸多便利和效率提升。以下是對語音識別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?1200次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使
    的頭像 發(fā)表于 11-26 09:21 ?1493次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學(xué)習(xí)技術(shù)的進步,這項技術(shù)才真正成熟并廣泛應(yīng)用于各個領(lǐng)域。
    的頭像 發(fā)表于 11-26 09:20 ?1629次閱讀

    基于語音識別技術(shù)的智能家居控制系統(tǒng)

    語音識別的智能控制系統(tǒng)是智能家居的重要組成部分,相比傳統(tǒng)的遙控或觸控方式,基于語音識別控制的智能家居系統(tǒng)通過人機語音交互的方式,實現(xiàn)對家居
    的頭像 發(fā)表于 11-19 17:25 ?1227次閱讀
    基于<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>的智能家居控制系統(tǒng)

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進行訓(xùn)練。 提高了語音識別的準確率和穩(wěn)定性。 傳統(tǒng)語音
    的頭像 發(fā)表于 11-18 15:22 ?1346次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?2061次閱讀

    WTK6900FC語音識別模塊

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語音識別方案# #語音芯片 #語音識別 #唯創(chuàng)知音

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    什么是離線語音識別芯片?與在線語音識別的區(qū)別

    離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應(yīng)快,無需聯(lián)網(wǎng)。在線語音識別功能更廣泛、識別準確率高,但依賴穩(wěn)定網(wǎng)絡(luò)。
    的頭像 發(fā)表于 07-22 11:33 ?953次閱讀