一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

CEVA輔助算法讓語音活動檢測、麥克風獲得最大價值

CEVA ? 來源:CEVA ? 作者:CEVA ? 2021-12-09 17:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于語音的控制系統(tǒng)正在經(jīng)歷穩(wěn)健的增長,2020 年達到 107 億美元,預計到 2026 年將達到超過 270 億美元。其優(yōu)點不言而喻:無手操作,界面大大簡化。您可以直接說出所需的內(nèi)容,而無需使用導航菜單。但是,正如我們所有人所經(jīng)歷的那樣,聲音可能有其自身的弊端。當您靠近麥克風正對著它講話時,它在安靜的房間里工作正常。但在您的手機上、通過無線耳塞以及在繁忙的超市中,這些情形的語音識別如何呢?識別效果并不總是那么好?;?a target="_blank">人工智能的命令識別至關重要,但更重要的是,這種識別首先要有可以正常工作的清晰語音信號。如果沒有清晰的音頻輸入,您的識別程序通常會錯誤識別語音命令。用戶會感到沮喪,并很快就停止使用該功能。

是什么讓語音識別變得困難重重

在一個相似的問題(視覺識別)中,常規(guī)圖像中沒有太多的模糊之處,至少在光照合理的情況下是如此。但是,聲音檢測必須應付更多的干擾。穩(wěn)定的背景噪音包括風扇、空調(diào)、道路噪音。還有其他不太可預測的背景噪音–音樂、談話、狗吠、汽車喇叭、警笛。從這些雜亂紛呈的背景噪音中拾取語音并不簡單。但通過采用正確的技術,這是非常有可能做到的。

這種噪聲過濾技術的優(yōu)勢不僅僅體現(xiàn)在語音控制方面,它還提高了手機通話或會議通話的清晰度。通話另一端的聽眾將在背景噪音中更清楚地聽到您和其他講話人。

使這一目標成為可能的是音頻前端 (AFE),這是在語音識別或通信之前的一組信號處理階段。此音頻前端可清理原始音頻信號,加強最突出的講話人(相對于其他輸入源),并減少該信號周圍的雜音。

語音活動和到達方向檢測

許多基于語音識別的設備都是電池供電的(手機、手表和遙控器),必須最大限度降低功耗。語音活動檢測 (VAD) 是一個功耗極低的階段,專門用于檢測講話人。在觸發(fā)此檢測之前,所有其它設備都可以保持斷電狀態(tài)。如何將人類語音與狗吠或其他非人類噪音區(qū)別開來?這需要通過一些巧妙但明確的濾波技術。

到達方向 (DOA) 檢測要求設備(手機、遙控器等)配有多個麥克風,通常為若干個麥克風。然后,通過比較在每個麥克風處聲音脈沖到達時間的微小差異,可以推斷到達方向(在應用人類語音濾波后)。正如我將在下面所闡釋的,DOA 檢測對于使音頻前端能夠放大講話人(聲音)至關重要。

降噪

降噪有多種方法,有些是空間敏感的,有些是基于單通道濾波??臻g方法提供了一種通過波束成型技術放大講話人聲音的方法。這與無線技術在優(yōu)先選擇特定的蜂窩塔時所使用的技巧相同,但在此處,這種技巧應用于聲波,而不是無線電波。在此處,信號處理使用來自多個麥克風的輸入信號優(yōu)先優(yōu)化來自特定方向的接收信號。這當然由 DOA 檢測進行導向。

單通道濾波看起來更像頻域中的傳統(tǒng)濾波。最一般的情況下,這可能是一個帶通濾波器,但也可能是更復雜的選件。此方法的問題是,它通常會影響觸發(fā)詞檢測和自動語音識別。正是出于此原因,一些云平臺要求在使用語音識別服務之前禁用此類濾波器。單通道濾波器在語音通信(而不是語音識別)中仍有價值,可減少線路另一端的聽者噪音。

回聲消除示例 - 在 AEC 激活前后 2 個信號的聲譜圖。

回聲消除

在任何封閉空間(房間、駕駛室)中,聲音會朝多個方向傳播,并且會從墻壁、窗戶和家具發(fā)出回聲,比直接信號略遲一點到達麥克風?;蛘?,聽眾可能會聽到從講話人到麥克風的難聽回聲。消除這些討厭的回聲(起碼會增強噪音)是回聲消除 (AEC) 技術的任務?;芈曄夹g將參考信號(麥克風從直接路徑接收到的第一個最強信號)與隨后接收到的回波進行比較。它們波形相似,但是已衰減,因此容易識別并從信號中除去。

高精度語音識別只能通過高質量音頻前端實現(xiàn)。這需要一些相當復雜的音頻前端處理,比如人聲活動檢測、DOA 檢測、波束成型、回聲消除和濾波(如果適用)。這些技術全部基于復雜的信號處理算法。有多種技術組合可以為您提供,您可根據(jù)在高端技術和大眾市場之間的不同定位進行選擇。

要實現(xiàn)可靠的基于語音的控制,乃至于在嘈雜環(huán)境中實現(xiàn)高音質的溝通,必須滿足這一基本的要求。頗具矛盾的是,如果您可以將大量技術應用于清晰語音拾取問題,該問題便可迎刃而解。只要采用高端語音活動檢測技術、多麥克風波束成型技術和回聲消除技術,您便可以擁有一款面向高端市場的高檔產(chǎn)品。一個更為有趣的挑戰(zhàn)是能夠以更具吸引力的價格為您的中端市場提供幾乎同樣出色的拾音質量。我將在此處探討同時面向這兩類市場的技術。

語音活動檢測 (VAD)

此步驟是語音拾取路徑的起點 – 是否有人在聲音背景中講話?第一步只是查看一下信號,將具有清晰活動的幀與背景分離開來。

圖 1:針對示例信號的 VAD 功能

僅查看原始檢測信號,會發(fā)現(xiàn)一些檢測將是真實的,一些檢測將是錯誤的。為 SnR 設置一個合適的閾值有助于找到一個好的平衡點。在一款物有所值的產(chǎn)品中,純粹基于能量的檢測(窗口集成)可能就足夠了。高檔產(chǎn)品可能會增加使用神經(jīng)網(wǎng)絡的自適應檢測。這兩種特性在可穿戴設備和耳塞中都很常見。這些技術的常見分析是在接收器工作特性 (RoC) 曲線上繪制真陽性和假陽性的對比。假陽性和真陽性檢測之間的這種權衡有助于您決定如何調(diào)整產(chǎn)品。

1a713b06-5595-11ec-b2e9-dac502259ad0.png

圖 2:若干 VAD 解決方案的 RoC 圖表

到達方向檢測 (DOA)

此算法會比較不同麥克風上檢測到的信號在到達時間上的輕微延遲。自然地,每個麥克風對人類語音特性的拾取應具有選擇性。然后,檢測的準確性取決于所用麥克風的數(shù)量和這些麥克風的分布情況。

智能揚聲器或智能電視等高端設備通常會假定講話人距離較遠,因此 DOA 將會相當準確。中端市場產(chǎn)品通常會離講話人更近,并且?guī)缀蹩隙〞褂酶俚柠溈孙L,因此必須相應調(diào)整。這一因素對于波束成型技術尤其應予以考慮,而且對下一節(jié)中的降噪至關重要。

降噪

可以說,最好的降噪方式是空間降噪 - 使用波束成型技術放大講話人聲音。這再次需要多個麥克風,并使用 DOA 作為起點來選擇應放大的位置。您可以使用的麥克風越多,放大講話人聲音的準確度就越高,從而有效抑制所有其他噪音源。但即使使用兩個麥克風,您也可以在一個麥克風上提高甄別水平。

1aa46bca-5595-11ec-b2e9-dac502259ad0.png

1adfe330-5595-11ec-b2e9-dac502259ad0.png

圖 3:使用 3 個麥克風和 7 個麥克風的波束形成器濾波模式

對于單個麥克風,不能進行波束成型。如果講話人自然靠近麥克風,這可能不成問題。例如,耳塞通過骨傳導進行語音拾取時,可能已充分達到無噪音的程度。還請記住,對于語音識別,云提供商建議不要使用濾波器來消除噪音,因為這些濾波器可能同時會降低識別精度。

回聲消除

回聲(主要來自房間周圍的固定表面)會產(chǎn)生與講話人信號有關的背景噪音波尾。在低端設備上,設備的揚聲器和塑料盒往往會增加噪音甚至產(chǎn)生非線性影響。這意味著 AEC 算法不僅必須可根據(jù)環(huán)境回波調(diào)整,還必須針對來自設備外殼的任何可能噪音進行調(diào)整。

1b0ee180-5595-11ec-b2e9-dac502259ad0.png

圖 4:AEC 使用的標準拾音路徑

1b2fb3ce-5595-11ec-b2e9-dac502259ad0.png

圖 5:3 個不同房間的回波波尾隨時間而變化的振幅比

跨界的 CEVA ClearVox

正如您看到的,當涉及到準確的語音拾取時,一種規(guī)格并非處處適用。必須設計不同的解決方案以滿足不同的市場需求,即分別制定高端市場和大眾市場目標。CEVA 可以幫助您同時滿足這兩個目標,讓您從具有 NN 輔助算法和用于音頻縮放的許多麥克風的高端技術中獲得最大價值,或者從具有基于能量的語音活動檢測和僅有兩個甚至一個麥克風的實惠技術中獲得最大價值。CEVA 在這一領域擁有多年的豐富經(jīng)驗。在用于耳塞、耳機和空間音頻的應用中,所有這些經(jīng)驗都整合在我們的 CEVA ClearVox 產(chǎn)品中,該產(chǎn)品支持 CEVA DSPARM 平臺。

原文標題:如何通過調(diào)節(jié)以獲得高精度與高質量的語音識別

文章出處:【微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 麥克風
    +關注

    關注

    15

    文章

    663

    瀏覽量

    55807
  • CEVA
    +關注

    關注

    1

    文章

    189

    瀏覽量

    76598
  • 語音識別
    +關注

    關注

    39

    文章

    1782

    瀏覽量

    114261

原文標題:如何通過調(diào)節(jié)以獲得高精度與高質量的語音識別

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    芯知識|語音識別芯片麥克風配置指南:單麥與雙麥方案的技術選擇

    在智能語音產(chǎn)品的開發(fā)過程中,麥克風陣列的選型直接決定了用戶體驗的優(yōu)劣。廣州唯創(chuàng)電子提供的單麥克風與雙麥克風解決方案,為不同場景下的語音交互需
    的頭像 發(fā)表于 03-27 09:20 ?617次閱讀
    芯知識|<b class='flag-5'>語音</b>識別芯片<b class='flag-5'>麥克風</b>配置指南:單麥與雙麥方案的技術選擇

    AN-1140: 麥克風陣列波束成形

    電子發(fā)燒友網(wǎng)站提供《AN-1140: 麥克風陣列波束成形.pdf》資料免費下載
    發(fā)表于 01-05 09:32 ?0次下載
    AN-1140: <b class='flag-5'>麥克風</b>陣列波束成形

    四、麥克風陣列主要技術參數(shù)之精準解讀

    麥克風陣列宛如一個精密的聲學儀器,其性能由多個關鍵技術參數(shù)決定,下面就對這些主要技術參數(shù)進行精準解讀,揭開麥克風陣列高效運作的神秘面紗。(一)靈敏度與動態(tài)范圍:聲音信號的“感知標尺”在麥克風陣列
    的頭像 發(fā)表于 12-31 00:00 ?1281次閱讀
    四、<b class='flag-5'>麥克風</b>陣列主要技術參數(shù)之精準解讀

    什么是麥克風陣列

    什么是麥克風陣列?想象一下一個小型音響部隊在你面前,它們站成一排,用不同的麥克風捕捉聲音。這就是麥克風陣列的基本概念。麥克風陣列由多個麥克風
    的頭像 發(fā)表于 11-30 01:08 ?1646次閱讀
    什么是<b class='flag-5'>麥克風</b>陣列

    開創(chuàng)迷你麥克風時代:BOYAmini迷你麥克風驅動無線音頻行業(yè)新變革

    無線麥克風行業(yè)發(fā)展概覽近年來,無線麥克風行業(yè)在全球范圍內(nèi)迎來迅猛增長。從傳統(tǒng)音頻設備到智能化、多功能的小型設備,無線麥克風的市場不斷擴大。以中國為例,根據(jù)洛圖科技的市場分析,2023年數(shù)字無線便攜
    的頭像 發(fā)表于 11-29 12:09 ?868次閱讀
    開創(chuàng)迷你<b class='flag-5'>麥克風</b>時代:BOYAmini迷你<b class='flag-5'>麥克風</b>驅動無線音頻行業(yè)新變革

    MEMS麥克風的優(yōu)缺點分析

    隨著技術的進步,MEMS麥克風已經(jīng)成為音頻領域的一個重要分支,特別是在移動設備、智能家居和可穿戴設備中。它們以其獨特的優(yōu)勢在音頻捕捉領域占據(jù)了一席之地。 MEMS麥克風的優(yōu)點 1. 小型化 MEMS
    的頭像 發(fā)表于 11-20 10:12 ?2036次閱讀

    TWL6040如何激活麥克風?

    各位高手們,我現(xiàn)在使用TWL6040音頻芯片,想請教下如何激活麥克風,我之前使用到 是熊貓板,后來看了原理圖之后,熊貓板上麥克風都被接地了,只留下了FM通道,后來我們自己做了一塊板子,錄完音之后播放都是無聲的,想請教下,如果激活麥克風
    發(fā)表于 11-05 07:05

    鼎盛合 UHF無線麥克風方案

    在當今音頻技術飛速發(fā)展的時代,無線麥克風以其便捷性、靈活性和高質量的音頻傳輸能力,在眾多領域中得到了廣泛的應用。而在無線麥克風方案中,主控芯片起著至關重要的作用。本文將圍繞無線麥克風方案與主控芯片
    的頭像 發(fā)表于 10-28 16:44 ?1050次閱讀

    TLV320ADC6140和8個PDM麥克風設計麥克風陣列,使用TDM格式輸出,每個麥克風輸出相位是什么樣的?

    (手冊上數(shù)字麥克風的接法有錯誤,SEL引腳應該一個接VCC,一個接GND),每個話筒輸出都正常,但是加入算法后效果不好。我用示波器看了一下,PDM時鐘輸出都是同步的。就想問一下,PDM麥克風輸出后加入芯片
    發(fā)表于 10-12 08:12

    Sitara Linux ALSA DSP麥克風陣列語音識別

    電子發(fā)燒友網(wǎng)站提供《Sitara Linux ALSA DSP麥克風陣列語音識別.pdf》資料免費下載
    發(fā)表于 10-10 09:13 ?2次下載
    Sitara Linux ALSA DSP<b class='flag-5'>麥克風</b>陣列<b class='flag-5'>語音</b>識別

    主流的麥克風陣列有哪些?

    麥克風陣列在HiFi音頻解決方案中的重要性體現(xiàn)在它對音質提升的全面貢獻。通過精準的聲源定位、噪聲抑制、空間感增強和智能處理,麥克風陣列為HiFi音頻系統(tǒng)提供了卓越的聲音采集和再現(xiàn)能力,使用戶在音樂、電影和直播中獲得沉浸式的高保真
    的頭像 發(fā)表于 10-08 20:52 ?1284次閱讀
    主流的<b class='flag-5'>麥克風</b>陣列有哪些?

    麥克風傳感器工作原理,麥克風傳感器可用于檢測語音

    麥克風傳感器是一種將聲音信號轉換為電信號的裝置。當聲音波進入麥克風時,它會引起內(nèi)置的小型振膜(也稱為膜片或隔膜)振動。這個振動隨后被轉換為電信號,以便進行后續(xù)處理或傳輸。不同類型的麥克風(如動圈式、電容式、壓電式等)采用不同的物
    的頭像 發(fā)表于 10-01 11:42 ?1670次閱讀

    一文全了解麥克風陣列

    什么是麥克風陣列? 想象一下一個小型音響部隊在你面前,它們站成一排,用不同的麥克風捕捉聲音。這就是麥克風陣列的基本概念。麥克風陣列由多個麥克風
    的頭像 發(fā)表于 09-03 16:03 ?3024次閱讀
    一文全了解<b class='flag-5'>麥克風</b>陣列

    高性能USB麥克風解決方案

    高性能USB麥克風的設計思路是將專業(yè)錄音室級別的音質帶到日常使用中,同時保持使用的簡便性。傳統(tǒng)的專業(yè)麥克風通常需要外部音頻接口和復雜的設置,而USB麥克風通過內(nèi)置的聲卡和即插即用的設計,簡化了這一過程,
    的頭像 發(fā)表于 08-21 19:50 ?1016次閱讀
    高性能USB<b class='flag-5'>麥克風</b>解決方案

    麥克風的 Turnkey 解決方案

    麥克風的 Turnkey 解決方案提供了從硬件設計到系統(tǒng)集成的全面支持,通過高質量的麥克風技術解決了在各種應用場景中遇到的音頻清晰度、噪聲抑制和設備集成等問題。無論是在專業(yè)錄音、公共演講還是智能設備中,選擇合適的麥克風方案可以顯
    的頭像 發(fā)表于 08-16 22:45 ?879次閱讀
    <b class='flag-5'>麥克風</b>的 Turnkey 解決方案