一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音喚醒

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:通信信號(hào)處理研究所 ? 作者:通信信號(hào)處理研究 ? 2021-01-02 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 概述

人工智能技術(shù)迅猛發(fā)展,人機(jī)語(yǔ)音交互更加自然,搭載語(yǔ)音喚醒、識(shí)別技術(shù)的智能設(shè)備也越來(lái)越多。語(yǔ)音喚醒在學(xué)術(shù)上稱為 keyword spotting(簡(jiǎn)稱 KWS),即在連續(xù)語(yǔ)流中實(shí)時(shí)檢測(cè)出說(shuō)話人特定片段(比如:叮當(dāng)叮當(dāng)、Hi Siri 等),是一種小資源的關(guān)鍵詞檢索任務(wù),也可以看作是一類特殊的語(yǔ)音識(shí)別,應(yīng)用在智能設(shè)備上起到了保護(hù)用戶隱私、降低設(shè)備功耗的作用,經(jīng)常扮演一個(gè)激活設(shè)備、開(kāi)啟系統(tǒng)的入口角色,在手機(jī)助手、車載、可穿戴設(shè)備、智能家居機(jī)器人等運(yùn)用得尤其普遍。

喚醒效果好壞的判定指標(biāo)主要有召回率 (recall,俗稱喚醒率)、虛警率 (false alarm,俗稱誤喚醒)、響應(yīng)時(shí)間和功耗四個(gè)指標(biāo)。召回率表示正確被喚醒的次數(shù)占總的應(yīng)該被喚醒次數(shù)的比例。虛警率表示不該被喚醒卻被喚醒的概率,工業(yè)界常以 12 或者 24 小時(shí)的誤喚醒次數(shù)作為系統(tǒng)虛警率的評(píng)價(jià)指標(biāo)。響應(yīng)時(shí)間是指用戶說(shuō)出喚醒詞后,設(shè)備的反應(yīng)時(shí)間,過(guò)大的響應(yīng)時(shí)間會(huì)造成較差的用戶體驗(yàn)。功耗是指喚醒系統(tǒng)的耗電情況,多數(shù)智能設(shè)備都是電池供電,且需要保證長(zhǎng)時(shí)續(xù)航,要求喚醒系統(tǒng)必須是低耗能的。一個(gè)好的喚醒系統(tǒng)應(yīng)該保證較高的召回率、較低的虛警率、響應(yīng)延時(shí)短、功耗低。

喚醒技術(shù)落地的難點(diǎn)是要求在低功耗下達(dá)到高性能要求。一方面是目前很多智能設(shè)備為了控制成本,搭載的都是一些低端芯片,計(jì)算能力有限,需要喚醒模塊盡可能的減少計(jì)算計(jì)算量以減少能源消耗;一方面用戶使用場(chǎng)景多種多樣,設(shè)備也常沒(méi)有經(jīng)過(guò)專業(yè)聲學(xué)設(shè)計(jì),遠(yuǎn)場(chǎng)、大噪聲、強(qiáng)干擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問(wèn)題。

針對(duì)此問(wèn)題,騰訊 AI Lab 近期發(fā)表一篇論文,針對(duì)復(fù)雜聲學(xué)環(huán)境,特別是噪聲和干擾人聲場(chǎng)景,對(duì)送給喚醒模型的聲學(xué)信號(hào)進(jìn)行前處理,以提升其語(yǔ)音信號(hào)質(zhì)量。本論文已被 Interspeech 2020 接收。

很多智能設(shè)備安裝有多個(gè)麥克風(fēng),因此多通道的前端處理技術(shù)被應(yīng)用到喚醒的前端信號(hào)處理中。當(dāng)目標(biāo)說(shuō)話人與干擾聲源分布在不同方向時(shí),多通道的語(yǔ)音增強(qiáng)技術(shù),例如波束形成 (beamformer), 能夠有效的增強(qiáng)目標(biāo)說(shuō)話人,抑制其它干擾聲源。但是這一做法依賴較準(zhǔn)確的目標(biāo)說(shuō)話人方向定位。在實(shí)際環(huán)境中,由于有干擾聲源的存在,使得很難從帶噪數(shù)據(jù)中準(zhǔn)確估計(jì)目標(biāo)說(shuō)話人的方位,特別是當(dāng)有多人在同時(shí)說(shuō)話時(shí),也無(wú)法判斷哪一個(gè)是目標(biāo)說(shuō)話人。因此本文采用“耳聽(tīng)八方” (多音區(qū)) 的思路,在空間中設(shè)定若干待增強(qiáng)的方向(look direction),然后區(qū)別于傳統(tǒng)的波束形成做法(這個(gè)做法已發(fā)表于 ICASSP 2020 [1]),本文提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)(multi-look)語(yǔ)音增強(qiáng)模型,可同時(shí)增強(qiáng)多個(gè)指定的方向聲源。這些多個(gè)方向增強(qiáng)輸出的信號(hào)再通過(guò)注意力機(jī)制進(jìn)行特征融合送予喚醒模型。由于前端的增強(qiáng)是通過(guò)神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強(qiáng)模型與喚醒模型可以進(jìn)行聯(lián)合優(yōu)化,實(shí)現(xiàn)真正的前后端一體的多音區(qū)語(yǔ)音喚醒。

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)模型是首個(gè)完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)模型。相比于特定方向的語(yǔ)音增強(qiáng),本文提出的模型可同時(shí)增強(qiáng)多個(gè)方向聲源。同時(shí)這種基于神經(jīng)網(wǎng)絡(luò)的方法,在性能上顯著優(yōu)于基于傳統(tǒng)的波束形成做法。完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)前端,與喚醒模型聯(lián)合訓(xùn)練,前后一體的做法進(jìn)一步提升模型的魯棒性和穩(wěn)定性。此模型適用于多麥克風(fēng)設(shè)備的語(yǔ)音喚醒。

以下為方案詳細(xì)解讀。

2. 方案詳解

傳統(tǒng)的多音區(qū)語(yǔ)音處理的思路,是在空間中設(shè)定若干待增強(qiáng)的方向(look direction),每個(gè)方向分別應(yīng)用一個(gè)波束形成,增強(qiáng)這個(gè)方向的聲源,最終本文將每個(gè)方向增強(qiáng)輸出的信號(hào)輪流送給喚醒模塊,只要有一個(gè)方向觸發(fā)喚醒,則喚醒成功。這種基于多音區(qū)的多波束喚醒技術(shù)大大提高了噪聲下的喚醒性能,然而需要多次調(diào)用喚醒模塊,因此計(jì)算量較單路喚醒也成倍增加,功耗變大制約了應(yīng)用。針對(duì)這一情況,作者在早前一點(diǎn)的工作中 [1] 將注意力 (attention) 機(jī)制引入到喚醒框架下,如圖 1 所示,多個(gè) look-direction 增強(qiáng)的信號(hào)提取特征后通過(guò) attention 層映射成單通道輸入特征,再送入單路喚醒網(wǎng)絡(luò)層,與單路喚醒相比僅僅增加了一層網(wǎng)絡(luò),既保證了喚醒性能,計(jì)算量又大大降低。

057c3e98-4458-11eb-8b86-12bb97331649.png

圖 1:基于多波束特征融合的喚醒模型 [1]

以上介紹的基于波束形成的多音區(qū)喚醒 [1],前端的信號(hào)處理(波束形成)和喚醒模塊還沒(méi)有做到聯(lián)合調(diào)優(yōu)。因此本文提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)模型。該模型讀取單個(gè)通道的語(yǔ)譜特征和多通道的相位差特征,同時(shí)根據(jù)預(yù)設(shè)的若干音區(qū)方向(look direction),作者分別提取對(duì)應(yīng)的方向特征 (directionalfeature)。這些方向特征表征每個(gè)時(shí)頻點(diǎn)是否被特定音區(qū)方向的聲源信號(hào)占據(jù),從而驅(qū)動(dòng)網(wǎng)絡(luò)在輸出端增強(qiáng)距離每個(gè)音區(qū)方向最近的那個(gè)說(shuō)話人。為了避免因?yàn)橐魠^(qū)和說(shuō)話人的空間分布導(dǎo)致目標(biāo)說(shuō)話人經(jīng)過(guò)多音區(qū)增強(qiáng)模型處理后失真,實(shí)驗(yàn)中使用一個(gè)原始麥克風(fēng)信號(hào)與多個(gè)方向增強(qiáng)輸出的信號(hào)一起通過(guò)注意力機(jī)制進(jìn)行特征融合送予喚醒模型,由于前端的增強(qiáng)是通過(guò)神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強(qiáng)模型與喚醒模型可以進(jìn)行聯(lián)合優(yōu)化,實(shí)現(xiàn)真正的前后端一體的多音區(qū)語(yǔ)音喚醒。完整的模型結(jié)構(gòu)在圖 2 中描述。

05ff7c04-4458-11eb-8b86-12bb97331649.png

圖 2: 本文提出的基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音增強(qiáng)和喚醒模型 [2]

圖 3 是一個(gè)多音區(qū)增強(qiáng)的實(shí)例。兩個(gè)說(shuō)話人分別位于圖 (a) 所示位置,麥克風(fēng)采集的兩人同時(shí)說(shuō)話信號(hào)譜如圖 (b). 作者設(shè)定了 4 個(gè)待增強(qiáng)的方向(0 度,90 度,180 度和 270 度)。多音區(qū)增強(qiáng)模型將會(huì)在 0 度和 90 度方向增強(qiáng)藍(lán)色說(shuō)話人,180 度和 270 度方向?qū)?huì)增強(qiáng)黑色說(shuō)話人, 增強(qiáng)后的 4 個(gè)方向語(yǔ)譜如圖 (c)。

06514aca-4458-11eb-8b86-12bb97331649.png

圖 3: 多音區(qū)增強(qiáng)網(wǎng)絡(luò)輸出實(shí)例

在圖 4 中,作者對(duì)比了基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)增強(qiáng)喚醒模型與基于波束形成的多音區(qū)增強(qiáng)喚醒模型和基線的單通道喚醒模型??梢钥闯鎏貏e是在小于 6dB 的信干比聲學(xué)環(huán)境下,本文提出的做法顯著超越其它方法。不同方法喚醒率測(cè)試均在控制誤喚醒為連續(xù) 12 小時(shí)干擾噪聲下 1 次的條件下進(jìn)行的。

078bea08-4458-11eb-8b86-12bb97331649.png

圖 4: 多音區(qū)喚醒模型的性能對(duì)比

3.總結(jié)及展望

本文提出的多音區(qū)語(yǔ)音增強(qiáng)和喚醒的做法,大幅降級(jí)了喚醒前端語(yǔ)音增強(qiáng)與喚醒結(jié)合使用的計(jì)算量,在未知目標(biāo)聲源方位的情形下,同時(shí)增強(qiáng)的多個(gè)方向聲源信號(hào)的特征融合可保證目標(biāo)語(yǔ)音得到增強(qiáng),給準(zhǔn)確的喚醒提供了保障。在論文中測(cè)試的多說(shuō)話人帶噪聲的復(fù)雜聲學(xué)環(huán)境下,喚醒率達(dá)到 95%。

多音區(qū)的語(yǔ)音增強(qiáng)模型已經(jīng)與聲紋模型結(jié)合,形成多音區(qū)的說(shuō)話人驗(yàn)證,提升聲紋系統(tǒng)在復(fù)雜遠(yuǎn)場(chǎng)聲學(xué)環(huán)境下的魯棒性。未來(lái)這一工作可與語(yǔ)音識(shí)別等其它語(yǔ)音任務(wù)相結(jié)合。

原文標(biāo)題:論文解讀丨基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音喚醒

文章出處:【微信公眾號(hào):通信信號(hào)處理研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:論文解讀丨基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語(yǔ)音喚醒

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析

    隨著人工智能技術(shù)的快速發(fā)展,AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話產(chǎn)品中的應(yīng)用正逐步取代傳統(tǒng)降噪技術(shù),成為提升語(yǔ)音質(zhì)量的關(guān)鍵解決方案。相比傳統(tǒng)DSP(數(shù)字信號(hào)處理)降噪,AI降噪具有更強(qiáng)的環(huán)境適應(yīng)能力、更高
    的頭像 發(fā)表于 05-16 17:07 ?418次閱讀
    AI<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>降噪算法在<b class='flag-5'>語(yǔ)音</b>通話產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對(duì)兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?668次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為一種常用的機(jī)器學(xué)習(xí)模型,具有顯著的優(yōu)點(diǎn),同時(shí)也存在一些不容忽視的缺點(diǎn)。以下是對(duì)BP神經(jīng)網(wǎng)絡(luò)優(yōu)缺點(diǎn)的分析: 優(yōu)點(diǎn)
    的頭像 發(fā)表于 02-12 15:36 ?922次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法的介紹: 一、基本概念 反向傳播算法是BP
    的頭像 發(fā)表于 02-12 15:18 ?769次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural N
    的頭像 發(fā)表于 02-12 15:15 ?862次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的基本原理

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)的基本原理涉及前向傳播和反向傳播兩個(gè)核心過(guò)程。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)基本原理的介紹: 一、網(wǎng)絡(luò)結(jié)構(gòu) BP神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:13 ?858次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法。在本文中,我們會(huì)介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1195次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識(shí)別、自然語(yǔ)言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見(jiàn)的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 14:53 ?1872次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種強(qiáng)大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如前饋
    的頭像 發(fā)表于 11-15 09:42 ?1129次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與工作機(jī)制

    LSTM(Long Short-Term Memory,長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),設(shè)計(jì)用于解決長(zhǎng)期依賴問(wèn)題,特別是在處理時(shí)間序列數(shù)據(jù)時(shí)表現(xiàn)出色。以下是LSTM神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-13 10:05 ?1631次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別中的應(yīng)用實(shí)例

    語(yǔ)音識(shí)別技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它使計(jì)算機(jī)能夠理解和處理人類語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)的引入,語(yǔ)音識(shí)別的準(zhǔn)確性和效率得到了顯著提升。 LSTM
    的頭像 發(fā)表于 11-13 10:03 ?1852次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實(shí)現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    LSTM(長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴信息。在處理序列數(shù)據(jù)時(shí),如時(shí)間序列分析、自然語(yǔ)言處理等,LSTM因其能夠有效地捕捉時(shí)間序列中的長(zhǎng)期依賴關(guān)系而受到
    的頭像 發(fā)表于 11-13 09:53 ?1586次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    Moku3.3版更新在Moku:Pro平臺(tái)新增了全新的儀器功能【神經(jīng)網(wǎng)絡(luò)】,使用戶能夠在Moku設(shè)備上部署實(shí)時(shí)機(jī)器學(xué)習(xí)算法,進(jìn)行快速、靈活的信號(hào)分析、去噪、傳感器調(diào)節(jié)校準(zhǔn)、閉環(huán)反饋等應(yīng)用。如果您
    的頭像 發(fā)表于 11-01 08:06 ?666次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    matlab 神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析

    matlab神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析 精通的可以討論下
    發(fā)表于 09-18 15:14

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型
    的頭像 發(fā)表于 07-24 10:42 ?1206次閱讀