Part 01●概述●
在實(shí)時(shí)音視頻通信場(chǎng)景,麥克風(fēng)采集用戶語(yǔ)音的同時(shí)會(huì)采集大量環(huán)境噪聲,傳統(tǒng)降噪算法僅對(duì)平穩(wěn)噪聲(如電扇風(fēng)聲、白噪聲、電路底噪等)有一定效果,對(duì)非平穩(wěn)的瞬態(tài)噪聲(如餐廳嘈雜噪聲、地鐵環(huán)境噪聲、家庭廚房噪聲等)降噪效果較差,嚴(yán)重影響用戶的通話體驗(yàn)。針對(duì)泛家庭、辦公等復(fù)雜場(chǎng)景中的上百種非平穩(wěn)噪聲問(wèn)題,融合通信系統(tǒng)部生態(tài)賦能團(tuán)隊(duì)自主研發(fā)基于GRU模型的AI音頻降噪技術(shù),并通過(guò)算法和工程優(yōu)化,將降噪模型尺寸從2.4MB壓縮至82KB,運(yùn)行內(nèi)存降低約65%;計(jì)算復(fù)雜度從約186Mflops優(yōu)化至42Mflops,運(yùn)行效率提升77%;在現(xiàn)有的測(cè)試數(shù)據(jù)集中(實(shí)驗(yàn)環(huán)境下),可有效分離人聲和噪聲,將通話語(yǔ)音質(zhì)量Mos分(平均意見(jiàn)值)提升至4.25。
Part 02●噪聲分類(lèi)和降噪算法選擇●
實(shí)時(shí)音視頻的應(yīng)用場(chǎng)景中,設(shè)備處于復(fù)雜的聲學(xué)環(huán)境,麥克風(fēng)采集語(yǔ)音信號(hào)的同時(shí)還會(huì)采集大量噪聲,對(duì)實(shí)時(shí)音視頻質(zhì)量來(lái)說(shuō)是一個(gè)非常大的挑戰(zhàn)。噪聲的種類(lèi)是多種多樣的。根據(jù)噪聲的數(shù)學(xué)統(tǒng)計(jì)特性可以將噪聲分為兩類(lèi):
平穩(wěn)噪聲:噪聲的統(tǒng)計(jì)特性在比較長(zhǎng)的時(shí)間里不會(huì)隨時(shí)間而變化,比如白噪聲、電風(fēng)扇、空調(diào)、車(chē)內(nèi)噪聲等;
非平穩(wěn)噪聲:噪聲的統(tǒng)計(jì)特性隨時(shí)間在變化,如餐廳嘈雜噪聲、地鐵站、辦公室、家庭廚房等。
在實(shí)時(shí)音視頻應(yīng)用中,通話易受到各類(lèi)噪聲干擾從而影響體驗(yàn),因此實(shí)時(shí)音頻降噪已經(jīng)成為實(shí)時(shí)音視頻中的一個(gè)重要功能。對(duì)于平穩(wěn)的噪聲,比如空調(diào)出風(fēng)口呼呼聲或者錄制設(shè)備的底噪,它不會(huì)隨著時(shí)間變化而產(chǎn)生較大變化,可以將其估計(jì)預(yù)測(cè)出來(lái),通過(guò)簡(jiǎn)單的減法的方式把它去掉,常見(jiàn)的有譜減法、維納濾波以及小波變換。對(duì)于非平穩(wěn)噪聲,例如馬路上車(chē)子呼嘯而過(guò)的聲音、餐廳內(nèi)餐盤(pán)的撞擊聲、家庭廚房?jī)?nèi)的鍋具的敲擊聲,都是隨機(jī)突發(fā)出現(xiàn),是不可能通過(guò)估計(jì)預(yù)測(cè)的方式去解決的。傳統(tǒng)算法對(duì)于非平穩(wěn)噪聲難以估計(jì)和消除,這也是我們采用深度學(xué)習(xí)算法的原因。
Part 03●深度學(xué)習(xí)降噪算法設(shè)計(jì)●
為了提高音頻SDK對(duì)于各種噪聲場(chǎng)景的降噪能力,彌補(bǔ)傳統(tǒng)降噪算法的不足,我們研發(fā)了基于RNN的AI降噪模塊,結(jié)合傳統(tǒng)降噪技術(shù)和深度學(xué)習(xí)技術(shù)。重點(diǎn)針對(duì)家庭和辦公室使用場(chǎng)景的降噪處理,在噪聲數(shù)據(jù)集中加入大量的室內(nèi)噪聲類(lèi)型,諸如辦公室內(nèi)的鍵盤(pán)敲擊、辦公桌與辦公用品拖拉的摩擦聲、座椅拖動(dòng)、家庭中的廚房嘈雜聲、地板撞擊聲等等。
與此同時(shí),為了在移動(dòng)端的實(shí)時(shí)語(yǔ)音處理落地,該AI音頻降噪算法將計(jì)算開(kāi)銷(xiāo)和庫(kù)的尺寸控制在一個(gè)非常低的量級(jí)。在計(jì)算開(kāi)銷(xiāo)上,以48KHz為例,每幀語(yǔ)音的RNN網(wǎng)絡(luò)處理處理僅需約17.5Mflops,F(xiàn)FT和IFFT每幀語(yǔ)音需要約7.5Mflops,特征提取需要約12Mflops,總計(jì)約42Mflops,計(jì)算復(fù)雜度約和48KHz的Opus編解碼相當(dāng),在某品牌中端手機(jī)型號(hào),統(tǒng)計(jì)RNN降噪模塊CPU占用約為4%。在音頻庫(kù)的尺寸上,開(kāi)啟RNN降噪編譯后,音頻引擎庫(kù)的體積僅僅增加約108kB。
Part 04●網(wǎng)絡(luò)模型及處理流程●
該模塊采用RNN 模型,原因是 RNN 相比其他學(xué)習(xí)模型(例如 CNN)攜帶時(shí)間信息,可以對(duì)時(shí)序信號(hào)進(jìn)行建模,而不僅僅是單獨(dú)的音頻輸入和輸出幀。同時(shí),模型采用門(mén)控循環(huán)單元(GRU,如圖1所示),實(shí)驗(yàn)表明,GRU在語(yǔ)音降噪任務(wù)上的性能略好于LSTM,并且由于GRU的權(quán)值參數(shù)更少,可以節(jié)省計(jì)算資源。與簡(jiǎn)單的循環(huán)單元相比,GRU有兩個(gè)額外的門(mén)。重置門(mén)控制狀態(tài)是否用于計(jì)算新?tīng)顟B(tài),而更新門(mén)控制狀態(tài)將根據(jù)新輸入改變的程度。這個(gè)更新門(mén)使GRU可以長(zhǎng)時(shí)間記憶時(shí)序信息,這也是GRU比簡(jiǎn)單的循環(huán)單元表現(xiàn)更好的原因。
圖1 左側(cè)為簡(jiǎn)單循環(huán)單元,右側(cè)為GRU
模型的結(jié)構(gòu)如圖2所示。訓(xùn)練后的模型會(huì)被嵌入到音視頻通信 SDK 中,通過(guò)讀取硬件設(shè)備的音頻流,對(duì)音頻流進(jìn)行分幀處理并送入 AI 降噪預(yù)處理模塊中,預(yù)處理模塊會(huì)將對(duì)應(yīng)的特征(Feature)計(jì)算出來(lái),并輸出到訓(xùn)練好的模型中,通過(guò)模型計(jì)算出對(duì)應(yīng)的增益(Gain)值,使用增益值對(duì)信號(hào)進(jìn)行調(diào)整,最終達(dá)到降噪的目的(如圖3所示)。
圖 2. 基于GRU的RNN網(wǎng)絡(luò)模型
圖3. 上方為模型訓(xùn)練流程,下方為實(shí)時(shí)降噪流程
Part 05●AI降噪處理效果和落地●
圖4為帶有鍵盤(pán)敲擊噪聲的降噪前后語(yǔ)音語(yǔ)譜圖的對(duì)比,上半部分為降噪前的帶噪語(yǔ)音信號(hào),其中紅色矩形框內(nèi)為鍵盤(pán)敲擊噪聲。下半部分為降噪后的語(yǔ)音信號(hào),通過(guò)觀測(cè)可以發(fā)現(xiàn),絕大部分鍵盤(pán)敲擊聲均可以被抑制,同時(shí)語(yǔ)音損傷控制在較低的程度。
圖4. 帶噪語(yǔ)音(通話過(guò)程伴隨著鍵盤(pán)敲擊聲)降噪前后對(duì)比
目前的AI降噪模型,已經(jīng)在手機(jī)端和家親上線,改善手機(jī)端和家親APP通話降噪效果,對(duì)泛家庭、辦公室等100多種噪聲場(chǎng)景具備優(yōu)秀的抑制能力,同時(shí)保持語(yǔ)音不失真。下一階段,將將持續(xù)優(yōu)化AI降噪模型的計(jì)算復(fù)雜度,以在IoT低功耗設(shè)備上能夠推廣使用。
審核編輯:陳陳
-
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280067 -
降噪技術(shù)
+關(guān)注
關(guān)注
2文章
46瀏覽量
12976 -
實(shí)時(shí)通信
+關(guān)注
關(guān)注
0文章
20瀏覽量
9819
原文標(biāo)題:技術(shù)趣談 | 實(shí)時(shí)通信中的AI降噪技術(shù)
文章出處:【微信號(hào):5G通信,微信公眾號(hào):5G通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NanoEdge AI的技術(shù)原理、應(yīng)用場(chǎng)景及優(yōu)勢(shì)
全國(guó)高技術(shù)重點(diǎn)圖書(shū)·通信技術(shù)領(lǐng)域_現(xiàn)代通信中的排隊(duì)論
labview通信中如果有通信協(xié)議,如何處理通信中傳輸?shù)膮f(xié)議數(shù)據(jù)?
PROFINET及其同步實(shí)時(shí)通信分析
PROFINET及其同步實(shí)時(shí)通信分析
MIMO技術(shù)在對(duì)流層散射通信中的性能分析
McWiLL系統(tǒng)在應(yīng)急通信中的應(yīng)用分析

網(wǎng)絡(luò)通信中差錯(cuò)控制技術(shù)的應(yīng)用與研究
藍(lán)牙技術(shù)在遠(yuǎn)程電力線通信中的應(yīng)用下載

基于DSP的語(yǔ)音降噪系統(tǒng)設(shè)計(jì)方案解析

評(píng)論