亚洲AV蜜臀日韩AV无码污网站,亚州avav亚州av

該團(tuán)隊(duì)的非實(shí)時(shí)系統(tǒng)是性能最好的，而它的實(shí)時(shí)系統(tǒng)在整個(gè)系統(tǒng)中排名第三，在實(shí)時(shí)系統(tǒng)中排名第二，盡管只使用了4%的CPU核心。

文 / Arvindh Krishnaswamy 原文鏈接： https://www.amazon.science/blog/amazon-team-takes-first-place-in-interspeech-2020-deep-noise-suppression-challenge

在電子語音通信中，噪音和混響不僅會(huì)損害語音清晰度，而且會(huì)導(dǎo)致聽者在長時(shí)間努力理解低質(zhì)量語音時(shí)感到疲勞。在COVID-19大流行期間，我們花在遠(yuǎn)程會(huì)議上的時(shí)間越來越多，這一問題比以往任何時(shí)候都更加重要。在今年的Interspeech會(huì)議上的深度噪聲抑制挑戰(zhàn)便是為了幫助解決這個(gè)問題的一個(gè)嘗試，分別在實(shí)時(shí)語音增強(qiáng)和非實(shí)時(shí)語音增強(qiáng)上進(jìn)行比賽。在19個(gè)團(tuán)隊(duì)中，Amazon取得了最好的結(jié)果，在非實(shí)時(shí)賽道上獲得了第一名(階段1 |階段2-final)，在實(shí)時(shí)賽道上獲得了第二名。

上面是一個(gè)有噪聲的語音樣本(上圖) 下面是被研究者的系統(tǒng)抑制了噪聲的同一個(gè)樣本(下圖) 為了滿足真實(shí)世界的需求，我們將實(shí)時(shí)輸入限制在CPU使用量的4%(在i7-8565U內(nèi)核上測(cè)量)，這遠(yuǎn)遠(yuǎn)低于競賽所允許的最大限度。然而，我們的實(shí)時(shí)輸入非常接近(0.03平均意見分?jǐn)?shù))的第一名，并且擊敗了其他非實(shí)時(shí)的輸入。 Amazon團(tuán)隊(duì)實(shí)時(shí)和非實(shí)時(shí)噪聲抑制結(jié)果的音頻示例可以在這里找到。我們還發(fā)表了兩篇論文(paper1-offline | paper2-real)來更詳細(xì)地描述我們的技術(shù)方法。在Interspeech中獲勝的技術(shù)已經(jīng)在Alexa通信公告和Drop in Everywhere功能中發(fā)布，并且從今天開始，我們的客戶也可以通過使用Amazon Chime蘋果macOS和微軟Windows客戶端來進(jìn)行視頻會(huì)議和在線會(huì)議。

優(yōu)化的感知傳統(tǒng)的語音增強(qiáng)算法使用人工調(diào)整的語音和噪聲模型，通常假設(shè)噪聲是恒定的。對(duì)于某些類型的噪音(例如汽車噪音)，在噪音不太大或低混響的環(huán)境下，這種方法工作得相當(dāng)好。不幸的是，它們經(jīng)常在非平穩(wěn)噪音上失敗，比如鍵盤噪音和雜音。因此，研究人員轉(zhuǎn)向了深度學(xué)習(xí)方法。

語音增強(qiáng)不僅需要從噪音和混響中提取原始語音，而且需要以一種人類耳朵感覺自然和愉快的方式進(jìn)行。這使得自動(dòng)回歸測(cè)試變得困難，并使深度學(xué)習(xí)語音增強(qiáng)系統(tǒng)的設(shè)計(jì)復(fù)雜化。我們的實(shí)時(shí)系統(tǒng)實(shí)際上通過直接優(yōu)化了語音的感知特征(spectral envelope and voicing)，利用了人類的感知因素同時(shí)忽略了與感知無關(guān)的方面。由此產(chǎn)生的算法產(chǎn)生了最先進(jìn)的語音質(zhì)量，同時(shí)保持非常高的計(jì)算效率。對(duì)于非實(shí)時(shí)系統(tǒng)，我們采取了一種不妥協(xié)的方法，使用改進(jìn)的U-Net深度卷積網(wǎng)絡(luò)從增強(qiáng)的語音壓縮每一點(diǎn)可能的質(zhì)量，從而贏得了輸入挑戰(zhàn)。

一描繪經(jīng)被允許使用的研究人員的實(shí)時(shí)系統(tǒng)的百分比中央處理器核心降噪后的一語音樣本的平均意見分?jǐn)?shù)（MOS）的變化的圖像在深度噪聲抑制的挑戰(zhàn)中，經(jīng)過處理的音頻示例被盲發(fā)送給人類聽眾，由他們對(duì)其進(jìn)行評(píng)分，產(chǎn)生平均意見分?jǐn)?shù)(MOS)。在實(shí)時(shí)應(yīng)用程序中，復(fù)雜性和質(zhì)量之間總是需要權(quán)衡的。右邊的圖顯示了我們?nèi)绾瓮ㄟ^增加CPU需求來進(jìn)一步提高實(shí)時(shí)提交的質(zhì)量，或者通過犧牲一些質(zhì)量來進(jìn)一步節(jié)省CPU的使用。紅點(diǎn)表示提交挑戰(zhàn)的實(shí)時(shí)系統(tǒng)，圖像顯示了MOS分?jǐn)?shù)相對(duì)于不同CPU負(fù)載的變化。

人們普遍認(rèn)為，深度學(xué)習(xí)最終將對(duì)音頻處理產(chǎn)生深遠(yuǎn)影響。雖然仍有很多挑戰(zhàn)，比如數(shù)據(jù)增強(qiáng)，感知相關(guān)的損失函數(shù)或者處理看不見的情況，但未來依然非常令人興奮。

原文標(biāo)題：亞馬遜團(tuán)隊(duì)在Interspeech 2020深度噪聲抑制挑戰(zhàn)賽中獲得第一名

文章出處：【微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴