一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何借鑒人類聽覺系統(tǒng),基于自編碼器學(xué)習(xí)音頻嵌入表示

zhKF_jqr_AI ? 來源:lq ? 2018-12-08 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:Kanda機(jī)器學(xué)習(xí)工程師Daniel Rothmann講解了如何借鑒人類聽覺系統(tǒng),基于自編碼器學(xué)習(xí)音頻嵌入表示。

圖片來源:Jonathan Gross

AI技術(shù)的顯著突破都是通過建模人類系統(tǒng)達(dá)成的。盡管人工神經(jīng)網(wǎng)絡(luò)這一數(shù)學(xué)模型不過是從人類神經(jīng)元運(yùn)作的方式中獲得了最初的啟發(fā),它們?cè)诮鉀Q復(fù)雜而含混的真實(shí)世界問題上的應(yīng)用有目共睹。此外,建模人腦神經(jīng)網(wǎng)絡(luò)的架構(gòu)深度為學(xué)習(xí)數(shù)據(jù)更多有意義表示開啟了廣泛的可能性。

在圖像識(shí)別和處理領(lǐng)域,借鑒復(fù)雜而更具有空間不變性的視覺系統(tǒng)細(xì)胞的CNN大大改進(jìn)了我們的技術(shù)。如果你有興趣在音頻頻譜上應(yīng)用圖像識(shí)別技術(shù),可以看下本系列的第二篇文章。

只要人類的感知能力超過機(jī)器,我們就能持續(xù)通過理解人類學(xué)習(xí)的原理而取得進(jìn)展。人類非常擅長(zhǎng)感知任務(wù),特別是機(jī)器聽覺這一領(lǐng)域,當(dāng)前AI的表現(xiàn)與人類的差距明顯。有鑒于視覺處理依靠借鑒人類系統(tǒng)得到的收獲,我認(rèn)為用于機(jī)器聽覺的神經(jīng)網(wǎng)絡(luò)能夠持續(xù)基于類似的過程得到改進(jìn)。

框架概覽

在這一系列文章中,我將詳細(xì)介紹奧胡斯大學(xué)和智能揚(yáng)聲器生產(chǎn)商Dynaudio A/S合作開發(fā)的實(shí)時(shí)音頻信號(hào)處理框架。該框架的靈感主要來自于認(rèn)知科學(xué)——試圖結(jié)合生物學(xué)、神經(jīng)科學(xué)、心理學(xué)、哲學(xué)以更好地理解我們的認(rèn)知能力的科學(xué)。

認(rèn)知聲音性質(zhì)

也許聲音最抽象的一方面就是人類是如何感知它的。盡管信號(hào)處理問題的解答方案需要在低層操作強(qiáng)度、空間、時(shí)間性質(zhì)的參數(shù),但最終的目標(biāo)常常是認(rèn)知上的:以特定方式變換信號(hào),調(diào)整聲音的感知。

例如,如果有人想要通過編程的方式將說話錄音的性別修改一下,那么在定義其低層屬性之前,有必要先以更有意義的形式描述這一問題。說話人的性別可以被視作一個(gè)由多種因素決定的認(rèn)知性質(zhì):嗓音的音高、音色,發(fā)音的不同,措辭的不同,以及通常人們?nèi)绾卫斫膺@些性質(zhì)和性別的關(guān)系。

這些參數(shù)可以通過強(qiáng)度、空間、時(shí)間性質(zhì)之類的低層特征描述,但通過更復(fù)雜的組合它們才形成了高層表示。這形成了音頻特性的層次結(jié)構(gòu),從中可以導(dǎo)出聲音的“含義”。表示人類嗓音的認(rèn)知性質(zhì)可以看成聲音的強(qiáng)度、空間、統(tǒng)計(jì)學(xué)性質(zhì)的時(shí)域發(fā)展的組合模式。

神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)提取數(shù)據(jù)的抽象表示,因此很適合檢測(cè)聲音的認(rèn)知性質(zhì)這一任務(wù)。為了構(gòu)建達(dá)成這一目的的系統(tǒng),讓我們首先檢視下人類聽覺器官是如何表示聲音的,供神經(jīng)網(wǎng)絡(luò)處理的聲音表示可以從中得到借鑒。

耳蝸表示

人類的聽覺始于外耳的耳廓。耳廓起到空間預(yù)處理的作用,取決于傳入聲音和聽話人的相對(duì)方向,耳廓修改了傳入的聲音。接著,聲音從耳廓的開口傳入耳道。耳道通過共鳴進(jìn)一步修改傳入聲音的空間特性,共鳴將放大1-6kHz中的頻率1。

聲波到達(dá)耳道盡頭后刺激附著在鼓膜上的聽小骨(人體內(nèi)最小的骨頭)。這些聽小骨將耳道的壓力傳輸?shù)絻?nèi)耳中充滿液體的耳蝸1。神經(jīng)網(wǎng)絡(luò)的聲音表示對(duì)借鑒耳蝸很有興趣,因?yàn)槎佌侨祟愗?fù)責(zé)將聽覺振動(dòng)轉(zhuǎn)換為神經(jīng)活動(dòng)的器官。

耳蝸是由賴斯納氏膜和基底膜分隔的盤管。耳蝸中有大約3500個(gè)內(nèi)毛細(xì)胞1。隨著壓力傳入耳蝸,耳蝸中的兩道膜被下壓?;啄さ撞空?,頂部寬而松,這樣,特定頻率上的回應(yīng)自頂部至底部遞增。

簡(jiǎn)單地說,基底膜可以被看成一組連續(xù)的帶通濾波器,沿著基底膜區(qū)分出聲音的頻譜成分。

這就是人類轉(zhuǎn)換聲音壓力至神經(jīng)活動(dòng)的主要機(jī)制。因此,我們有理由假設(shè)聲音的空間表示對(duì)使用AI建模聲音感知會(huì)有幫助。由于基底膜的頻率響應(yīng)呈指數(shù)變化2,對(duì)數(shù)頻率表示可能是最高效的。我們可以使用gammatone濾波器組得到這樣的表示。這些濾波器常用于建模聽覺系統(tǒng)的空間過濾,因?yàn)樗鼈兘苧evor函數(shù)。通過測(cè)量聽覺神經(jīng)纖維對(duì)白噪聲刺激的響應(yīng),我們可以導(dǎo)出人類聽覺過濾器的沖動(dòng)響應(yīng)函數(shù),該函數(shù)被稱為revor函數(shù)3。

由于耳蝸具備大約3500個(gè)內(nèi)毛細(xì)胞,而人類能夠檢測(cè)到約2-5毫秒的聲音空隙1,空間解析度為3500的gammatone濾波器組搭配2毫秒的窗口看上去是在機(jī)器上達(dá)到類似人類的空間表示的最佳參數(shù)。然而,在實(shí)際場(chǎng)合,我覺得可以假定更低的解析度仍能在大多數(shù)分析和處理任務(wù)中取得所需效果,而且從算力的角度來說這樣更可行。

網(wǎng)上有一些用于聽覺分析的軟件庫。值得注意的一個(gè)例子是Jason Heeris的Gammatone Filterbank Toolkit。它提供了可供調(diào)整的濾波器,以及使用gammatone濾波器對(duì)音頻信號(hào)進(jìn)行頻譜類分析的工具。

神經(jīng)編碼

在神經(jīng)活動(dòng)從耳蝸到聽覺神經(jīng),沿著聽覺通路傳遞的過程中,在達(dá)到聽覺皮層之前,腦干核團(tuán)對(duì)其進(jìn)行了一系列處理。

這些處理形成了表示刺激和感知之間的接口的神經(jīng)編碼4。關(guān)于這些核團(tuán)的特定內(nèi)部工作機(jī)制的很多知識(shí)都是基于推測(cè)的,或者未知的,所以我將僅僅介紹核團(tuán)的高層功能。

單耳聽覺通路的簡(jiǎn)化示意圖

人類每只耳朵都有一組核團(tuán),這些核團(tuán)相互連接。不過,出于簡(jiǎn)單性,上圖只畫了單耳的流程。耳蝸核是來自聽覺神經(jīng)的神經(jīng)信號(hào)的第一個(gè)編碼步驟。它包含性質(zhì)不同的各種神經(jīng)元,對(duì)聲音的特征進(jìn)行初步處理,其中部分傳向負(fù)責(zé)定位聲音的上橄欖體,剩余部分傳向和更高級(jí)特征相關(guān)的外側(cè)丘系和下丘1。

J. J. Eggermont在“Between sound and perception: reviewing the search for a neural code”(聲音和感知之間:神經(jīng)編碼研究回顧)一文中詳細(xì)描述了耳蝸核中的信息流:“腹側(cè)耳蝸核(VCN)提取并增強(qiáng)在聽覺神經(jīng)纖維的激活模式中多路傳播的頻率和時(shí)間信息,并將結(jié)果分配到兩個(gè)通路:聲音定位通路和聲音識(shí)別通路。VCN的前部(AVCN)主要負(fù)責(zé)聲音定位,它的兩種多毛細(xì)胞為上橄欖復(fù)合體(SOC)提供輸入,SOC在每個(gè)頻率上分別映射雙耳時(shí)間差(ITD)和強(qiáng)度差(ILD)?!?

聲音識(shí)別通路傳輸?shù)男畔⒖梢员硎驹糁悘?fù)雜的頻譜。這一表示主要由腹側(cè)耳蝸核中特殊類型的單元(梳齒型神經(jīng)元)創(chuàng)建4。這些聽覺編碼的細(xì)節(jié)難以明確,但它們啟發(fā)我們傳入頻率頻譜的“編碼”形式可能改善對(duì)低層聲音特征的理解,也讓神經(jīng)網(wǎng)絡(luò)處理聲象不那么昂貴。

頻譜聲音編碼

我們可以應(yīng)用無監(jiān)督自編碼器神經(jīng)網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)復(fù)雜頻譜的常見性質(zhì)。類似詞嵌入,我們有可能找到頻率頻譜中的共性,這些共性表示聲音的選定特征(或者高度壓縮的含義)。

訓(xùn)練自編碼器編碼輸入為壓縮表示,該表示可以重建和輸入高度相似的表示。這意味著自編碼器的目標(biāo)輸出是輸入自身5。如果輸入可以在損失不大的情況下重建,那就說明網(wǎng)絡(luò)學(xué)習(xí)到了所需編碼方式,這一方式編碼的內(nèi)部壓縮表示中包含足夠多的有意義信息。我們將這一內(nèi)部表示稱為嵌入。自編碼器的編碼部分可以和解碼器解耦,為其他應(yīng)用生成嵌入。

嵌入還有一個(gè)優(yōu)勢(shì),嵌入常常比原始數(shù)據(jù)的維度要低。例如,自編碼器可以將共有3500個(gè)值的頻率頻譜壓縮為長(zhǎng)度為500的向量。簡(jiǎn)單來說,這樣的向量的每個(gè)值可以描述頻譜的高層特征,例如元音、刺耳、諧波——這些只是舉例,因?yàn)樽跃幋a器推導(dǎo)出的統(tǒng)計(jì)學(xué)共同因素的含義常常難以用簡(jiǎn)單的語言標(biāo)記。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器聽覺:三、基于自編碼器學(xué)習(xí)聲音嵌入表示

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于變分自編碼器的異常小區(qū)檢測(cè)

    ;另一個(gè)是正則化損失(regularization loss),它有助于學(xué)習(xí)具有良好結(jié)構(gòu)的潛在空間,并可以降低在訓(xùn)練數(shù)據(jù)上的過擬合?! ?.3基于變分自編碼器的異常小區(qū)檢測(cè)  基于變分自編碼器的異常小區(qū)
    發(fā)表于 12-03 15:06

    是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

    標(biāo)準(zhǔn)自編碼器學(xué)習(xí)生成緊湊的數(shù)據(jù)表達(dá)并重建輸入數(shù)據(jù),然而除了像去噪自編碼器等為數(shù)不多的應(yīng)用外,它的應(yīng)用卻極其有限。其根本原因在于自編碼器將輸入轉(zhuǎn)換為隱含空間中的表達(dá)并不是連續(xù)的,使得其
    的頭像 發(fā)表于 04-19 16:48 ?1.4w次閱讀
    是什么讓變分<b class='flag-5'>自編碼器</b>成為如此成功的多媒體生成工具呢?

    自編碼器介紹

    自編碼器若僅要求X≈Y,且對(duì)隱藏神經(jīng)元進(jìn)行稀疏約束,從而使大部分節(jié)點(diǎn)值為0或接近0的無效值,便得到稀疏自動(dòng)編碼算法。一般情況下,隱含層的神經(jīng)元數(shù)應(yīng)少于輸入X的個(gè)數(shù),因?yàn)榇藭r(shí)才能保證這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的價(jià)值。
    發(fā)表于 06-11 15:07 ?5124次閱讀

    稀疏自編碼器及TensorFlow實(shí)現(xiàn)詳解

     稀疏自編碼器(又稱稀疏自動(dòng)編碼機(jī))中,重構(gòu)誤差中添加了一個(gè)稀疏懲罰,用來限定任何時(shí)刻的隱藏層中并不是所有單元都被激活。如果 m 是輸入模式的總數(shù),那么可以定義一個(gè)參數(shù) ρ_hat,用來表示每個(gè)隱藏層單元的行為(平均激活多少次)
    發(fā)表于 06-11 16:45 ?4066次閱讀
    稀疏<b class='flag-5'>自編碼器</b>及TensorFlow實(shí)現(xiàn)詳解

    基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法SAANE

    在多數(shù)屬性網(wǎng)絡(luò)嵌入算法中,拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)只考慮節(jié)點(diǎn)間直接鏈接,而未考慮節(jié)點(diǎn)間間接鏈接及不同節(jié)點(diǎn)的共同鏈接比,導(dǎo)致不能充分提取網(wǎng)絡(luò)真實(shí)拓?fù)涮卣?。針?duì)該問題,提出一種基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法
    發(fā)表于 03-27 10:26 ?7次下載
    基于稀疏<b class='flag-5'>自編碼器</b>的屬性網(wǎng)絡(luò)<b class='flag-5'>嵌入</b>算法SAANE

    自編碼器基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無監(jiān)督學(xué)習(xí)方法,能夠從大量無標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來受到
    發(fā)表于 03-31 11:24 ?9次下載
    <b class='flag-5'>自編碼器</b>基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

    一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法

    自編碼器,其重構(gòu)的兩個(gè)新特征向量與原始樣本共同組成多通道特征向量表示;然后利用一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)多通道特征向量表示進(jìn)行處理,學(xué)習(xí)通道之間可能的依賴關(guān)系,用于更好地區(qū)分正常流
    發(fā)表于 04-07 15:23 ?7次下載
    一種多通道<b class='flag-5'>自編碼器</b>深度<b class='flag-5'>學(xué)習(xí)</b>的入侵檢測(cè)方法

    基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法

    ,將這些信息融入到網(wǎng)絡(luò)表示學(xué)習(xí)過程中,有助于提升下游任務(wù)的性能。但是針對(duì)不同的應(yīng)用場(chǎng)景,結(jié)構(gòu)和屬性信息并不總是線性相關(guān),而且它們都是高度非線性的數(shù)據(jù)。提岀一種基于變分自編碼器的網(wǎng)絡(luò)表示
    發(fā)表于 05-12 14:50 ?27次下載

    基于自編碼特征的語音聲學(xué)綜合特征提取

    信噪比衡量)很低。在不影響可懂度的情況下,為了提高語音増強(qiáng)后語音質(zhì)量,提出了一種基于自編碼特征的綜合特征。首先利用自編碼器提取自編碼特征,然后利用 Group Lasso算法驗(yàn)證自編碼
    發(fā)表于 05-19 16:33 ?27次下載

    結(jié)合深度學(xué)習(xí)自編碼器端到端物理層優(yōu)化方案

    5G規(guī)模化商用可提供髙速低延時(shí)的通信服務(wù),但由于逐塊設(shè)計(jì)的通信模型可解釋性程度較低,增加了其物理層優(yōu)化的復(fù)雜度。針對(duì)該問題,利用深度學(xué)習(xí)在結(jié)構(gòu)化信息表示和數(shù)據(jù)提取上的優(yōu)勢(shì),在其基礎(chǔ)上提出一種自編碼器
    發(fā)表于 05-24 15:18 ?7次下載

    自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實(shí)驗(yàn)綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無監(jiān)督學(xué)習(xí)方法,能夠從大量無標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來受到
    發(fā)表于 06-07 16:38 ?7次下載

    堆疊降噪自動(dòng)編碼器(SDAE)

    自動(dòng)編碼器(Auto-Encoder,AE) 自編碼器(autoencoder)是神經(jīng)網(wǎng)絡(luò)的一種,經(jīng)過訓(xùn)練后能嘗試將輸入復(fù)制到輸出。自編碼器內(nèi)部有一個(gè)隱藏層 h,可以產(chǎn)生編碼(code
    的頭像 發(fā)表于 01-11 17:04 ?7261次閱讀
    堆疊降噪自動(dòng)<b class='flag-5'>編碼器</b>(SDAE)

    自編碼器 AE(AutoEncoder)程序

    原文鏈接 1.程序講解 (1)香草編碼器 在這種自編碼器的最簡(jiǎn)單結(jié)構(gòu)中,只有三個(gè)網(wǎng)絡(luò)層,即只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。它的輸入和輸出是相同的,可通過使用Adam優(yōu)化和均方誤差損失函數(shù),來學(xué)習(xí)
    的頭像 發(fā)表于 01-11 17:29 ?1719次閱讀
    <b class='flag-5'>自編碼器</b> AE(AutoEncoder)程序

    編碼器音頻功能

    數(shù)字視頻監(jiān)控系統(tǒng)需要音頻功能,音頻功能包括音頻輸入和輸出功能,輸入功能是對(duì)前端的音頻輸入進(jìn)行與視頻同步的錄音,輸出功能指控制中心可以對(duì)前端現(xiàn)
    的頭像 發(fā)表于 08-25 11:11 ?1111次閱讀

    自編碼器的原理和類型

    自編碼器(Autoencoder, AE)是一種無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,它通過編碼器和解碼的組合,實(shí)現(xiàn)了對(duì)輸入數(shù)據(jù)的壓縮和重構(gòu)。自編碼器
    的頭像 發(fā)表于 07-09 11:25 ?2528次閱讀