一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook發(fā)布全卷積神經(jīng)網(wǎng)絡(luò)語音識別模型,開源語音處理深度學(xué)習(xí)工具包

nlfO_thejiangme ? 來源:lq ? 2018-12-26 09:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音識別領(lǐng)域先進(jìn)的神經(jīng)網(wǎng)絡(luò)一般使用rnn來構(gòu)建聲學(xué)或者語言模型,并基于特征抽取的方式來進(jìn)行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中,F(xiàn)acebook的研究人員提出了完全基于卷積神經(jīng)網(wǎng)絡(luò)的全卷積語音識別模型,充分利用了在聲學(xué)模型和語言模型方面的最新進(jìn)展。這一全卷積神經(jīng)網(wǎng)絡(luò)通過端到端的訓(xùn)練可以直接從原始波形預(yù)測出語言字符,移除了特征抽取的過程。同時(shí)利用一個(gè)外部的卷積語言模型來進(jìn)行單詞解碼。這一模型在多個(gè)數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。

模型

整個(gè)模型由四部分組成,分別是卷積前端、聲學(xué)模型、語言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。

在可學(xué)習(xí)的前端中,原始音頻首先輸入到一個(gè)寬度為2的卷積中,用于模仿梅爾濾波器特征中的前處理步驟。隨后應(yīng)用了寬度為25ms的k復(fù)卷積濾波器。隨后利用平方取絕對值并通過低通濾波器,其寬度為25ms步長為10ms。最后利用對數(shù)壓縮,并對每個(gè)通道進(jìn)行了均方歸一化。緊隨其后的是聲學(xué)模型,包含了線性門的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)使用了dropout來實(shí)現(xiàn)正則化。這一模型的目的在于直接預(yù)測出字母。在隨后的語言模型中,研究人員利用了GCNN-14B,其中包含了14個(gè)卷積殘差模塊和逐漸增長的通道數(shù),并利用了線性門控單元作為激活函數(shù)。語言模型的主要目的在于為備選的句子輸出打分,這一模型允許更大的上下文。最后,基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過程在于最大化上面的表達(dá)式。

工具

這一模型的實(shí)現(xiàn)使用了Facebook最新開源的兩個(gè)工具:其中使用了wav2letter建立聲學(xué)模型,fairseq建立了語言模型。

fairseq 原理圖

同時(shí)推出的升級版深度學(xué)習(xí)自動(dòng)語音識別工具框架wav2letter++,在之前wav2letter的基礎(chǔ)上進(jìn)行和很多的改進(jìn)和優(yōu)化。

wav2letter++ 工具包架構(gòu)

這一版的工具箱由C++實(shí)現(xiàn),并利用了ArrayFire張量庫來提高了運(yùn)算效率。研究團(tuán)隊(duì)表示,在某些情況下wav2letter++在訓(xùn)練端到端的語音識別神經(jīng)網(wǎng)絡(luò)時(shí)將提速2倍。

wav2letter++ 與其他語言工具的性能比較

端到端的語音識別使得其在多語言上的大規(guī)模應(yīng)用變得可行。同時(shí)直接從原始音頻上進(jìn)行學(xué)習(xí)可以充分發(fā)揮高質(zhì)量音頻的效果。端到端的算法加上高效的工具框架,將有效促進(jìn)這一領(lǐng)域的研究,希望全卷積神經(jīng)網(wǎng)絡(luò)的語音識別和wav2letter工具為小伙伴們的研究帶來新的幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:新模型、新工具,F(xiàn)acebook在語音識別領(lǐng)域的新動(dòng)作!

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的比較

    多層。 每一層都由若干個(gè)神經(jīng)元構(gòu)成,神經(jīng)元之間通過權(quán)重連接。信號在神經(jīng)網(wǎng)絡(luò)中是前向傳播的,而誤差是反向傳播的。 卷積神經(jīng)網(wǎng)絡(luò)(CNN) :
    的頭像 發(fā)表于 02-12 15:53 ?665次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個(gè)或多個(gè)隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、
    的頭像 發(fā)表于 02-12 15:15 ?855次閱讀

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語音識別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)
    的頭像 發(fā)表于 11-18 15:22 ?1351次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具
    的頭像 發(fā)表于 11-15 15:20 ?670次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整方法

    卷積神經(jīng)網(wǎng)絡(luò)因其在處理具有空間層次結(jié)構(gòu)的數(shù)據(jù)時(shí)的卓越性能而受到青睞。然而,CNN的成功很大程度上依賴于其參數(shù)的合理設(shè)置。參數(shù)調(diào)整是一個(gè)復(fù)雜的過程,涉及到多個(gè)超參數(shù)的選擇和優(yōu)化。 網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 15:10 ?1207次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為
    的頭像 發(fā)表于 11-15 14:58 ?804次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,
    的頭像 發(fā)表于 11-15 14:53 ?1868次閱讀

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來在多個(gè)領(lǐng)域取得了顯著的進(jìn)展,尤其是在圖像識別語音識別和自然語言處理等方面。
    的頭像 發(fā)表于 11-15 14:52 ?845次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    ),是深度學(xué)習(xí)的代表算法之一。 一、基本原理 卷積運(yùn)算 卷積運(yùn)算是卷積神經(jīng)網(wǎng)絡(luò)的核心,用于提取圖
    的頭像 發(fā)表于 11-15 14:47 ?1776次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)語音識別中的應(yīng)用實(shí)例

    語音識別技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它使計(jì)算機(jī)能夠理解和處理人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是長短期記憶(LSTM)
    的頭像 發(fā)表于 11-13 10:03 ?1851次閱讀

    關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~

    許多種類型,但本文將只關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN),其主要應(yīng)用領(lǐng)域是對輸入數(shù)據(jù)的模式識別和對象分類。CNN是一種用于深度學(xué)習(xí)的 人工
    發(fā)表于 10-24 13:56

    【飛凌嵌入式OK3576-C開發(fā)板體驗(yàn)】RKNPU圖像識別測試

    RKNPU在深度學(xué)習(xí)運(yùn)算能力上有了顯著的提升。 2.3、技術(shù)特點(diǎn) 高性能 :RKNPU采用專門的硬件架構(gòu)和優(yōu)化算法,能夠?qū)崿F(xiàn)高效的神經(jīng)網(wǎng)絡(luò)計(jì)算,滿足復(fù)雜場景下的實(shí)時(shí)處理需求。 低功耗
    發(fā)表于 10-10 09:27

    深度識別算法包括哪些內(nèi)容

    深度識別算法是深度學(xué)習(xí)領(lǐng)域的一個(gè)重要組成部分,它利用深度神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 09-10 15:28 ?841次閱讀

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別語音識別、自然語
    的頭像 發(fā)表于 07-24 10:42 ?1202次閱讀

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型是一個(gè)在機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域廣泛使用的技術(shù),尤其在
    的頭像 發(fā)表于 07-19 17:19 ?1565次閱讀