一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用3D卷積神經(jīng)網(wǎng)絡(luò)的交叉視聽識(shí)別技術(shù)進(jìn)行唇語識(shí)別

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-05 17:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

唇語識(shí)別系統(tǒng)使用機(jī)器視覺技術(shù),從圖像中連續(xù)識(shí)別出人臉,判斷其中正在說話的人,提取此人連續(xù)的口型變化特征,隨即將連續(xù)變化的特征輸入到唇語識(shí)別模型中,識(shí)別出講話人口型對(duì)應(yīng)的發(fā)音,隨后根據(jù)識(shí)別出的發(fā)音,計(jì)算出可能性最大的自然語言語句。

唇語識(shí)別并非最近才出現(xiàn)的技術(shù),早在 2003 年,Intel 就開發(fā)了唇語識(shí)別軟件 Audio Visual Speech Recognition(AVSR),開發(fā)者得以能夠研發(fā)可以進(jìn)行唇語識(shí)別的計(jì)算機(jī);2016 年 Google DeepMind 的唇語識(shí)別技術(shù)就已經(jīng)可以支持 17500 個(gè)詞,新聞測(cè)試集識(shí)別準(zhǔn)確率達(dá)到了 50% 以上。

大家一定很好奇唇語識(shí)別系統(tǒng)要怎么實(shí)現(xiàn)。Amirsina Torfi 等人實(shí)現(xiàn)了使用 3D 卷積神經(jīng)網(wǎng)絡(luò)的交叉視聽識(shí)別技術(shù)進(jìn)行唇語識(shí)別,并將代碼托管到 GitHub 上開源:

傳送門:

https://github.com/astorfi/lip-reading-deeplearning

接下來就為大家介紹如何使用 3D 卷積神經(jīng)網(wǎng)絡(luò)的交叉視聽識(shí)別技術(shù)進(jìn)行唇語識(shí)別,完整的論文可參閱:

https://ieeexplore.ieee.org/document/8063416

下面是進(jìn)行唇語識(shí)別的簡(jiǎn)單實(shí)現(xiàn)方法。

用戶需要按照格式準(zhǔn)備輸入數(shù)據(jù)。該項(xiàng)目使用耦合 3D 卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了視聽匹配(audio-visual matching)。唇語識(shí)別就是這個(gè)項(xiàng)目的具體應(yīng)用之一。

概況

當(dāng)音頻損壞時(shí),視聽語音識(shí)別(Audio-visual recognition,AVR)被認(rèn)為是完成語音識(shí)別任務(wù)的另一種解決方案,同時(shí),它也是一種在多人場(chǎng)景中用于驗(yàn)證講話人的視覺識(shí)別方法。AVR 系統(tǒng)的方法是利用從某種模態(tài)中提取的信息,通過填補(bǔ)缺失的信息來提高另一種模態(tài)的識(shí)別能力。

▌問題與方法

這項(xiàng)工作的關(guān)鍵問題是找出音頻和視頻流之間的對(duì)應(yīng)關(guān)系。我們提出了一種耦合 3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)可以將兩種模式映射到一個(gè)表示空間中,并使用學(xué)到的多模態(tài)特征來判斷視聽流間的對(duì)應(yīng)關(guān)系。

▌如何利用 3D 卷積神經(jīng)網(wǎng)絡(luò)

我們提出的該架構(gòu)將結(jié)合時(shí)態(tài)信息和空間信息,來有效地發(fā)現(xiàn)不同模態(tài)的時(shí)態(tài)信息之間的相關(guān)性。我們的方法使用相對(duì)較小的網(wǎng)絡(luò)架構(gòu)和更小的數(shù)據(jù)集,并在性能上優(yōu)于現(xiàn)有的視聽匹配方法,而現(xiàn)有方法主要使用 CNN來表示特征。我們還證明了有效的對(duì)選擇(pair selection)方法可以顯著提高性能。

代碼實(shí)現(xiàn)

輸入管道須由用戶提供。其余部分的實(shí)現(xiàn)包含基于話語的特征提取的數(shù)據(jù)集。

▌唇語識(shí)別

就唇語識(shí)別來講,必須將視頻作為輸入。首先,使用 cd 命令進(jìn)入相應(yīng)的目錄:

運(yùn)行專用的python file如下:

運(yùn)行上述腳本,通過保存每個(gè)幀的嘴部區(qū)域來提取唇部動(dòng)作,并在畫框圈出嘴部區(qū)域來創(chuàng)建新的視頻,以便進(jìn)行更好的可視化。

所需的arguments由以下 Python 腳本定義,VisualizeLip.py文件中已定義該腳本:

一些已定義的參數(shù)有其默認(rèn)值,它們并不需要進(jìn)一步的操作。

▌處理

視覺部分,視頻通過后期處理,使其幀率相等,均為 30f/s。然后,使用 dlib 庫(kù)跟蹤視頻中的人臉和提取嘴部區(qū)域。最后,所有嘴部區(qū)域都調(diào)整為相同的大小,并拼接起來形成輸入特征數(shù)據(jù)集。數(shù)據(jù)集并不包含任何音頻文件。使用 FFmpeg 框架從視頻中提取音頻文件。數(shù)據(jù)處理管道如下圖所示:

▌?shì)斎牍艿?/p>

我們所提出的架構(gòu)使用兩個(gè)不相同的卷積網(wǎng)絡(luò)(ConvNet),輸入是一對(duì)語音和視頻流。網(wǎng)絡(luò)輸入是一對(duì)特征,表示從 0.3 秒的視頻中提取的唇部動(dòng)作和語音特征。主要任務(wù)是確定音頻流是否與唇部運(yùn)動(dòng)視頻在所需的流持續(xù)時(shí)間內(nèi)相對(duì)應(yīng)。在接下來的兩個(gè)小節(jié)中,我們將分別講解語音和視覺流的輸入。

語音網(wǎng)絡(luò)(Speech Net)

在時(shí)間軸上,時(shí)間特征是非重疊的 20ms 窗口,用來生成局部的頻譜特征。語音特征輸入以圖像數(shù)據(jù)立方體的形式表示,對(duì)應(yīng)于頻譜圖,以及 MFEC 特征的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。這三個(gè)通道對(duì)應(yīng)于圖像深度。從一個(gè) 0.3 秒的視頻剪輯中,可以導(dǎo)出 15 個(gè)時(shí)態(tài)特征集(每個(gè)都形成 40 個(gè) MFEC 特征),這些特征集形成了語音特征立方體。一個(gè)音頻流的輸入特征維數(shù)為 15x40x3。如下圖所示:

語音特征使用 SpeechPy 包進(jìn)行提取。

要了解輸入管道是如何工作的,請(qǐng)參閱:

code/speech_input/input_feature.py

視覺網(wǎng)絡(luò)(Visual Net)

在這項(xiàng)工作中使用的每個(gè)視頻剪輯的幀率是 30 f/s。因此,9 個(gè)連續(xù)的圖像幀形成 0.3 秒的視頻流。網(wǎng)絡(luò)的視頻流的輸入是大小為 9x60x100 的立方體,其中 9 是表示時(shí)態(tài)信息的幀數(shù)。每個(gè)通道是嘴部區(qū)域的 60x100 灰度圖像。

架構(gòu)

該架構(gòu)是一個(gè)耦合 3D 卷積神經(jīng)網(wǎng)絡(luò),其中必須訓(xùn)練具有不同權(quán)重的兩個(gè)網(wǎng)絡(luò)。在視覺網(wǎng)絡(luò)中,唇部運(yùn)動(dòng)的空間信息和時(shí)態(tài)信息相結(jié)合,以此來利用時(shí)間相關(guān)性。在音頻網(wǎng)絡(luò)中,提取的能量特征作為空間維度,堆疊的音頻幀構(gòu)成了時(shí)間維度。在我們提出的 3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,卷積運(yùn)算是在連續(xù)的時(shí)間幀上對(duì)兩個(gè)視聽流執(zhí)行的。

訓(xùn)練 / 評(píng)估

首先,克隆存儲(chǔ)庫(kù)。然后,用 cd 命令進(jìn)入專用目錄:

最后,必須執(zhí)行train.py文件:

對(duì)于評(píng)估階段,必須執(zhí)行類似腳本:

▌運(yùn)行結(jié)果

下面的結(jié)果表明了該方法對(duì)收斂準(zhǔn)確度和收斂速度的影響。

最好的結(jié)果,也就是最右邊的結(jié)果,屬于我們提出的方法。

所提出的在線對(duì)選擇方法的效果如上圖所示。

分析到這,希望大家可以到 Github 上找到源碼,開始練起!附上作者給的代碼演示。

DEMO 演示地址

1.Training/Evaluation :

https://asciinema.org/a/kXIDzZt1UzRioL1gDPzOy9VkZ

2.Lip Tracking:

https://asciinema.org/a/RiZtscEJscrjLUIhZKkoG3GVm

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:唇語識(shí)別技術(shù)的開源教程,聽不見聲音我也能知道你說什么!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于3D數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別

    FusionNet的核心是全新的、應(yīng)用于3D物體的三維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。我們必須在多個(gè)方面調(diào)整傳統(tǒng)的CNN以使其有效。
    發(fā)表于 01-16 16:36 ?3932次閱讀
    基于<b class='flag-5'>3D</b>數(shù)據(jù)<b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的物體<b class='flag-5'>識(shí)別</b>

    使用Python卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像識(shí)別的基本步驟

    Python 卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識(shí)別領(lǐng)域具有廣泛的應(yīng)用。通過使用卷積神經(jīng)網(wǎng)絡(luò),我們可以讓計(jì)算機(jī)從圖像中學(xué)習(xí)特征,從而實(shí)現(xiàn)對(duì)圖像的分
    的頭像 發(fā)表于 11-20 11:20 ?7497次閱讀

    基于毫米波雷達(dá)的手勢(shì)識(shí)別神經(jīng)網(wǎng)絡(luò)

    使用3D-CNN對(duì)三種手勢(shì)進(jìn)行分類,結(jié)果表明識(shí)別率為91%。然而,3D-CNN在數(shù)據(jù)分辨率靈敏度和數(shù)據(jù)要求方面存在局限性。Ref等人的另一項(xiàng)研究[12]介紹了一種定制的多分支
    發(fā)表于 05-23 12:12

    【uFun試用申請(qǐng)】基于cortex-m系列核和卷積神經(jīng)網(wǎng)絡(luò)算法的圖像識(shí)別

    項(xiàng)目名稱:基于cortex-m系列核和卷積神經(jīng)網(wǎng)絡(luò)算法的圖像識(shí)別試用計(jì)劃:本人在圖像識(shí)別領(lǐng)域有三年多的學(xué)習(xí)和開發(fā)經(jīng)驗(yàn),曾利用nesys4ddr的fpga開發(fā)板,設(shè)計(jì)過基于cortex-
    發(fā)表于 04-09 14:12

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)設(shè)計(jì)

    ,看一下 FPGA 是否適用于解決大規(guī)模機(jī)器學(xué)習(xí)問題。卷積神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò) (DNN),工程師最近開始將該技術(shù)用于各種識(shí)別任務(wù)。圖
    發(fā)表于 06-19 07:24

    可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實(shí)現(xiàn)關(guān)鍵詞識(shí)別

    ,接下來是密集全連接層?!?深度可分離卷積神經(jīng)網(wǎng)絡(luò) (DS-CNN)最近,深度可分離卷積神經(jīng)網(wǎng)絡(luò)被推薦為標(biāo)準(zhǔn) 3D
    發(fā)表于 07-26 09:46

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    分析了目前的特殊模型結(jié)構(gòu),最后總結(jié)并討論了卷積神經(jīng)網(wǎng)絡(luò)在相關(guān)領(lǐng)域的應(yīng)用,并對(duì)未來的研究方向進(jìn)行展望。卷積神經(jīng)網(wǎng)絡(luò)(convolutional
    發(fā)表于 08-02 10:39

    卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:什么是機(jī)器學(xué)習(xí)?

    通過網(wǎng)絡(luò)訓(xùn)練來確定才能使模型工作。這將在后續(xù)文章“訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò):什么是機(jī)器學(xué)習(xí)?—第 2 部分”中解釋。第 3 部分將解釋我們討論過的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 02-23 20:11

    3D卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別

    傳統(tǒng)2D卷積神經(jīng)網(wǎng)絡(luò)對(duì)于視頻連續(xù)幀圖像的特征提取容易丟失目標(biāo)時(shí)間軸上的運(yùn)動(dòng)信息,導(dǎo)致識(shí)別準(zhǔn)確度較低。為此,提出一種基于多列深度3D
    發(fā)表于 01-30 13:59 ?2次下載
    <b class='flag-5'>3D</b><b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的手勢(shì)<b class='flag-5'>識(shí)別</b>

    卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用 卷積神經(jīng)網(wǎng)絡(luò)通常用來處理什么

    神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)廣泛用于圖像識(shí)別、自然語言處理、視頻處理等方面。本文將對(duì)卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用
    的頭像 發(fā)表于 08-21 16:41 ?5589次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)概述 卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn) cnn卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)

    卷積神經(jīng)網(wǎng)絡(luò)概述 卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn) cnn卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)?
    的頭像 發(fā)表于 08-21 16:41 ?3773次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)如何識(shí)別圖像

    多層卷積層、池化層和全連接層。CNN模型通過訓(xùn)練識(shí)別并學(xué)習(xí)高度復(fù)雜的圖像模式,對(duì)于識(shí)別物體和進(jìn)行圖像分類等任務(wù)有著非常優(yōu)越的表現(xiàn)。本文將會(huì)詳細(xì)介紹
    的頭像 發(fā)表于 08-21 16:49 ?2327次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的介紹 什么是卷積神經(jīng)網(wǎng)絡(luò)算法

    卷積神經(jīng)網(wǎng)絡(luò)的介紹 什么是卷積神經(jīng)網(wǎng)絡(luò)算法 卷積神經(jīng)網(wǎng)絡(luò)涉及的關(guān)鍵
    的頭像 發(fā)表于 08-21 16:49 ?2317次閱讀

    圖像識(shí)別卷積神經(jīng)網(wǎng)絡(luò)模型

    圖像識(shí)別卷積神經(jīng)網(wǎng)絡(luò)模型 隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和深度學(xué)習(xí)的迅速普及,圖像識(shí)別卷積
    的頭像 發(fā)表于 08-21 17:11 ?1068次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的應(yīng)用

    卷積操作 卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積操作。卷積操作是一種數(shù)學(xué)運(yùn)算,用于提取圖像中的局部特征。在圖像識(shí)別
    的頭像 發(fā)表于 07-02 14:28 ?1958次閱讀