一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國(guó)團(tuán)隊(duì)將計(jì)算機(jī)“詞匯級(jí)唇讀”精度提高到84.41%

獨(dú)愛72H ? 來源:DeepTech ? 作者:DeepTech ? 2020-03-19 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:DeepTech)

近年來,隨著深度學(xué)習(xí)的迅速發(fā)展和廣泛的潛在應(yīng)用,基于計(jì)算機(jī)視覺的唇讀技術(shù)受到越來越多的關(guān)注,它在實(shí)踐中有許多重要的應(yīng)用,如輔助語音識(shí)別、生物認(rèn)證、幫助聽障人士等。但是唇讀任務(wù)的難度非常高,一個(gè)關(guān)鍵點(diǎn)是如何有效地獲取唇部的運(yùn)動(dòng)信息,同時(shí)抵抗由姿勢(shì)、光線變化引起的識(shí)別困難,講話人的外貌、講話速度變化等干擾因素,此外,如何把唇語圖像特征與詞匯文本進(jìn)行精確關(guān)聯(lián)或者區(qū)分同音詞也挑戰(zhàn)重重。

來自浙江工業(yè)大學(xué)、中國(guó)科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室以及中國(guó)科學(xué)院計(jì)算技術(shù)研究所的研究人員針對(duì)這些問題,提出在局部特征層和全局序列層引入互信息約束,以增強(qiáng)唇部視覺特征與語音內(nèi)容的關(guān)系。通過在一些主流數(shù)據(jù)集上測(cè)試,該團(tuán)隊(duì)提出的方法有望同時(shí)具有較好的鑒別能力和魯棒性,以實(shí)現(xiàn)有效的唇讀。

唇讀領(lǐng)域有一個(gè)重要技術(shù)分支即詞匯級(jí)唇讀,對(duì)于該任務(wù),需要用單個(gè)單詞標(biāo)簽對(duì)每個(gè)輸入視頻進(jìn)行注釋,盡管在同一視頻中也存在其他單詞,如上圖所示:(a)中的視頻樣本總共包括 29 幀,被注釋為 “ABOUT”,但是單詞“ABOUT” 的實(shí)際幀僅包括時(shí)間步驟 T=1219 的幀,這個(gè)間隔前后的幀分別對(duì)應(yīng)于單詞是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇語視覺的研究中,我們總是很難劃分一個(gè)單詞的確切邊界。

這種特性要求一個(gè)好的唇讀模型能夠?qū)W習(xí)到同一個(gè)詞標(biāo)簽下不同視頻中反映的潛在但一致的特性,從而能夠更多地關(guān)注有效的關(guān)鍵幀,而較少關(guān)注其他無關(guān)幀。除了不精確的詞匯邊界挑戰(zhàn)外,對(duì)應(yīng)于同一個(gè)詞標(biāo)簽的視頻樣本總是具有極大的多樣化和外觀變化,如(b)所示,所有這些特性都要求唇讀模型能夠抵抗序列中的噪聲,從而在不同的語音條件下捕獲一致的潛在模式。

同時(shí),由于唇部動(dòng)作的有效面積有限,不同的詞在說話過程中可能表現(xiàn)出相似的現(xiàn)象。特別是,同音詞的存在,不同的詞看起來可能相同或非常相似,增加了許多額外的困難,這些屬性要求模型能夠發(fā)現(xiàn)與幀級(jí)別中不同單詞相關(guān)的細(xì)粒度差異,以便區(qū)分每個(gè)單詞。為了解決上述問題,研究人員在不同層次上引入了互信息最大化(MIM),以幫助該模型學(xué)習(xí)魯棒性和區(qū)分性表示,從而實(shí)現(xiàn)有效的唇讀。

一方面,通過施加局部互信息最大化約束(LMIM)來約束每個(gè)時(shí)間步產(chǎn)生的特征,使其與語音內(nèi)容之間具有很強(qiáng)的相關(guān)性,從而提高了模型發(fā)現(xiàn)精細(xì)的嘴唇動(dòng)作的能力,以及發(fā)音相似的單詞之間的細(xì)微差別,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化約束(GMIM),使得模型能夠更加注意區(qū)分與語音內(nèi)容相關(guān)的關(guān)鍵幀,而且在說話過程中出現(xiàn)的各種噪音也較少。

此外,GMIM 迫使模型學(xué)習(xí)不同樣本中同一個(gè)詞標(biāo)簽的潛在一致全局模式,同時(shí)對(duì)姿勢(shì)、光照和其他不相關(guān)條件的變化具有魯棒性;LMIM 可增強(qiáng)每個(gè)時(shí)間步與單詞相關(guān)的細(xì)粒度運(yùn)動(dòng),進(jìn)一步增強(qiáng)不同單詞之間的差異。通過將這兩類約束結(jié)合起來,模型可以自動(dòng)發(fā)現(xiàn)和區(qū)分目標(biāo)詞的有效重要幀,而忽略其他無關(guān)幀,進(jìn)一步提高了識(shí)別的精準(zhǔn)度。

最后,團(tuán)隊(duì)在兩個(gè)大規(guī)模的單詞級(jí)唇讀數(shù)據(jù)集 LRW 和 LRW-1000 上與同行提出的主流唇語識(shí)別模型方法做了對(duì)比評(píng)估,這兩個(gè)數(shù)據(jù)集的樣本都是從各種不同的電視節(jié)目中收集的,并且演講條件也有很大的變化,涵蓋了包括燈光條件、分辨率、姿勢(shì)、性別、化妝等在內(nèi)的多種說話條件。

LRW 于 2016 年發(fā)布,包括 500 個(gè)單詞的唇形樣本,1000 多個(gè)演講者,訓(xùn)練集中的實(shí)例數(shù)達(dá)到 488766 個(gè),驗(yàn)證和測(cè)試集中的每個(gè)實(shí)例數(shù)為 25000 個(gè);LRW-1000 數(shù)據(jù)集則是一個(gè)大規(guī)模的自然分布的字級(jí)基準(zhǔn)數(shù)據(jù)集,總共有 1000 個(gè)中文詞匯,總計(jì)大約 718018 個(gè)樣本實(shí)例,持續(xù)時(shí)間約 57 小時(shí),不過該數(shù)據(jù)集旨在覆蓋不同語音模式和成像條件下的自然變化,以納入實(shí)際應(yīng)用中遇到的挑戰(zhàn)。

在 LRW 數(shù)據(jù)集上,引入 LMIM 之后,在基線準(zhǔn)確率基礎(chǔ)上提高了約 1.19%,LMIM 有望為主要任務(wù)捕獲更具區(qū)分性和細(xì)粒度的特征,同時(shí)引入 GMIM 則把精度提高到了 84.41%,主要得益于其對(duì)不同幀的不同關(guān)注。

不過,在 LRW-1000 數(shù)據(jù)集上因其語音條件變化較大,包括燈光條件、分辨率、演講者年齡、姿勢(shì)、性別、化妝等,此前行業(yè)最佳測(cè)試結(jié)果僅為 38.19%。在這個(gè)數(shù)據(jù)集上獲得良好的識(shí)別效果仍是一個(gè)挑戰(zhàn),新的模型方式獲得了 38.79% 的識(shí)別精度,略微優(yōu)于現(xiàn)有的最新結(jié)果。

結(jié)果表明,該團(tuán)隊(duì)提出的方法在不使用額外數(shù)據(jù)或額外的預(yù)訓(xùn)練模型的情況下,在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上相比其他唇語識(shí)別模型,呈現(xiàn)出一種新的實(shí)時(shí)性能狀態(tài)。此外,團(tuán)隊(duì)表示,該方法還可以很容易地修改為其他任務(wù)的模型,從而為其他任務(wù)的研究提供一些有意義的見解。
(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7662

    瀏覽量

    90790
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122794
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)化計(jì)算機(jī)的功能與用途

    工業(yè)自動(dòng)化是指利用自動(dòng)化計(jì)算機(jī)來控制工業(yè)環(huán)境中的流程、機(jī)器人和機(jī)械,以制造產(chǎn)品或其部件。工業(yè)自動(dòng)化的目的是提高生產(chǎn)率、增加靈活性,并提升制造過程的質(zhì)量。工業(yè)自動(dòng)化在汽車制造中體現(xiàn)得最為明顯,其中許多
    的頭像 發(fā)表于 07-15 16:32 ?113次閱讀
    自動(dòng)化<b class='flag-5'>計(jì)算機(jī)</b>的功能與用途

    工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些

    能夠高效穩(wěn)定地運(yùn)行,減少停機(jī)時(shí)間,確保生產(chǎn)效率。那么工業(yè)計(jì)算機(jī)與普通商用計(jì)算機(jī)有哪些區(qū)別呢?一、組件選擇與制造質(zhì)量:工業(yè)級(jí)組件:使用更寬溫度范圍(如-20°C60
    的頭像 發(fā)表于 07-10 16:36 ?172次閱讀
    工業(yè)<b class='flag-5'>計(jì)算機(jī)</b>與商用<b class='flag-5'>計(jì)算機(jī)</b>的區(qū)別有哪些

    云端超級(jí)計(jì)算機(jī)使用教程

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計(jì)算服務(wù)。下面,AI部落小編為
    的頭像 發(fā)表于 12-17 10:19 ?549次閱讀

    工業(yè)中使用哪種計(jì)算機(jī)?

    在工業(yè)環(huán)境中,工控機(jī)被廣泛使用。這些計(jì)算機(jī)的設(shè)計(jì)可承受極端溫度、灰塵和振動(dòng)等惡劣條件。它們比標(biāo)準(zhǔn)消費(fèi)類計(jì)算機(jī)更耐用、更可靠。工業(yè)計(jì)算機(jī)可控制機(jī)器、監(jiān)控流程并實(shí)時(shí)收集數(shù)據(jù)。其堅(jiān)固的結(jié)構(gòu)和專業(yè)功能
    的頭像 發(fā)表于 11-29 14:07 ?708次閱讀
    工業(yè)中使用哪種<b class='flag-5'>計(jì)算機(jī)</b>?

    量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

    ? 本文介紹了量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別。 量子計(jì)算是一個(gè)新興的研究領(lǐng)域,科學(xué)家們利用量子力學(xué),制造出具有革命性能力的計(jì)算機(jī)。雖然現(xiàn)在的量子
    的頭像 發(fā)表于 11-24 11:00 ?1481次閱讀
    量子<b class='flag-5'>計(jì)算機(jī)</b>與普通<b class='flag-5'>計(jì)算機(jī)</b>工作原理的區(qū)別

    工業(yè)計(jì)算機(jī)類型介紹

    ,各行各業(yè)80%的企業(yè)依靠計(jì)算機(jī)進(jìn)行日常運(yùn)營(yíng),使其成為成功不可或缺的工具。從小型企業(yè)大型企業(yè),計(jì)算機(jī)已成為工業(yè)領(lǐng)域的支柱,推動(dòng)著增長(zhǎng)并推動(dòng)企業(yè)向前發(fā)展。在本文中,我們將
    的頭像 發(fā)表于 11-04 15:56 ?664次閱讀
    工業(yè)<b class='flag-5'>計(jì)算機(jī)</b>類型介紹

    工業(yè)中使用哪種類型的計(jì)算機(jī)?

    工業(yè)計(jì)算機(jī):穩(wěn)健應(yīng)用的基本解決方案各行各業(yè)對(duì)強(qiáng)大計(jì)算解決方案的需求日益增長(zhǎng),導(dǎo)致人們高度依賴工業(yè)計(jì)算機(jī)。這些專用系統(tǒng)專為典型消費(fèi)級(jí)電腦無法適應(yīng)的環(huán)境而設(shè)計(jì)。從制造業(yè)
    的頭像 發(fā)表于 10-22 17:10 ?691次閱讀
    工業(yè)中使用哪種類型的<b class='flag-5'>計(jì)算機(jī)</b>?

    TAS5630B PBTL模式下,將音頻信號(hào)幅度提高到1.5倍,后級(jí)的功放需不需要提高功率?

    我使用的TAS5630B,PBTL模式,之前音頻信號(hào)聲音偏小,現(xiàn)在將音頻信號(hào)幅度提高到1.5倍,不知道后級(jí)的功放需不需要提高功率,還是音頻信號(hào)幅度提高不影響后
    發(fā)表于 10-16 08:08

    計(jì)算機(jī)接口位于什么之間

    計(jì)算機(jī)接口是計(jì)算機(jī)硬件和軟件之間、計(jì)算機(jī)與外部設(shè)備之間以及計(jì)算機(jī)各部件之間傳輸數(shù)據(jù)、控制信息和狀態(tài)信息的硬件設(shè)備和軟件程序。它在計(jì)算機(jī)系統(tǒng)中
    的頭像 發(fā)表于 10-14 14:02 ?1309次閱讀

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)的構(gòu)成

    計(jì)算機(jī)存儲(chǔ)系統(tǒng)是計(jì)算機(jī)中用于存放程序和數(shù)據(jù)的設(shè)備或部件的集合,它構(gòu)成了計(jì)算機(jī)信息處理的基礎(chǔ)。一個(gè)完整的計(jì)算機(jī)存儲(chǔ)系統(tǒng)通常包括多個(gè)層次的存儲(chǔ)器,從高速緩存(Cache)
    的頭像 發(fā)表于 09-26 15:25 ?2535次閱讀

    簡(jiǎn)述計(jì)算機(jī)總線的分類

    計(jì)算機(jī)總線作為計(jì)算機(jī)系統(tǒng)中連接各個(gè)功能部件的公共通信干線,其結(jié)構(gòu)和分類對(duì)于理解計(jì)算機(jī)硬件系統(tǒng)的工作原理至關(guān)重要。以下是對(duì)計(jì)算機(jī)總線結(jié)構(gòu)和分類的詳細(xì)闡述,內(nèi)容將涵蓋總線的基本概念、內(nèi)部結(jié)
    的頭像 發(fā)表于 08-26 16:23 ?5179次閱讀

    晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)有什么區(qū)別

    晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)作為計(jì)算機(jī)發(fā)展史上的兩個(gè)重要階段,它們?cè)诙鄠€(gè)方面存在顯著的區(qū)別。以下是對(duì)這兩類計(jì)算機(jī)在硬件、性能、應(yīng)用以及技術(shù)發(fā)展等方面區(qū)別的詳細(xì)闡述。
    的頭像 發(fā)表于 08-23 15:28 ?3606次閱讀

    簡(jiǎn)述計(jì)算機(jī)的I/O控制方式

    計(jì)算機(jī)的I/O(輸入/輸出)控制方式是計(jì)算機(jī)系統(tǒng)中至關(guān)重要的部分,它決定了CPU與外設(shè)之間數(shù)據(jù)交換的方式和效率。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,I/O控制方式也經(jīng)歷了從簡(jiǎn)單復(fù)雜、從低效
    的頭像 發(fā)表于 08-20 10:55 ?2370次閱讀

    計(jì)算機(jī)系統(tǒng)的組成和功能

    計(jì)算機(jī)系統(tǒng)是一個(gè)復(fù)雜而龐大的概念,它涵蓋了計(jì)算機(jī)硬件、軟件以及它們之間相互作用的所有元素。為了全面而深入地探討計(jì)算機(jī)系統(tǒng),本文將從定義、組成、功能、發(fā)展歷程以及未來趨勢(shì)等方面進(jìn)行詳細(xì)闡述。
    的頭像 發(fā)表于 07-24 17:41 ?2404次閱讀

    DRAM在計(jì)算機(jī)中的應(yīng)用

    DRAM(Dynamic Random Access Memory,動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)在計(jì)算機(jī)系統(tǒng)中扮演著至關(guān)重要的角色。它是一種半導(dǎo)體存儲(chǔ)器,用于存儲(chǔ)和快速訪問數(shù)據(jù),是計(jì)算機(jī)主內(nèi)存的主要組成部分。以下是對(duì)DRAM在計(jì)算機(jī)中的
    的頭像 發(fā)表于 07-24 17:04 ?3005次閱讀