一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)

電子工程師 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-08-08 16:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

聽(tīng)到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來(lái)自路過(guò)的一輛急救車。

能不能讓AI根據(jù)音頻信號(hào)得到發(fā)聲物完整的、精細(xì)化的掩碼圖呢?

來(lái)自合肥工業(yè)大學(xué)、商湯、澳國(guó)立、北航、英偉達(dá)、港大和上海人工智能實(shí)驗(yàn)室的研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)(Audio-Visual Segmentation, AVS)。

視聽(tīng)分割,就是要分割出發(fā)聲物,而后生成發(fā)聲物的精細(xì)化分割圖。

相應(yīng)的,研究人員提出了第一個(gè)具有像素級(jí)標(biāo)注的視聽(tīng)數(shù)據(jù)集AVSBench。

465bf528-16c2-11ed-ba43-dac502259ad0.png

Audio-Visual Segmentation

論文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

項(xiàng)目主頁(yè):

https://opennlplab.github.io/AVSBench/

新任務(wù)、新的數(shù)據(jù)集,搞算法的又有新坑可以卷了。

467d6fa0-16c2-11ed-ba43-dac502259ad0.png

據(jù)最新放榜結(jié)果,該論文已被ECCV 2022接受。

精準(zhǔn)鎖定發(fā)聲物

聽(tīng)覺(jué)和視覺(jué)是人類感知世界中最重要的兩個(gè)傳感器。生活里,聲音信號(hào)和視覺(jué)信號(hào)往往是互補(bǔ)的。

視聽(tīng)表征學(xué)習(xí)(audio-visual learning)已經(jīng)催生了很多有趣的任務(wù),比如視聽(tīng)通信(AVC)、視聽(tīng)事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務(wù),也有以熱力圖可視化大致定位發(fā)聲物的任務(wù)。

但無(wú)論哪一種,離精細(xì)化的視聽(tīng)場(chǎng)景理解都差點(diǎn)意思。

469cc1de-16c2-11ed-ba43-dac502259ad0.png

△AVS 任務(wù)與 SSL 任務(wù)的比較

視聽(tīng)分割“迎難而上”,提出要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導(dǎo)信號(hào),確定分割哪個(gè)物體,并得到其完整的像素級(jí)掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個(gè)新任務(wù)呢?

鑒于當(dāng)前還沒(méi)有視聽(tīng)分割的開(kāi)源數(shù)據(jù)集,研究人員提出AVSBench 數(shù)據(jù)集,借助它研究了新任務(wù)的兩種設(shè)置:

1、單聲源(Single-source)下的視聽(tīng)分割
2、多聲源(Multi-sources)下的視聽(tīng)分割

數(shù)據(jù)集中的每個(gè)視頻時(shí)長(zhǎng)5秒。

單聲源子集包含23類,共4932個(gè)視頻,包含嬰兒、貓狗、吉他、賽車、除草機(jī)等與日常生活息息相關(guān)的發(fā)聲物。

46b6a4be-16c2-11ed-ba43-dac502259ad0.png

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個(gè)視頻。

結(jié)合難易情況,單聲源子集在半監(jiān)督條件下進(jìn)行,多聲源子集則以全監(jiān)督條件進(jìn)行。

研究人員對(duì)AVSBench里的每個(gè)視頻等間隔采樣5幀,然后人工對(duì)發(fā)聲體進(jìn)行像素級(jí)標(biāo)注。

對(duì)于單聲源子集,僅標(biāo)注采樣的第一張視頻幀;對(duì)于多聲源子集,5幀圖像都被標(biāo)注——這就是所謂的半監(jiān)督和全監(jiān)督。

46c54e24-16c2-11ed-ba43-dac502259ad0.png

△對(duì)單聲源子集和多聲源子集進(jìn)行不同人工標(biāo)注

這種像素級(jí)的標(biāo)注,避免了將很多非發(fā)聲物或背景給包含進(jìn)來(lái),從而增加了模型驗(yàn)證的準(zhǔn)確性。

一個(gè)簡(jiǎn)單的baseline方法

有了數(shù)據(jù)集,研究人員還拋磚引玉,在文中給了個(gè)簡(jiǎn)單的baseline。

吸收傳統(tǒng)語(yǔ)義分割模型的成功經(jīng)驗(yàn),研究人員提出了一個(gè)端到端的視聽(tīng)分割模型。

46e44a22-16c2-11ed-ba43-dac502259ad0.png

△視聽(tīng)分割框架圖

這個(gè)模型遵循編碼器-解碼器的網(wǎng)絡(luò)架構(gòu),輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個(gè)網(wǎng)絡(luò)優(yōu)化目標(biāo)。

一是計(jì)算預(yù)測(cè)圖和真實(shí)標(biāo)簽的損失。

而針對(duì)多聲源情況,研究人員提出了掩碼視聽(tīng)匹配損失函數(shù),用來(lái)約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實(shí)驗(yàn)結(jié)果

光說(shuō)不練假把式,研究人員進(jìn)行了廣泛實(shí)驗(yàn)。

首先,將視聽(tīng)分割與相關(guān)任務(wù)的6種方法進(jìn)行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(cè)(SOD)任務(wù)上的各兩個(gè)SOTA方法。

實(shí)驗(yàn)結(jié)果表明,視聽(tīng)分割在多個(gè)指標(biāo)下取得了最佳結(jié)果。

47032ec4-16c2-11ed-ba43-dac502259ad0.png

△和來(lái)自相關(guān)任務(wù)方法進(jìn)行視聽(tīng)分割的對(duì)比結(jié)果

其次,研究人員進(jìn)行了一系列消融實(shí)驗(yàn),驗(yàn)證出,利用TPAVI模塊,單聲源和多聲源設(shè)置下采用兩種backbone的視聽(tīng)分割模型都能得到更大的提升。

4712b006-16c2-11ed-ba43-dac502259ad0.png

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細(xì)節(jié)(左圖),并且有助于分割出正確的發(fā)聲物(右圖)

對(duì)于新任務(wù)的視聽(tīng)匹配損失函數(shù),實(shí)驗(yàn)還驗(yàn)證了其有效性。

47260c28-16c2-11ed-ba43-dac502259ad0.png

△視聽(tīng)匹配損失函數(shù)的有效性

One More Thing

文中還提到,AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽(tīng)分割模型的訓(xùn)練、測(cè)試,其也可以用于驗(yàn)證聲源定位模型。

研究人員在項(xiàng)目主頁(yè)上表示,正在準(zhǔn)備比AVSBench大10倍的AVSBench-v2。

一些視頻的分割demo也上傳在主頁(yè)上。感興趣的話可以前往查看~

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺(jué)
    +關(guān)注

    關(guān)注

    163

    文章

    4595

    瀏覽量

    122878
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35101

    瀏覽量

    279548
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25444

原文標(biāo)題:ECCV 2022 | 視覺(jué)新任務(wù)!AVS:視聽(tīng)分割

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    微雙重驅(qū)動(dòng)的新型直線電機(jī)研究

    摘罷:大行程、高精度,同時(shí)易于小型化的移動(dòng)機(jī)構(gòu)是先進(jìn)制造業(yè)等領(lǐng)域要解決的關(guān)鍵問(wèn)題之,綜述了現(xiàn)有宏/微雙重驅(qū)動(dòng)機(jī)構(gòu)和直線超聲電機(jī)的研究進(jìn)展和存在問(wèn)題,提出了種宏微雙重驅(qū)動(dòng)新型直線壓電
    發(fā)表于 06-24 14:17

    雙定子直線振蕩電機(jī)動(dòng)子位移自傳感技術(shù)研究

    本文主要對(duì)于種新型雙定子直線振蕩電機(jī)的動(dòng)子位移自傳感算法進(jìn)行了研究。基于理論推導(dǎo),建立了雙定子直線振蕩電機(jī)系統(tǒng)的數(shù)學(xué)模型,并推導(dǎo)出了動(dòng)子位移表達(dá)公式。在此基礎(chǔ)上,結(jié)合直線振蕩電機(jī)特性提出了
    發(fā)表于 06-19 11:08

    電機(jī)系統(tǒng)節(jié)能關(guān)鍵技術(shù)及展望

    節(jié)約能源既是我國(guó)經(jīng)濟(jì)和社會(huì)發(fā)展的一項(xiàng)長(zhǎng)遠(yuǎn)戰(zhàn)略和基本國(guó)策,也是當(dāng)前的緊迫任務(wù)。論文在深入分析國(guó)內(nèi)外電機(jī)系統(tǒng)節(jié)能現(xiàn)狀和介紹先進(jìn)的節(jié)能關(guān)鍵技術(shù)的基礎(chǔ)上,指出了現(xiàn)階段我國(guó)在電機(jī)系統(tǒng)節(jié)能方面存在的問(wèn)題,并結(jié)合
    發(fā)表于 04-30 00:43

    騰訊捐贈(zèng)5億支持青年基礎(chǔ)研究

    領(lǐng)域的一項(xiàng)重要舉措,旨在推動(dòng)青年科研人才的發(fā)展和創(chuàng)新。捐贈(zèng)資金將重點(diǎn)用于支持女性、西部及粵港澳大灣區(qū)的研究者,幫助他們更好地開(kāi)展基礎(chǔ)研究。這舉措不僅體現(xiàn)了騰訊公司對(duì)青年科研人才的重視
    的頭像 發(fā)表于 02-19 14:12 ?319次閱讀

    AMS-QMV-H9:九畫面分割與無(wú)縫切換的視聽(tīng)新紀(jì)元開(kāi)創(chuàng)

    樣的背景下,深圳市程達(dá)科技有限公司推出了其傾力打造的AMS-QMV-H9畫面分割器與無(wú)縫切換器,這款產(chǎn)品以其卓越的性能和豐富的功能,正在引領(lǐng)場(chǎng)視聽(tīng)革命的新紀(jì)元。
    的頭像 發(fā)表于 12-26 10:41 ?400次閱讀
    AMS-QMV-H9:九畫面<b class='flag-5'>分割</b>與無(wú)縫切換的<b class='flag-5'>視聽(tīng)</b>新紀(jì)元開(kāi)創(chuàng)<b class='flag-5'>者</b>

    AMD獲得一項(xiàng)玻璃基板技術(shù)專利

    近日,處理器大廠AMD宣布獲得了一項(xiàng)涵蓋玻璃芯基板技術(shù)的專利(專利號(hào)“12080632”),這消息標(biāo)志著AMD在高性能系統(tǒng)級(jí)封裝(SiP)領(lǐng)域的研究取得了重要進(jìn)展。
    的頭像 發(fā)表于 12-02 10:33 ?516次閱讀

    谷歌云宣布一項(xiàng)重要人事任命

    近日,谷歌云(Google Cloud)正式宣布了一項(xiàng)重要人事任命,尹世明將加入谷歌云,擔(dān)任大中華區(qū)總裁職。這任命無(wú)疑將為谷歌云在大中華區(qū)的業(yè)務(wù)發(fā)展和市場(chǎng)拓展注入新的活力和動(dòng)力。 尹世明在業(yè)
    的頭像 發(fā)表于 11-18 15:07 ?596次閱讀

    電子背散射衍射(EBSD)在材料科學(xué)中的應(yīng)用與解讀

    EBSD技術(shù)的興起與成熟電子背散射衍射(EBSD)技術(shù),作為材料科學(xué)領(lǐng)域的一項(xiàng)革命性技術(shù),自其商業(yè)化以來(lái),已經(jīng)迅速成為材料研究者們的重要工具。這技術(shù)的發(fā)展得益于信息技術(shù)的飛速進(jìn)步,使得EBSD在
    的頭像 發(fā)表于 10-29 16:14 ?665次閱讀
    電子背散射衍射(EBSD)在材料科學(xué)中的應(yīng)用與解讀

    蘋果新獲一項(xiàng)投影儀專利

     10月17日資訊,科技博客Patently Apple于10月15日發(fā)布報(bào)道,指出蘋果公司新獲一項(xiàng)投影儀專利,此專利允許用戶無(wú)需佩戴頭顯設(shè)備,即可在桌子、墻壁等平面上展示混合增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)內(nèi)容。
    的頭像 發(fā)表于 10-17 16:01 ?1194次閱讀

    PCB生產(chǎn),在鉆咀和成品孔徑之間,你會(huì)優(yōu)先滿足哪一項(xiàng)

    PCB生產(chǎn)既要滿足鉆咀尺寸又要滿足成品孔徑,當(dāng)這兩個(gè)要求有沖突時(shí),如果你只能滿足其中一項(xiàng)時(shí),你會(huì)優(yōu)先保證哪一項(xiàng),請(qǐng)走進(jìn)今天的案例,看看你選對(duì)了嗎……
    的頭像 發(fā)表于 09-24 10:10 ?524次閱讀
    PCB生產(chǎn),在鉆咀和成品孔徑之間,你會(huì)優(yōu)先滿足哪<b class='flag-5'>一項(xiàng)</b>呢

    在THS3201的datasheet中,有一項(xiàng)指標(biāo)noise figure,其值為11dB,這個(gè)指標(biāo)怎么解釋?

    請(qǐng)問(wèn)專家,在THS3201的datasheet中,有一項(xiàng)指標(biāo)noise figure,其值為11dB(G=10V/V,RG=28歐姆,RF=255歐姆),這個(gè)指標(biāo)怎么解釋?
    發(fā)表于 09-12 06:25

    蘋果獲得一項(xiàng)突破性智能戒指技術(shù)的專利

    8月23日傳來(lái)新動(dòng)態(tài),美國(guó)商標(biāo)與專利局最新披露的清單中,蘋果公司赫然獲得了一項(xiàng)突破性智能戒指技術(shù)的專利。這款創(chuàng)新之作,深度融合了尖端傳感器技術(shù),旨在為用戶提供前所未有的健康監(jiān)測(cè)體驗(yàn)。
    的頭像 發(fā)表于 08-23 15:59 ?714次閱讀

    智行者——視聽(tīng)障礙出行輔助AI小車設(shè)計(jì)

    摘要據(jù)統(tǒng)計(jì),我國(guó)視障人數(shù)達(dá)1731萬(wàn)人,聽(tīng)力殘疾患者2780萬(wàn)人。視聽(tīng)障礙對(duì)出行和交流需求迫切,但現(xiàn)有設(shè)施和輔具局限性大,使他們面臨出行難題。因此,我們開(kāi)發(fā)了款安全、精準(zhǔn)、語(yǔ)音與手部交互的導(dǎo)航避
    的頭像 發(fā)表于 07-19 08:11 ?1281次閱讀
    智行者——<b class='flag-5'>視聽(tīng)</b>障礙<b class='flag-5'>者</b>出行輔助AI小車設(shè)計(jì)

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 、圖像語(yǔ)義
    的頭像 發(fā)表于 07-17 09:56 ?911次閱讀

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    、亮度等。圖像分割的目的是將圖像中感興趣的部分與背景分離,以便進(jìn)行進(jìn)步的處理和分析。 1.1 圖像分割的類型 圖像分割可以分為以下幾類: 基于閾值的
    的頭像 發(fā)表于 07-17 09:55 ?1949次閱讀