精品欧美一区二区久久久走光,特级特黄AAAAAAAA片

聽(tīng)到“唔哩——唔哩——”的警笛聲，你可以迅速判斷出聲音來(lái)自路過(guò)的一輛急救車。

能不能讓AI根據(jù)音頻信號(hào)得到發(fā)聲物完整的、精細(xì)化的掩碼圖呢？

來(lái)自合肥工業(yè)大學(xué)、商湯、澳國(guó)立、北航、英偉達(dá)、港大和上海人工智能實(shí)驗(yàn)室的研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)（Audio-Visual Segmentation, AVS)。

視聽(tīng)分割，就是要分割出發(fā)聲物，而后生成發(fā)聲物的精細(xì)化分割圖。

相應(yīng)的，研究人員提出了第一個(gè)具有像素級(jí)標(biāo)注的視聽(tīng)數(shù)據(jù)集AVSBench。

Audio-Visual Segmentation

論文地址：

https://arxiv.org/abs/2207.05042

GitHub地址：

https://github.com/OpenNLPLab/AVSBench

項(xiàng)目主頁(yè)：

https://opennlplab.github.io/AVSBench/

新任務(wù)、新的數(shù)據(jù)集，搞算法的又有新坑可以卷了。

據(jù)最新放榜結(jié)果，該論文已被ECCV 2022接受。

精準(zhǔn)鎖定發(fā)聲物

聽(tīng)覺(jué)和視覺(jué)是人類感知世界中最重要的兩個(gè)傳感器。生活里，聲音信號(hào)和視覺(jué)信號(hào)往往是互補(bǔ)的。

視聽(tīng)表征學(xué)習(xí)（audio-visual learning）已經(jīng)催生了很多有趣的任務(wù)，比如視聽(tīng)通信（AVC）、視聽(tīng)事件定位（AVEL）、視頻解析（AVVP）、聲源定位（SSL）等。

這里面既有判定音像是否描述同一事件/物體的分類任務(wù)，也有以熱力圖可視化大致定位發(fā)聲物的任務(wù)。

但無(wú)論哪一種，離精細(xì)化的視聽(tīng)場(chǎng)景理解都差點(diǎn)意思。

△AVS 任務(wù)與 SSL 任務(wù)的比較

視聽(tīng)分割“迎難而上”，提出要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導(dǎo)信號(hào)，確定分割哪個(gè)物體，并得到其完整的像素級(jí)掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個(gè)新任務(wù)呢？

鑒于當(dāng)前還沒(méi)有視聽(tīng)分割的開(kāi)源數(shù)據(jù)集，研究人員提出AVSBench 數(shù)據(jù)集，借助它研究了新任務(wù)的兩種設(shè)置：

1、單聲源（Single-source）下的視聽(tīng)分割
2、多聲源（Multi-sources）下的視聽(tīng)分割

數(shù)據(jù)集中的每個(gè)視頻時(shí)長(zhǎng)5秒。

單聲源子集包含23類，共4932個(gè)視頻，包含嬰兒、貓狗、吉他、賽車、除草機(jī)等與日常生活息息相關(guān)的發(fā)聲物。

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個(gè)視頻。

結(jié)合難易情況，單聲源子集在半監(jiān)督條件下進(jìn)行，多聲源子集則以全監(jiān)督條件進(jìn)行。

研究人員對(duì)AVSBench里的每個(gè)視頻等間隔采樣5幀，然后人工對(duì)發(fā)聲體進(jìn)行像素級(jí)標(biāo)注。

對(duì)于單聲源子集，僅標(biāo)注采樣的第一張視頻幀；對(duì)于多聲源子集，5幀圖像都被標(biāo)注——這就是所謂的半監(jiān)督和全監(jiān)督。

△對(duì)單聲源子集和多聲源子集進(jìn)行不同人工標(biāo)注

這種像素級(jí)的標(biāo)注，避免了將很多非發(fā)聲物或背景給包含進(jìn)來(lái)，從而增加了模型驗(yàn)證的準(zhǔn)確性。

一個(gè)簡(jiǎn)單的baseline方法

有了數(shù)據(jù)集，研究人員還拋磚引玉，在文中給了個(gè)簡(jiǎn)單的baseline。

吸收傳統(tǒng)語(yǔ)義分割模型的成功經(jīng)驗(yàn)，研究人員提出了一個(gè)端到端的視聽(tīng)分割模型。

△視聽(tīng)分割框架圖

這個(gè)模型遵循編碼器-解碼器的網(wǎng)絡(luò)架構(gòu)，輸入視頻幀，最終直接輸出分割掩碼。

另外，還有兩個(gè)網(wǎng)絡(luò)優(yōu)化目標(biāo)。

一是計(jì)算預(yù)測(cè)圖和真實(shí)標(biāo)簽的損失。

而針對(duì)多聲源情況，研究人員提出了掩碼視聽(tīng)匹配損失函數(shù)，用來(lái)約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實(shí)驗(yàn)結(jié)果

光說(shuō)不練假把式，研究人員進(jìn)行了廣泛實(shí)驗(yàn)。

首先，將視聽(tīng)分割與相關(guān)任務(wù)的6種方法進(jìn)行了比較，研究人員選取了聲源定位（SSL）、視頻物體分割（VOS）、顯著性物體檢測(cè)（SOD）任務(wù)上的各兩個(gè)SOTA方法。

實(shí)驗(yàn)結(jié)果表明，視聽(tīng)分割在多個(gè)指標(biāo)下取得了最佳結(jié)果。

△和來(lái)自相關(guān)任務(wù)方法進(jìn)行視聽(tīng)分割的對(duì)比結(jié)果

其次，研究人員進(jìn)行了一系列消融實(shí)驗(yàn)，驗(yàn)證出，利用TPAVI模塊，單聲源和多聲源設(shè)置下采用兩種backbone的視聽(tīng)分割模型都能得到更大的提升。

△引入音頻的TPAVI模塊，可以更好地處理物體的形狀細(xì)節(jié)（左圖），并且有助于分割出正確的發(fā)聲物（右圖）

對(duì)于新任務(wù)的視聽(tīng)匹配損失函數(shù)，實(shí)驗(yàn)還驗(yàn)證了其有效性。

△視聽(tīng)匹配損失函數(shù)的有效性

One More Thing

文中還提到，AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽(tīng)分割模型的訓(xùn)練、測(cè)試，其也可以用于驗(yàn)證聲源定位模型。

研究人員在項(xiàng)目主頁(yè)上表示，正在準(zhǔn)備比AVSBench大10倍的AVSBench-v2。

一些視頻的分割demo也上傳在主頁(yè)上。感興趣的話可以前往查看~

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器視覺(jué)

機(jī)器視覺(jué)

+關(guān)注

關(guān)注
163

文章
4595

瀏覽量
122878
AI

AI

+關(guān)注

關(guān)注
88

文章
35101

瀏覽量
279548
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25444

原文標(biāo)題：ECCV 2022 | 視覺(jué)新任務(wù)！AVS：視聽(tīng)分割

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)

評(píng)論