高清视频一二区网站频视清高69,成人理论电影SM一区二区三区

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task，這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。僅使用ResNet，RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼已公開(kāi)可用。

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者機(jī)構(gòu)：UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

視頻物體分割真的可以不需要人類監(jiān)督嗎？

視頻分割一直是重標(biāo)注的一個(gè)task，可是要標(biāo)出每一幀上的物體是非常耗時(shí)費(fèi)力的。然而人類可以輕松地分割移動(dòng)的物體，而不需要知道它們是什么類別。為什么呢？

Gestalt定律嘗試解釋人類是怎么分割一個(gè)場(chǎng)景的，其中有一條定律叫做Common Fate，即移動(dòng)速度相同的物體屬于同一類別。比如一個(gè)箱子從左邊被拖到右邊，箱子上的點(diǎn)是均勻運(yùn)動(dòng)的，人就會(huì)把這個(gè)部分給分割出來(lái)理解。然而人并不需要理解這是個(gè)箱子來(lái)做這個(gè)事情，而且就算是嬰兒之前沒(méi)有見(jiàn)過(guò)箱子也能知道這是一個(gè)物體。

運(yùn)用Common Fate來(lái)分割視頻

這個(gè)定律啟發(fā)了基于運(yùn)動(dòng)的無(wú)監(jiān)督分割。然而，Common Fate并不是物體性質(zhì)的可靠指標(biāo)：關(guān)節(jié)可動(dòng) (articulated) /可變形物體 (deformable objects) 的一些part可能不以相同速度移動(dòng)，而物體的陰影/反射 (shadows/reflections) 始終隨物體移動(dòng)，但并非其組成部分。

舉個(gè)例子，下面這個(gè)人的腿和身子的運(yùn)動(dòng)是不同的（Optical Flow可視化出來(lái)顏色不同）。這很常見(jiàn)，畢竟人有關(guān)節(jié)嘛 (articulated)，要是這個(gè)處理不了的話，很多視頻都不能分割了。然而很多baseline是處理不了這點(diǎn)的（例如AMD+和OCLR），他們把人分割成了幾個(gè)部分。

還有就是影子和反射，比如上面這只天鵝，它的倒影跟它的運(yùn)動(dòng)是一致的（Optical Flow可視化顏色一樣），所以之前的方法認(rèn)為天鵝跟倒影是一個(gè)物體。很多視頻里是有這類現(xiàn)象的（畢竟大太陽(yáng)下物體都有個(gè)影子嘛），如果這個(gè)處理不了的話，很多視頻也不能分割了。

那怎么解決？放松。Relax.

長(zhǎng)話短說(shuō)，那我們的方法是怎么解決這個(gè)問(wèn)題的呢？無(wú)監(jiān)督學(xué)習(xí)的一個(gè)特性是利用神經(jīng)網(wǎng)絡(luò)自己內(nèi)部的泛化和擬合能力進(jìn)行學(xué)習(xí)。既然Common Fate有自己的問(wèn)題，那么我們沒(méi)有必要強(qiáng)制神經(jīng)網(wǎng)絡(luò)去擬合Common Fate。于是我們提出了Relaxed Common Fate，通過(guò)一個(gè)比較弱的學(xué)習(xí)方式讓神經(jīng)網(wǎng)絡(luò)真正學(xué)到物體的特性而不是noise。

具體來(lái)說(shuō)，我們的方法認(rèn)為物體運(yùn)動(dòng)由兩部分組成：物體總體的piecewise-constant motion （也就是Common Fate）和物體內(nèi)部的segment motion。比如你看下圖這個(gè)舞者，他全身的運(yùn)動(dòng)就可以被理解成piecewise-constant motion來(lái)建模，手部腿部這些運(yùn)動(dòng)就可以作為residual motion進(jìn)行擬合，最后合并成一個(gè)完整的flow，跟RAFT生成的flow進(jìn)行比較來(lái)算loss。我們用的RAFT是用合成數(shù)據(jù)（FlyingChairs和FlyingThings）進(jìn)行訓(xùn)練的，不需要人工標(biāo)注。

Relaxed Common Fate

首先我們使用一個(gè)backbone來(lái)進(jìn)行特征提取，然后通過(guò)一個(gè)簡(jiǎn)單的full-convolutional network獲得Predicted Masks $hat{M}$（下圖里的下半部分），和一般的分割框架是一樣的，也可以切換成別的框架。

那我們?cè)趺磧?yōu)化這些Masks呢？我們先提取、合并兩幀的特征，放入一個(gè)residual flow prediction head來(lái)獲得Residual Flow $hat{R}$ （下圖里的上半部分）。

然后我們對(duì)RAFT獲得的Flow用Predicted Masks $hat{M}$進(jìn)行Guided Pooling，獲得一個(gè)piecewise-constant flow，再加上預(yù)測(cè)的residual flow，就是我們的flow prediction了。最后把flow prediction和RAFT獲得的Flow的差算一個(gè)L1 norm Loss進(jìn)行優(yōu)化，以此來(lái)學(xué)習(xí)segmentation。

在測(cè)試的時(shí)候，只有Predicted Masks $hat{M}$ 是有用的，其他部分是不用的。

這里的Residual Flow會(huì)盡量初始化得小一些，來(lái)鼓勵(lì)先學(xué)piecewise-constant的部分（有點(diǎn)類似ControlNet），再慢慢學(xué)習(xí)residual部分。

引入Appearance信息來(lái)幫助無(wú)監(jiān)督視頻分割

光是Relaxed Common Fate就能在DAVIS上相對(duì)baseline提5%了，但這還不夠。前面說(shuō)Relaxed Common Fate的只用了motion而沒(méi)有使用appearance信息。

讓我們?cè)俅位氐缴厦孢@個(gè)例子。這個(gè)舞者的手和身子是一個(gè)顏色，然而AMD+直接把舞者的手忽略了。下面這只天鵝和倒影明明在appearance上差別這么大，卻在motion上沒(méi)什么差別。如果整合appearance和motion，是不是能提升分割質(zhì)量呢？

因此我們引入了Appearance 來(lái)進(jìn)行進(jìn)一步的監(jiān)督。在學(xué)習(xí)完motion信息之后，我們直接把取得的Mask進(jìn)行兩步優(yōu)化：一個(gè)是low-level的CRF refinement，強(qiáng)調(diào)顏色等細(xì)節(jié)一致的地方應(yīng)該屬于同一個(gè)mask（或背景），一個(gè)是semantic constraint，強(qiáng)調(diào)Unsupervised Feature一直的地方應(yīng)該屬于同一個(gè)mask。

把優(yōu)化完的mask再和原mask進(jìn)行比較，計(jì)算L2 Loss，再更新神經(jīng)網(wǎng)絡(luò)。這樣訓(xùn)練的模型的無(wú)監(jiān)督分割能力可以進(jìn)一步提升。具體細(xì)節(jié)歡迎閱讀原文。

無(wú)監(jiān)督調(diào)參

很多無(wú)監(jiān)督方法都需要使用有標(biāo)注的數(shù)據(jù)集來(lái)調(diào)參，而我們的方法提出可以利用前面說(shuō)的motion和appearance的一致性來(lái)進(jìn)行調(diào)參。簡(jiǎn)單地說(shuō)，motion學(xué)習(xí)出的mask在appearance上不一致代表這個(gè)參數(shù)可能不是最優(yōu)的。具體方法是在Unsupervised Feature上計(jì)算Normalized Cuts （但是不用算出最優(yōu)值），Normalized Cuts越小越代表分割效果好。原文里面對(duì)此有詳細(xì)描述。

方法效果

無(wú)論是否有Post-processing，我們的方法在三個(gè)視頻分割數(shù)據(jù)集上都有很大提升，在STv2上更是提升了12%。

Ablation可以看出Residual pathway （Relaxed Common Fate）的貢獻(xiàn)是最大的，其他部分總計(jì)貢獻(xiàn)了11.9%的增長(zhǎng)。

Visualizations

總結(jié)

這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。通過(guò)Relaxed Common Fate來(lái)利用motion信息，再通過(guò)改進(jìn)和利用appearance信息來(lái)進(jìn)一步優(yōu)化，RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼和模型已公開(kāi)可用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103651
視頻分割

視頻分割

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
5850

原文標(biāo)題：TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task，這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task，這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。

評(píng)論

搜索歷史

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task，這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。

評(píng)論

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task，這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。