一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SAFA:高效時(shí)空視頻超分辨率的尺度自適應(yīng)特征聚合

CVer ? 來(lái)源:CVer ? 2023-11-29 16:31 ? 次閱讀

去年底我在迭代插幀開(kāi)源模型時(shí)有一些發(fā)現(xiàn),準(zhǔn)備寫(xiě) paper 的時(shí)候感覺(jué)更合適放進(jìn)時(shí)空超分里,也順便討論了一些我們之前論文的遺留問(wèn)題,在 WACV2024 發(fā)表。

項(xiàng)目主頁(yè):

github.com/megvii-research/WACV2024-SAFA

作者和他們的主頁(yè):Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou

TLDR:時(shí)空超分任務(wù)通常輸入兩幀 RGB,插出中間的若干幀,并且要把所有的幀以長(zhǎng)寬四倍的分辨率輸出,SAFA 在推理時(shí)根據(jù)輸入會(huì)調(diào)整模型的處理分辨率,實(shí)驗(yàn)基準(zhǔn)跟隨 VideoINR,用僅 1/3 計(jì)算量取得平均 0.5dB 的提升。

背景:

本來(lái)其實(shí)是刷了一個(gè)插幀的漲點(diǎn)后,再把技術(shù)搬到視頻時(shí)空超分上的。因?yàn)椴鍘@邊競(jìng)爭(zhēng)太多了,把對(duì)比實(shí)驗(yàn)做扎實(shí)不容易。時(shí)空超分的訓(xùn)練測(cè)試調(diào)試好大概單獨(dú)花了兩周,主要是一些細(xì)節(jié)上對(duì)齊麻煩。Zooming Slomo 一系的工作訓(xùn)練時(shí)間長(zhǎng)達(dá)一周,VideoINR 設(shè)的基準(zhǔn)訓(xùn)練會(huì)簡(jiǎn)便一些(訓(xùn)練集不一樣)。好在這個(gè)領(lǐng)域大部分作者都能聯(lián)系到,特別感謝 Gang Xu,Zeyuan Chen, Mengshun Hu 在我刷實(shí)驗(yàn)的時(shí)候提供的討論意見(jiàn),Jun Xu 老師恰好也是 TMNet 的作者幫改了很多。

介紹:

視頻插幀和時(shí)空超分的聯(lián)系:

在視頻插幀中,對(duì)于幀 I0 和 I1,給定時(shí)間 t,目標(biāo)是出一個(gè)中間幀 It。我們把視頻時(shí)空超分也寫(xiě)成類(lèi)似的形式:對(duì)于低分辨率的幀 I0{LR} 和 I1{LR},給定時(shí)間 t,輸出四倍分辨率的 It{HR}。

在時(shí)空超分中,除了 I0.5{HR}, 我們還要得到 I0{HR}, I1{HR},如果把它們看成三次類(lèi)似的推理,即 t=0, 0.5, 1 的情況各推理一次,這樣就和視頻插幀非常像了。對(duì)于升分辨率的問(wèn)題,考慮把插幀做到特征圖上,即 低分辨率幀 -> 編碼成特征 -> 特征圖上插幀 -> 解碼得到高分辨率幀。

多尺度處理:

視頻有不同分辨率、運(yùn)動(dòng)幅度等等,所以相關(guān)工作往往都包含手工設(shè)計(jì)多尺度多階段的網(wǎng)絡(luò)結(jié)構(gòu),我們認(rèn)為這是模型越做越復(fù)雜的原因之一。我們先反思了先前工作:

2df60140-8e08-11ee-939d-92fbcf53809c.jpg

在推理 4K 視頻的時(shí)候,把視頻先縮放再估計(jì)光流可能更準(zhǔn)

即使 RIFE 模型中做了多尺度設(shè)計(jì),但是我們發(fā)現(xiàn)每個(gè)視頻都要手動(dòng)指定一個(gè)光流推理尺度:即要把原始幀先縮小,推理光流,再把光流放大,光流結(jié)果才會(huì)更準(zhǔn)。這啟發(fā)我們?nèi)ピO(shè)計(jì)自適應(yīng)的動(dòng)態(tài)網(wǎng)絡(luò)來(lái)緩解推理尺度問(wèn)題。

主體結(jié)構(gòu):

2e0d9a30-8e08-11ee-939d-92fbcf53809c.jpg

主要結(jié)構(gòu)

(a) 是整個(gè)網(wǎng)絡(luò)結(jié)構(gòu):用了類(lèi)似 RAFT 的迭代試錯(cuò)方式來(lái)估計(jì)光流 Ft->0, Ft->1,用光流插幀特征圖,然后解碼。

比較有意思的是 (b):我們剛才提到一種做法,把視頻幀縮小,在小圖上估計(jì)光流,再把光流放大可能可以更準(zhǔn)。那這里就給網(wǎng)絡(luò)設(shè)計(jì)三條路,即 1x, 0.5x, 0,25x 的處理分辨率,具體選哪條讓尺度選擇器(一個(gè)計(jì)算量很小的網(wǎng)絡(luò)來(lái)決定)。全選 1x 就是在原始分辨率上處理,0.5x 和 0.25x 在小圖上處理(會(huì)更快)。

(c) 尺度選擇器是兩個(gè) conv1x1、池化、全連接加上一個(gè) STE。這里 STE 的技術(shù)是為了讓路徑選擇過(guò)程變成可微分的。我們?cè)谇耙粋€(gè)工作 DMVFN 中用 STE 構(gòu)建了雙分支選擇,這里構(gòu)建了多分支選擇:實(shí)驗(yàn)發(fā)現(xiàn)比較有效的做法是把 K 分支選擇看成 K-1 次雙分支選擇,具體見(jiàn)論文。

(d) 強(qiáng)調(diào)一下,每個(gè)迭代塊都會(huì)給自己選處理尺度。

實(shí)驗(yàn):

論文里所有實(shí)驗(yàn),在空間上做的都是四倍超分,主要實(shí)驗(yàn)結(jié)果:

2e1ca5fc-8e08-11ee-939d-92fbcf53809c.jpg

2x時(shí)間4x空間實(shí)驗(yàn)

以上是 2x 時(shí)間,4x 空間的實(shí)驗(yàn),不同時(shí)間倍數(shù)和 VideoINR、TMNet 的對(duì)比:

2e2e1ae4-8e08-11ee-939d-92fbcf53809c.jpg

不同時(shí)間倍數(shù)的時(shí)空超分實(shí)驗(yàn)

視覺(jué)效果可以看論文里的圖和演示視頻

因?yàn)楸容^節(jié)制地選用了簡(jiǎn)單的設(shè)計(jì)組件和簡(jiǎn)潔的結(jié)構(gòu),運(yùn)行效率也會(huì)好一些:

2e3fd9f0-8e08-11ee-939d-92fbcf53809c.jpg

隨著倍數(shù)增加,推理開(kāi)銷(xiāo)比線(xiàn)性略低一些

在消融實(shí)驗(yàn)中,我們討論一些 trick。

2e4d842e-8e08-11ee-939d-92fbcf53809c.jpg

各種消融實(shí)驗(yàn)

a1-a5: 特征提取器怎么選?最后選中的是 ResNet18 的 stem(最前面的卷積和池化)的輸出和前兩個(gè) block 的特征層的混合。選更復(fù)雜的網(wǎng)絡(luò)會(huì)掉點(diǎn),我個(gè)人感覺(jué)是因?yàn)?BottleNeck 的設(shè)計(jì)在空間信息的保存上有負(fù)面效果。

b1-b3: 這里是說(shuō)生成最后的結(jié)果的時(shí)候,最好拿兩部分信息,一方面是從原始的低分辨率圖 + 光流得到一個(gè)中間幀打底,另一方面再用插幀出的特征圖來(lái)修:

2e61b714-8e08-11ee-939d-92fbcf53809c.jpg

圖片信息融合和特征信息融合

c1-c8: 對(duì)光流組件的設(shè)計(jì)進(jìn)行一些討論,比如迭代次數(shù) 1 (c1) 的時(shí)候效果會(huì)很差,不同分支如果不共享參數(shù) (c7),效果差不多但增大參數(shù)量。

這里插一個(gè)驗(yàn)證性實(shí)驗(yàn),尺度選擇器真的會(huì)根據(jù)處理視頻的分辨率出合理的路線(xiàn)選擇:

2e82173e-8e08-11ee-939d-92fbcf53809c.jpg

關(guān)于尺度選擇的統(tǒng)計(jì)

可以看到對(duì)于 4K 視頻,模型就會(huì)選更多的 scale=1/4。

d1-d3: 這里是想提一下,如果把特征提取器做的更好是能漲點(diǎn)的,比如換成 ImageNet 訓(xùn)練過(guò)的提取器或者無(wú)監(jiān)督方法訓(xùn)練的提取器。

e1-e4: 學(xué)習(xí)率太小會(huì)掉點(diǎn);因?yàn)樵O(shè)計(jì)很規(guī)整,所以改通道數(shù) nc 能很方便地控制設(shè)計(jì)出的網(wǎng)絡(luò)的計(jì)算量。

方法限制:

首先因?yàn)檠赜?VideoINR 的實(shí)驗(yàn)基準(zhǔn),這里沒(méi)做多幀輸入,像 BasicVSR 類(lèi)似的作品在離線(xiàn)處理的時(shí)候是可以用非常多的幀來(lái)提高性能的,我們還是想探索一下這種窮人版的視頻超分;做論文的時(shí)候因?yàn)槎急?PSNR、SSIM,感知損失相關(guān)的探索沒(méi)有做,加個(gè) vgg loss 等肯定視覺(jué)效果會(huì)更好一些

還有就是實(shí)驗(yàn)環(huán)境下,低分辨率圖片是直接把高分辨率圖片 bicubic 下采樣得到的,因此它和帶有復(fù)雜退化的真實(shí)視頻是很不一樣的,這里肯定是需要加入 Real-ESRGAN 等方法的退化模擬和更多的數(shù)據(jù)集才能真正把這項(xiàng)工作推向?qū)嵱玫?。我最近也在?xùn)練這樣的模型,希望不久以后能整合進(jìn)我們的插幀應(yīng)用里。

部分附錄:

2e9c4460-8e08-11ee-939d-92fbcf53809c.jpg

特征提取的具體結(jié)構(gòu)

和 ZoomingSlomo、VideoINR 的對(duì)比,希望能讓讀者感受到 SAFA 概念上的簡(jiǎn)化:

2eb13438-8e08-11ee-939d-92fbcf53809c.jpg

和之前一些框架對(duì)比

通過(guò)可視化,我們發(fā)現(xiàn) zooming slomo 中求出的流并不像光流,因此認(rèn)為在 VideoINR 中,部分運(yùn)動(dòng)預(yù)測(cè)的任務(wù)實(shí)際上被 Encoder 吸收了,導(dǎo)致主體網(wǎng)絡(luò)部分只需要承擔(dān)小部分的運(yùn)動(dòng)預(yù)測(cè)任務(wù):

2ec4b8e6-8e08-11ee-939d-92fbcf53809c.jpg

光流可視化,和偽標(biāo)簽對(duì)比

不同時(shí)間下,光流和遮擋圖的可視化:

2ed8cfc0-8e08-11ee-939d-92fbcf53809c.jpg

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1967

    瀏覽量

    73574
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3464

    瀏覽量

    49817
  • 超分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    10001

原文標(biāo)題:WACV 2024 | SAFA:高效時(shí)空視頻超分辨率的尺度自適應(yīng)特征聚合

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    分辨率圖像重建方法研究

    壓縮域中的重建方法,指出了各自的優(yōu)點(diǎn)與不足。研究表明,分辨率重建具有廣泛的應(yīng)用前景,其成像模型、運(yùn)動(dòng)估計(jì)、重建算法和實(shí)時(shí)實(shí)現(xiàn)將是今后研究的重點(diǎn)。關(guān)鍵詞:分辨率! 圖像重建! 壓縮
    發(fā)表于 03-14 17:08

    分辨率合成孔徑雷達(dá)圖像的直線(xiàn)特征尺度提取方法

    針對(duì)傳統(tǒng)的合成孔徑雷達(dá)(SAR)多尺度邊緣提取方法中直線(xiàn)提取連續(xù)性和完整性不好的特點(diǎn),提出了一個(gè)由粗到精的多分辨率SAR圖像直線(xiàn)特征多級(jí)提取框架,利用多尺度策略在降低SAR圖像噪聲影響
    發(fā)表于 05-06 09:04

    怎樣讓labview 內(nèi)的控件自適應(yīng)屏幕分辨率

    遇到一個(gè)問(wèn)題已經(jīng)做好的程序是在高分辨率的電腦是做的 但是運(yùn)行的機(jī)器分辨率低結(jié)果前面板的控件有的就在屏幕外邊 怎樣才能讓控件自適應(yīng)屏幕分辯 試過(guò)VI屬性里邊的但不太好用
    發(fā)表于 01-15 19:06

    怎么讓程序安裝到其他電腦時(shí),自適應(yīng)分辨率,不變形啊

    怎么讓程序安裝到其他電腦時(shí),自適應(yīng)分辨率,不變形啊
    發(fā)表于 08-10 16:22

    laview自適應(yīng)屏幕分辨率

    求助大神:laview現(xiàn)在解決了自適應(yīng)屏幕分辨率的問(wèn)題么?有沒(méi)有什么方法解決這個(gè)問(wèn)題?請(qǐng)描述的詳細(xì)一點(diǎn),最好有源代碼分享謝謝。
    發(fā)表于 09-10 12:48

    基于混合先驗(yàn)?zāi)P偷?b class='flag-5'>超分辨率重建

    在L1范數(shù)圖像分辨率重建算法框架下,引入?yún)?shù)自適應(yīng)估計(jì),結(jié)合差分圖像統(tǒng)計(jì)特性和概率分布模型提出一種基于混合先驗(yàn)?zāi)P偷?b class='flag-5'>超分辨率重建方法。實(shí)驗(yàn)
    發(fā)表于 04-11 08:42 ?24次下載

    什么是視頻分辨率

    什么是視頻分辨率 視頻分辨率是指視頻會(huì)議產(chǎn)品所成圖像的大小或尺寸。 常見(jiàn)的視像分辨率有352
    發(fā)表于 04-25 17:20 ?7465次閱讀

    自適應(yīng)屏幕分辨率

    基于labview的自適應(yīng)屏幕分辨率labview,感興趣的小伙伴們可以瞧一瞧。
    發(fā)表于 11-02 18:53 ?94次下載

    一種基于參考高分辨率圖像的視頻序列分辨率復(fù)原算法

    一種基于參考高分辨率圖像的視頻序列分辨率復(fù)原算法
    發(fā)表于 10-26 10:49 ?5次下載
    一種基于參考高<b class='flag-5'>分辨率</b>圖像的<b class='flag-5'>視頻</b>序列<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>復(fù)原算法

    基于正則化分辨率自適應(yīng)閾值去噪方法

    為了提高正則化分辨率技術(shù)在噪聲環(huán)境下的重建能力,對(duì)廣義總變分( GTV)正則分辨率重建進(jìn)行了擴(kuò)展研究,提出了一種自適應(yīng)閾值去噪的方法。首
    發(fā)表于 11-30 11:26 ?0次下載

    一種結(jié)合多階導(dǎo)數(shù)數(shù)據(jù)的視頻分辨率重建算法

    傳統(tǒng)視頻分辨率重建算法在去除噪聲的同時(shí),很難有效保持圖像邊緣細(xì)節(jié)信息。針對(duì)該問(wèn)題,構(gòu)建了一種結(jié)合多階導(dǎo)數(shù)數(shù)據(jù)項(xiàng)和自適應(yīng)正則化項(xiàng)的視頻
    發(fā)表于 12-20 16:17 ?0次下載
    一種結(jié)合多階導(dǎo)數(shù)數(shù)據(jù)的<b class='flag-5'>視頻</b><b class='flag-5'>超</b><b class='flag-5'>分辨率</b>重建算法

    實(shí)時(shí)視頻分辨率重建

    基于稀疏表示的分辨率算法的圖像重建質(zhì)量好,但算法復(fù)雜,現(xiàn)有的CPU串行執(zhí)行算法無(wú)法滿(mǎn)足視頻實(shí)時(shí)處理的需要。為此提出了基于GPU加速的稀疏表示的實(shí)時(shí)視頻
    發(fā)表于 02-08 16:39 ?2次下載
    實(shí)時(shí)<b class='flag-5'>視頻</b><b class='flag-5'>超</b><b class='flag-5'>分辨率</b>重建

    基于結(jié)構(gòu)自相似性和形變塊特征的單幅圖像分辨率算法

    針對(duì)單幅圖像分辨率(SR)復(fù)原樣本資源不足和抗噪性差的問(wèn)題,提出一種基于結(jié)構(gòu)自相似和形變塊特征的單幅圖像分辨率算法。首先,該方法通過(guò)構(gòu)建
    發(fā)表于 12-02 16:34 ?8次下載
    基于結(jié)構(gòu)自相似性和形變塊<b class='flag-5'>特征</b>的單幅圖像<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>算法

    圖像分辨率重建算法的多尺度反向投影

    為解決當(dāng)前主流圖像分辨率重建算法對(duì)低分辨率圖像中細(xì)節(jié)信息利用不夠充分的問(wèn)題,提出一種基于多尺度反向投影的圖像
    發(fā)表于 03-30 11:28 ?5次下載
    圖像<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>重建算法的多<b class='flag-5'>尺度</b>反向投影

    基于多尺度殘差通道注意機(jī)制的人臉分辨率網(wǎng)絡(luò)

    基于多尺度殘差通道注意機(jī)制的人臉分辨率網(wǎng)絡(luò)
    發(fā)表于 06-27 14:36 ?15次下載