绯色AV一区二区三区高清,东京热这里只有精品8,欧美成人精品三区四区

去年底我在迭代插幀開源模型時(shí)有一些發(fā)現(xiàn)，準(zhǔn)備寫 paper 的時(shí)候感覺更合適放進(jìn)時(shí)空超分里，也順便討論了一些我們之前論文的遺留問題，在 WACV2024 發(fā)表。

項(xiàng)目主頁(yè)：

github.com/megvii-research/WACV2024-SAFA

作者和他們的主頁(yè)：Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou

TLDR：時(shí)空超分任務(wù)通常輸入兩幀 RGB，插出中間的若干幀，并且要把所有的幀以長(zhǎng)寬四倍的分辨率輸出，SAFA 在推理時(shí)根據(jù)輸入會(huì)調(diào)整模型的處理分辨率，實(shí)驗(yàn)基準(zhǔn)跟隨 VideoINR，用僅 1/3 計(jì)算量取得平均 0.5dB 的提升。

背景：

本來其實(shí)是刷了一個(gè)插幀的漲點(diǎn)后，再把技術(shù)搬到視頻時(shí)空超分上的。因?yàn)椴鍘@邊競(jìng)爭(zhēng)太多了，把對(duì)比實(shí)驗(yàn)做扎實(shí)不容易。時(shí)空超分的訓(xùn)練測(cè)試調(diào)試好大概單獨(dú)花了兩周，主要是一些細(xì)節(jié)上對(duì)齊麻煩。Zooming Slomo 一系的工作訓(xùn)練時(shí)間長(zhǎng)達(dá)一周，VideoINR 設(shè)的基準(zhǔn)訓(xùn)練會(huì)簡(jiǎn)便一些（訓(xùn)練集不一樣）。好在這個(gè)領(lǐng)域大部分作者都能聯(lián)系到，特別感謝 Gang Xu，Zeyuan Chen, Mengshun Hu 在我刷實(shí)驗(yàn)的時(shí)候提供的討論意見，Jun Xu 老師恰好也是 TMNet 的作者幫改了很多。

介紹：

視頻插幀和時(shí)空超分的聯(lián)系：

在視頻插幀中，對(duì)于幀 I0 和 I1，給定時(shí)間 t，目標(biāo)是出一個(gè)中間幀 It。我們把視頻時(shí)空超分也寫成類似的形式：對(duì)于低分辨率的幀 I0{LR} 和 I1{LR}，給定時(shí)間 t，輸出四倍分辨率的 It{HR}。

在時(shí)空超分中，除了 I0.5{HR}, 我們還要得到 I0{HR}, I1{HR}，如果把它們看成三次類似的推理，即 t=0, 0.5, 1 的情況各推理一次，這樣就和視頻插幀非常像了。對(duì)于升分辨率的問題，考慮把插幀做到特征圖上，即低分辨率幀 -> 編碼成特征 -> 特征圖上插幀 -> 解碼得到高分辨率幀。

多尺度處理：

視頻有不同分辨率、運(yùn)動(dòng)幅度等等，所以相關(guān)工作往往都包含手工設(shè)計(jì)多尺度多階段的網(wǎng)絡(luò)結(jié)構(gòu)，我們認(rèn)為這是模型越做越復(fù)雜的原因之一。我們先反思了先前工作：

在推理 4K 視頻的時(shí)候，把視頻先縮放再估計(jì)光流可能更準(zhǔn)

即使 RIFE 模型中做了多尺度設(shè)計(jì)，但是我們發(fā)現(xiàn)每個(gè)視頻都要手動(dòng)指定一個(gè)光流推理尺度：即要把原始幀先縮小，推理光流，再把光流放大，光流結(jié)果才會(huì)更準(zhǔn)。這啟發(fā)我們?nèi)ピO(shè)計(jì)自適應(yīng)的動(dòng)態(tài)網(wǎng)絡(luò)來緩解推理尺度問題。

主體結(jié)構(gòu)：

主要結(jié)構(gòu)

(a) 是整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)：用了類似 RAFT 的迭代試錯(cuò)方式來估計(jì)光流 Ft->0, Ft->1，用光流插幀特征圖，然后解碼。

比較有意思的是 (b)：我們剛才提到一種做法，把視頻幀縮小，在小圖上估計(jì)光流，再把光流放大可能可以更準(zhǔn)。那這里就給網(wǎng)絡(luò)設(shè)計(jì)三條路，即 1x, 0.5x, 0,25x 的處理分辨率，具體選哪條讓尺度選擇器（一個(gè)計(jì)算量很小的網(wǎng)絡(luò)來決定）。全選 1x 就是在原始分辨率上處理，0.5x 和 0.25x 在小圖上處理（會(huì)更快）。

(c) 尺度選擇器是兩個(gè) conv1x1、池化、全連接加上一個(gè) STE。這里 STE 的技術(shù)是為了讓路徑選擇過程變成可微分的。我們?cè)谇耙粋€(gè)工作 DMVFN 中用 STE 構(gòu)建了雙分支選擇，這里構(gòu)建了多分支選擇：實(shí)驗(yàn)發(fā)現(xiàn)比較有效的做法是把 K 分支選擇看成 K-1 次雙分支選擇，具體見論文。

(d) 強(qiáng)調(diào)一下，每個(gè)迭代塊都會(huì)給自己選處理尺度。

實(shí)驗(yàn)：

論文里所有實(shí)驗(yàn)，在空間上做的都是四倍超分，主要實(shí)驗(yàn)結(jié)果：

2x時(shí)間4x空間實(shí)驗(yàn)

以上是 2x 時(shí)間，4x 空間的實(shí)驗(yàn)，不同時(shí)間倍數(shù)和 VideoINR、TMNet 的對(duì)比：

不同時(shí)間倍數(shù)的時(shí)空超分實(shí)驗(yàn)

視覺效果可以看論文里的圖和演示視頻

因?yàn)楸容^節(jié)制地選用了簡(jiǎn)單的設(shè)計(jì)組件和簡(jiǎn)潔的結(jié)構(gòu)，運(yùn)行效率也會(huì)好一些：

隨著倍數(shù)增加，推理開銷比線性略低一些

在消融實(shí)驗(yàn)中，我們討論一些 trick。

各種消融實(shí)驗(yàn)

a1-a5: 特征提取器怎么選？最后選中的是 ResNet18 的 stem（最前面的卷積和池化）的輸出和前兩個(gè) block 的特征層的混合。選更復(fù)雜的網(wǎng)絡(luò)會(huì)掉點(diǎn)，我個(gè)人感覺是因?yàn)?BottleNeck 的設(shè)計(jì)在空間信息的保存上有負(fù)面效果。

b1-b3: 這里是說生成最后的結(jié)果的時(shí)候，最好拿兩部分信息，一方面是從原始的低分辨率圖 + 光流得到一個(gè)中間幀打底，另一方面再用插幀出的特征圖來修：

圖片信息融合和特征信息融合

c1-c8: 對(duì)光流組件的設(shè)計(jì)進(jìn)行一些討論，比如迭代次數(shù) 1 (c1) 的時(shí)候效果會(huì)很差，不同分支如果不共享參數(shù) (c7)，效果差不多但增大參數(shù)量。

這里插一個(gè)驗(yàn)證性實(shí)驗(yàn)，尺度選擇器真的會(huì)根據(jù)處理視頻的分辨率出合理的路線選擇：

關(guān)于尺度選擇的統(tǒng)計(jì)

可以看到對(duì)于 4K 視頻，模型就會(huì)選更多的 scale=1/4。

d1-d3: 這里是想提一下，如果把特征提取器做的更好是能漲點(diǎn)的，比如換成 ImageNet 訓(xùn)練過的提取器或者無監(jiān)督方法訓(xùn)練的提取器。

e1-e4: 學(xué)習(xí)率太小會(huì)掉點(diǎn)；因?yàn)樵O(shè)計(jì)很規(guī)整，所以改通道數(shù) nc 能很方便地控制設(shè)計(jì)出的網(wǎng)絡(luò)的計(jì)算量。

方法限制：

首先因?yàn)檠赜?VideoINR 的實(shí)驗(yàn)基準(zhǔn)，這里沒做多幀輸入，像 BasicVSR 類似的作品在離線處理的時(shí)候是可以用非常多的幀來提高性能的，我們還是想探索一下這種窮人版的視頻超分；做論文的時(shí)候因?yàn)槎急?PSNR、SSIM，感知損失相關(guān)的探索沒有做，加個(gè) vgg loss 等肯定視覺效果會(huì)更好一些

還有就是實(shí)驗(yàn)環(huán)境下，低分辨率圖片是直接把高分辨率圖片 bicubic 下采樣得到的，因此它和帶有復(fù)雜退化的真實(shí)視頻是很不一樣的，這里肯定是需要加入 Real-ESRGAN 等方法的退化模擬和更多的數(shù)據(jù)集才能真正把這項(xiàng)工作推向?qū)嵱玫?。我最近也在?xùn)練這樣的模型，希望不久以后能整合進(jìn)我們的插幀應(yīng)用里。

部分附錄：

特征提取的具體結(jié)構(gòu)

和 ZoomingSlomo、VideoINR 的對(duì)比，希望能讓讀者感受到 SAFA 概念上的簡(jiǎn)化：

和之前一些框架對(duì)比

通過可視化，我們發(fā)現(xiàn) zooming slomo 中求出的流并不像光流，因此認(rèn)為在 VideoINR 中，部分運(yùn)動(dòng)預(yù)測(cè)的任務(wù)實(shí)際上被 Encoder 吸收了，導(dǎo)致主體網(wǎng)絡(luò)部分只需要承擔(dān)小部分的運(yùn)動(dòng)預(yù)測(cè)任務(wù)：

光流可視化，和偽標(biāo)簽對(duì)比

不同時(shí)間下，光流和遮擋圖的可視化：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴