編者按:生活中總有許多特殊時刻值得被記錄,而慢動作回放能讓你看得更清晰,比如寶寶第一次蹣跚學(xué)步、第一次完成了酷炫的滑板技巧等。但是這些時刻無法預(yù)料,大多都是用手機(jī)或普通相機(jī)拍攝的視頻,其中的幀率對慢回放并不友好。在這篇論文中,英偉達(dá)AI團(tuán)隊提出了一種用深度學(xué)習(xí)框架對普通視頻進(jìn)行流暢穩(wěn)定的慢動作回放的技術(shù)。以下是論智的編譯。
大多數(shù)高端單反相機(jī)和智能手機(jī)都能拍攝慢動作,但是這項技術(shù)并未普及,因為這一過程需要大量數(shù)據(jù)。例如,索尼Xperia XZ2手機(jī)的Super Slow Motion模式可以每秒拍攝960幀的視頻,是默認(rèn)的30fps捕捉數(shù)據(jù)的32倍。這不僅需要大量內(nèi)存,還要有高性能處理器對每一幀畫面進(jìn)行處理。
最近,英偉達(dá)推出了一種新算法,可以將原視頻進(jìn)行慢放處理。該論文將在本周的CVPR 2018上進(jìn)行展示。與傳統(tǒng)的使用時間拉伸幀來填補(bǔ)鏡頭間隙的慢動作技術(shù)不同,英偉達(dá)團(tuán)隊用的是機(jī)器學(xué)習(xí)來進(jìn)行慢動作處理,看起來像是出現(xiàn)了新的幀。
來自英偉達(dá)、馬薩諸塞大學(xué)阿默斯特分校和加利福尼亞大學(xué)默塞德分校的科學(xué)家們提出了一種無監(jiān)督的端到端神經(jīng)網(wǎng)絡(luò),它可以生成任意數(shù)量的中間幀,從而輸出非常流暢的慢動作鏡頭。這項技術(shù)被稱為“可變長度多幀插值(variable-length multi-frame interpolation)”。論智將論文大致編譯如下。
視頻插值問題向來富有挑戰(zhàn)性,因為它需要生成多個視頻中間幀,保證在空間和時間上的連貫性。例如,從標(biāo)準(zhǔn)的序列(30fps)中生成240fps的視頻,就需要在每兩個幀之間插入七個中間幀。為了生成高質(zhì)量的插入結(jié)果,不僅僅需要正確理解兩張輸入圖像之間的動作,還要掌握圖像之間的遮擋,否則就會造成失真效果。
目前技術(shù)的主要關(guān)注點都在單幀視頻插值上,但是這些方法不能直接用于生成任意高幀率的視頻。在這篇論文中,科學(xué)家們提出了一種高質(zhì)量的“可變長度多幀插值”方法,它可以在任意時間在兩幀之間插入中間幀。這種方法的主要原理是將兩個輸入圖片扭曲到同一時間點,然后進(jìn)行適應(yīng)調(diào)整后將兩張圖像結(jié)合生成一個中間圖像,其中的運動軌跡和遮擋推理都在單一的端到端網(wǎng)絡(luò)中進(jìn)行建模。
Super SloMo
首先用其中一個光流計算卷積神經(jīng)網(wǎng)絡(luò)估算兩張輸入圖片之間的光流(場景中目標(biāo)物體、表面和邊緣運動的軌跡),在兩個輸入幀之間的時間線上同時計算向前和向后的光流。
中間光流估算的過程。橙色的像素參考的是第一和第二張圖片的相同位置的像素光流
之后,CNN會預(yù)測像素的移動軌跡,為每一幀生成一個2D的預(yù)測軌跡作為光流場(flow field),之后它會融合在一起,為中間幀計算大概的光流場。這一估計過程在平滑的區(qū)域表現(xiàn)得很好,但是遇到邊界線時性能有所下降。
于是,研究人員們用另一個光流插值CNN調(diào)整之前計算出的光流場,并將預(yù)測路線進(jìn)行可視化。通過將可視化線路應(yīng)用到兩圖像上,研究人員可以刪除被視頻中物體遮擋住的像素,并且還可以減少軌跡上以及周圍的“人工痕跡”。
可視化線路的預(yù)測
最后,中間光流場對兩圖片進(jìn)行扭曲,以讓幀的過度更加平滑流暢。由于這兩個CNN的參數(shù)在每個被插入的時間點是不同的,這一方法可以同時生成任意多的中間幀。整個網(wǎng)絡(luò)過程如下圖所示:
對于光流計算和光流插值CNN,研究人員使用的是U-Net結(jié)構(gòu)。U-Net是完全卷積神經(jīng)網(wǎng)絡(luò),它包含一個編碼器和一個解碼器。
訓(xùn)練
接著,研究人員從YouTube和攝像機(jī)中選取了一些240fps的視頻,其中包括The Slow Mo Guys(一個總共有11000個視頻的資料庫)的剪輯片段,最終得到了1132段視頻片段和37.6萬個獨立的視頻幀數(shù)。在設(shè)備方面,他們用的是英偉達(dá)Tesla V100 GPU和經(jīng)過cuDNN加速的PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。
最后的結(jié)果對比非常明顯,在下面這個從UCF101中截取的視頻片段中可以看到本文提出的方法和當(dāng)前其他方法的對比:
可以看到,英偉達(dá)的方法在眉毛和眉刷周圍都沒有什么失真的畫面,非常清晰。
結(jié)語
研究人員認(rèn)為,他們的方法在所有數(shù)據(jù)集上都達(dá)到了頂尖效果,生成了單一或多個中間幀。并且這一模型不用更改設(shè)置就能直接應(yīng)用到不同場景上,這一點是很了不起的。
但是據(jù)英偉達(dá)方面的消息,這一技術(shù)目前仍需要優(yōu)化改進(jìn),投入到現(xiàn)實中仍需要解決很多問題。研究人員表示,他們希望未來如果在消費者設(shè)備和軟件商使用時,大部分處理過程能在云端完成。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103562 -
視頻
+關(guān)注
關(guān)注
6文章
1972瀏覽量
73913 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122785
原文標(biāo)題:CVPR 2018:英偉達(dá)用深度學(xué)習(xí)實現(xiàn)任意視頻的完美慢鏡頭回放
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析
【NanoPi K1 Plus試用體驗】搭建深度學(xué)習(xí)框架
一種基于圖像平移的目標(biāo)檢測框架
在RK3399開發(fā)板上如何去實現(xiàn)一種人工智能深度學(xué)習(xí)框架呢
什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?
基于視頻深度學(xué)習(xí)的時空雙流人物動作識別模型

一種用于交通流預(yù)測的深度學(xué)習(xí)框架

評論