迪士尼新研究實現(xiàn)百萬像素圖像和視頻換臉,說不定未來大熒幕電影也會使用換臉技術(shù)了。
deepfakes 技術(shù)可以用于圖像和視頻換臉,但它能否用于大制作電影和電視節(jié)目中呢?迪士尼最新放出的一則視頻 demo 展示了這種可能性。
近日迪士尼在歐洲圖形學(xué)會透視研討會(EGSR)上發(fā)表研究,展示了首個百萬像素逼真換臉技術(shù)。
效果是不是還不錯。這樣的效果雖然并不足以用于漫威電影,但它是換臉技術(shù)邁出的新一步。
來自迪士尼的研究者表示,這項技術(shù)的創(chuàng)新點在于能夠達到百萬像素質(zhì)量。百萬像素或許不再是高質(zhì)量圖像的代名詞,畢竟手機自帶攝像頭就能達到千萬像素。但是截至目前,換臉技術(shù)一直注重平滑的面部轉(zhuǎn)換,不注重提高像素。
你可能在手機上看到過效果好到爆炸的換臉視頻,但是如果把它們放在更大的屏幕上呈現(xiàn),就會出現(xiàn)很多瑕疵。研究者表示,他們用開源 deepfake 模型 DeepFakeLab 創(chuàng)建的視頻分辨率最高也只有 256*256 像素。相比之下,迪士尼新模型能夠讓視頻的分辨率提升到 1024*1024 像素。
那么,百萬像素換臉是如何實現(xiàn)的呢?
首個百萬像素換臉方法
迪士尼的這項研究發(fā)表在歐洲圖形學(xué)會透視研討會(EGSR)上,提出了一種在圖像和視頻中實現(xiàn)全自動換臉的算法。據(jù)研究者稱,這是首個渲染百萬像素逼真結(jié)果的方法,且輸出結(jié)果具備時序一致性。
具體來說,該研究提出了一個漸進式訓(xùn)練的多路 comb 網(wǎng)絡(luò),以及一種保持亮度和對比度的混合方法。
具體而言,雖然漸進式訓(xùn)練能夠生成高分辨率圖像,但將架構(gòu)和訓(xùn)練數(shù)據(jù)擴展至兩人以上可以使生成的表情具備更高的保真度。
此外,在將生成的表情合成到目標(biāo)人臉時,研究者調(diào)整混合策略,以保持對比度和低頻光照。
最后,研究者在人臉關(guān)鍵點穩(wěn)定算法中融入了一種細化策略,以實現(xiàn)時序穩(wěn)定性,這對于處理高分辨率視頻來說至關(guān)重要。
在實驗部分,研究者通過控制變量研究來驗證該方法對換臉質(zhì)量的影響,并與流行的 SOTA 方法進行了比較。
百萬像素分辨率下執(zhí)行逼真換臉的整體流程:
該流程包括如下四個步驟:
對于圖像 x_t,檢測人臉并定位人臉關(guān)鍵點;
將人臉分辨率歸一化為 1024×1024,保存歸一化參數(shù);
將歸一化人臉饋入網(wǎng)絡(luò),并保存第 s 個解碼器的輸出 x?_s;
使用步驟 2 保存的歸一化參數(shù),在圖像 x?_s 上反轉(zhuǎn)圖像歸一化結(jié)果。最后,借助該研究提出的合成方法,將生成的圖像與圖像 x_t 混合。
而該流程中,最核心的組件無疑是模型本身了。該研究使用的單編碼器 - 多解碼器網(wǎng)絡(luò)架構(gòu):
此外,研究者還介紹了實現(xiàn)人臉關(guān)鍵點對齊和穩(wěn)定的方法,以確保換臉圖像的時序一致性,以及保持光照和對比度的圖像合成流程。此處不再贅述,詳情參見原論文。
與當(dāng)前 SOTA 方法的對比
該方法與 DeepFakes、DeepFaceLab 和 Nirkin 等人提出方法的換臉效果對比。從左到右依次為:目標(biāo)圖像、源圖像、該方法在 1024×1024 和 256×256 分辨率下的成像效果,以及其他三種方法的成像效果。
控制變量研究
研究者執(zhí)行以下四種實驗,來查看該研究提出的單編碼器 - 多解碼器網(wǎng)絡(luò)架構(gòu)和算法對換臉質(zhì)量的影響:
漸進式訓(xùn)練 VS 一次性訓(xùn)練整個網(wǎng)絡(luò);
使用多路 comb 模型 VS 單獨的雙路模型;
該研究提出的保持對比度的多頻段合成方法 VS 泊松融合方法;
該研究中人臉關(guān)鍵點穩(wěn)定方法的影響。
為漸進式訓(xùn)練與非漸進式訓(xùn)練的成像效果對比,可以看出,漸進式訓(xùn)練的成像效果優(yōu)于非漸進式訓(xùn)練。
為使用多路 comb 模型與雙路模型的成像效果對比:
方法與泊松融合方法的成像效果對比。從圖中可以看出,該方法可以更好地保留目標(biāo)人臉的全局光照特征,而泊松融合方法導(dǎo)致人臉出現(xiàn)了某種「漂白」效果。
人臉關(guān)鍵點穩(wěn)定結(jié)果:
缺陷
盡管能夠以高分辨率進行逼真的人臉轉(zhuǎn)換,但是迪士尼提出的這一方法仍然存在缺陷。例如,無法基于數(shù)據(jù)恰當(dāng)捕獲的表情和姿勢,可能會導(dǎo)致不完善的生成結(jié)果,比如模糊和其它偽影。
責(zé)任編輯:pj
-
解碼器
+關(guān)注
關(guān)注
9文章
1175瀏覽量
41975 -
編碼器
+關(guān)注
關(guān)注
45文章
3798瀏覽量
138023 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91845
發(fā)布評論請先 登錄
Transformer架構(gòu)中解碼器的工作流程

TWL6040 用于便攜式應(yīng)用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊

解碼未來:數(shù)字編碼器如何重塑智能世界

增量式編碼器單圈和多圈怎么知道,如何分辯?
編碼器的作用與信號轉(zhuǎn)換原理 編碼器與解碼器的關(guān)系和作用
無線網(wǎng)解碼器怎么用
無線解碼器的質(zhì)量標(biāo)準(zhǔn)是什么
磁電編碼器和光電編碼器的區(qū)別
解碼器和控制器區(qū)別是什么
遙控器解碼器怎么使用
全景聲解碼器

評論