1. 論文信息
2. 引言
大規(guī)模擴(kuò)散模型在文本到圖像合成方面取得了巨大的突破,并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個(gè)成功,即在野外世界建模高維復(fù)雜視頻分布。然而,訓(xùn)練這樣的文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源,這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過(guò)度的訓(xùn)練要求,我們研究了一種新的高效形式:基于文本到圖像模型的可控文本到視頻生成。這個(gè)任務(wù)旨在根據(jù)文本描述和運(yùn)動(dòng)序列(例如深度或邊緣地圖)生成視頻。
如圖所示,它可以有效地利用預(yù)訓(xùn)練的文本到圖像生成模型的生成能力和運(yùn)動(dòng)序列的粗略時(shí)間一致性來(lái)生成生動(dòng)的視頻。
最近的研究探索了利用 ControlNet 或 DDIM inversion 的結(jié)構(gòu)可控性進(jìn)行視頻生成。在這項(xiàng)工作中,我們提出了一個(gè)無(wú)需訓(xùn)練的高質(zhì)量和一致的可控文本到視頻生成方法ControlVideo,以及一種 交錯(cuò)幀平滑器來(lái)增強(qiáng)結(jié)構(gòu)平滑度。
ControlVideo直接繼承了 ControlNet 的架構(gòu)和權(quán)重,通過(guò)擴(kuò)展自注意力與 完全跨幀交互 使其適用于視頻,與之前的工作不同,我們的完全跨幀交互將所有幀連接起來(lái)成為一個(gè)“更大的圖像”,從而直接繼承了 ControlNet 的高質(zhì)量和一致的生成。交錯(cuò)幀平滑器通過(guò)在選定的連續(xù)時(shí)間步驟上交錯(cuò)插值來(lái)消除整個(gè)視頻的閃爍。
如圖所示,每個(gè)時(shí)間步驟的操作通過(guò)插值中間幀平滑交錯(cuò)的三幀片段,兩個(gè)連續(xù)時(shí)間步驟的組合則平滑整個(gè)視頻。為了實(shí)現(xiàn)高效的長(zhǎng)視頻合成,我們還引入了一種分層采樣器來(lái)生成具有長(zhǎng)期連貫性的獨(dú)立短片段。具體而言,長(zhǎng)視頻首先被分割成多個(gè)具有選定關(guān)鍵幀的短視頻片段。然后,關(guān)鍵幀通過(guò)全幀交互預(yù)先生成以實(shí)現(xiàn)長(zhǎng)期連貫性。在關(guān)鍵幀的條件下,我們順序合成相應(yīng)的中間短視頻片段,以實(shí)現(xiàn)全局一致性。作者在廣泛收集的運(yùn)動(dòng)提示對(duì)上進(jìn)行了實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明,我們的方法在質(zhì)量和量化標(biāo)準(zhǔn)上都優(yōu)于其他競(jìng)爭(zhēng)對(duì)手。由于采用了高效的設(shè)計(jì),即 xFormers 實(shí)現(xiàn)和分層采樣器,ControlVideo 可以在一個(gè) NVIDIA 上幾分鐘內(nèi)生成短視頻和長(zhǎng)視頻。
3. 方法
3.0. 背景
潛在擴(kuò)散模型(Latent Diffusion Model,簡(jiǎn)稱LDM)是一種用于密度估計(jì)和生成高維數(shù)據(jù)(如圖像和音頻)的概率模型。它由Jonathan Ho和Stefano Ermon在2020年的論文Denosing Diffusion Probabilistic Models中提出。
LDM基于一個(gè)擴(kuò)散過(guò)程,每一步向數(shù)據(jù)添加噪聲,然后通過(guò)去噪函數(shù)去除噪聲。擴(kuò)散過(guò)程進(jìn)行到數(shù)據(jù)完全被破壞,只剩下高斯噪聲。模型通過(guò)反向擴(kuò)散過(guò)程生成新數(shù)據(jù),從高斯噪聲開(kāi)始,逐步去除噪聲。
形式上,LDM定義了一系列條件分布,給出數(shù)據(jù)如下:
其中表示時(shí)間t的數(shù)據(jù),是一個(gè)神經(jīng)網(wǎng)絡(luò),將映射到,是一個(gè)固定的方差參數(shù)。擴(kuò)散過(guò)程從原始數(shù)據(jù)開(kāi)始,進(jìn)行到,其中T是擴(kuò)散步驟的總數(shù)。
為了生成新數(shù)據(jù),LDM反轉(zhuǎn)擴(kuò)散過(guò)程,從以下條件分布中采樣:
從開(kāi)始,向后進(jìn)行到。LDM可以通過(guò)最大化模型下數(shù)據(jù)的對(duì)數(shù)似然來(lái)進(jìn)行訓(xùn)練,可以使用隨機(jī)梯度下降有效地完成。LDM已經(jīng)在圖像生成和密度估計(jì)任務(wù)中取得了最先進(jìn)的結(jié)果,并且已經(jīng)擴(kuò)展到處理缺失數(shù)據(jù)和半監(jiān)督學(xué)習(xí)。
3.1. 方法
論文提出的方法包括三個(gè)關(guān)鍵組件:ControlNet、ControlVideo 和交錯(cuò)幀平滑器。這些組件通過(guò)控制噪聲的傳播路徑,在生成的視頻中保持了文本描述和運(yùn)動(dòng)信息之間的一致性,并通過(guò)完全跨幀交互和交錯(cuò)幀平滑器來(lái)保持了視頻的連貫性和平滑性。
3.1.1 Fully Cross-Frame Interaction:
Fully Cross-Frame Interaction模塊旨在通過(guò)使所有幀之間相互作用來(lái)增強(qiáng)生成視頻的時(shí)間一致性。這是通過(guò)將所有視頻幀連接成一個(gè)“大圖像”,然后使用基于注意力機(jī)制的Fully Cross-Frame Interaction來(lái)計(jì)算幀間交互來(lái)實(shí)現(xiàn)的。完全跨幀交互模塊可以表示為:
其中是通過(guò)連接所有視頻幀形成的“大圖像”,,和是查詢、鍵和值矩陣,,和是可學(xué)習(xí)的權(quán)重矩陣。注意力機(jī)制通過(guò)將查詢和鍵矩陣相乘,然后使用softmax函數(shù)進(jìn)行歸一化來(lái)計(jì)算注意力權(quán)重。最后,通過(guò)將注意力權(quán)重乘以值矩陣得到注意力值。
3.1.2 Interleaved-Frame Smoother:
Interleaved-Frame Smoother模塊旨在減少合成視頻中的抖動(dòng)效果。這是通過(guò)插值每個(gè)三幀剪輯的中間幀,然后以交錯(cuò)的方式重復(fù)它來(lái)實(shí)現(xiàn)的。Interleaved-Frame Smoother可以表示為:
其中表示視頻序列的第幀。Interleaved-Frame Smoother通過(guò)取前一幀和后一幀的平均值來(lái)插值每個(gè)三幀剪輯的中間幀。
3.1.3 Hierarchical Sampler:
Hierarchical Sampler模塊旨在通過(guò)逐個(gè)剪輯地生成視頻來(lái)實(shí)現(xiàn)高效和一致的長(zhǎng)視頻合成。在每個(gè)時(shí)間步中,將長(zhǎng)視頻分成多個(gè)短視頻剪輯,并使用Fully Cross-Frame Attention預(yù)先生成關(guān)鍵幀以確保長(zhǎng)距離的一致性。然后,在每對(duì)關(guān)鍵幀的條件下,按順序合成相應(yīng)的剪輯以確保整體一致性。Hierarchical Sampler可以表示為:
其中表示視頻序列的第幀,是關(guān)鍵幀,是一個(gè)擴(kuò)散模型,它在先前和下一幀的條件下生成視頻幀。關(guān)鍵幀是使用Fully Cross-Frame Attention預(yù)先生成的,以確保長(zhǎng)距離的一致性,而其余幀則使用擴(kuò)散模型生成。
4. 實(shí)驗(yàn)
上圖展示了對(duì)于視頻生成方法的實(shí)驗(yàn)數(shù)據(jù)比較表格。共比較了三種方法:Tune-A-Video、Text2Video-Zero和ControlVideo。表格中的指標(biāo)分為兩列:Frame Consistency和Prompt Consistency。其中,F(xiàn)rame Consistency指的是生成的視頻幀與輸入的條件(Structure Condition)之間的一致性;Prompt Consistency指的是生成的視頻與輸入的描述(Prompt)之間的一致性。兩列指標(biāo)的數(shù)值都是百分比形式??梢钥闯觯褂?a target="_blank">Canny Edge或Depth Map作為Structure Condition時(shí),ControlVideo的Frame Consistency都比其他兩種方法高,且Prompt Consistency基本持平。這說(shuō)明ControlVideo在結(jié)構(gòu)一致性方面表現(xiàn)優(yōu)異,而在描述一致性方面與其他方法相當(dāng)。需要注意的是,Prompt Consistency的數(shù)值普遍較低,這也是視頻生成領(lǐng)域的一個(gè)研究難點(diǎn)。從具體數(shù)字來(lái)看,可以發(fā)現(xiàn)ControlVideo在兩種Structure Condition下的Frame Consistency均優(yōu)于其他兩種方法,并且在Prompt Consistency方面與其他方法相當(dāng)。此外,即使在表格中的最好表現(xiàn)下,Prompt Consistency的數(shù)值也普遍較低,這表明在描述一致性方面仍然存在改進(jìn)空間。
該表格展示了一項(xiàng)用戶偏好研究的結(jié)果,比較了兩種方法和一種新的視頻合成方法“Ours”。該研究評(píng)估了每種方法合成的視頻在三個(gè)方面的質(zhì)量:視頻質(zhì)量、時(shí)間一致性和文本對(duì)齊。表格中展現(xiàn)了在每個(gè)方面上有多少評(píng)估者更喜歡“Ours”合成的視頻而不是其他方法的視頻??傮w而言,結(jié)果表明,“Ours”在視頻質(zhì)量、時(shí)間一致性和文本對(duì)齊方面表現(xiàn)比其他兩種方法更好,因?yàn)樗谒腥齻€(gè)方面上都得到了更高比例的評(píng)估者偏好。然而,需要注意的是,該研究?jī)H反映了評(píng)估者的意見(jiàn),可能并不一定反映視頻合成方法的客觀質(zhì)量。
這一部分主要介紹了在用戶研究和消融實(shí)驗(yàn)方面的結(jié)果,以及將該方法擴(kuò)展到長(zhǎng)視頻生成的有效性。在用戶研究中,本文與其他競(jìng)爭(zhēng)方法進(jìn)行了比較,并讓參與者根據(jù)視頻質(zhì)量、時(shí)間連貫性和文本對(duì)齊等三個(gè)方面選擇更好的合成視頻。結(jié)果表明,本文的方法在所有三個(gè)方面都表現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。在消融實(shí)驗(yàn)中,本文進(jìn)一步評(píng)估了完全跨幀交互和交錯(cuò)幀平滑器的效果,并發(fā)現(xiàn)它們都對(duì)視頻生成的質(zhì)量和連續(xù)性產(chǎn)生了重要影響。最后,本文還展示了如何將該方法擴(kuò)展到長(zhǎng)視頻生成,通過(guò)引入分層采樣器實(shí)現(xiàn)了高效的處理,使得該方法可以在低端硬件上生成高質(zhì)量的長(zhǎng)視頻。
5. 討論
這份工作存在以下局限性:
該方法的生成結(jié)果受預(yù)訓(xùn)練的文本到圖像生成模型的質(zhì)量和性能影響,因此其生成的視頻可能存在與圖像生成模型相關(guān)的問(wèn)題,如圖像分辨率、細(xì)節(jié)和顏色等方面的不足。
該方法需要輸入運(yùn)動(dòng)序列,如深度或邊緣地圖,以幫助生成視頻,這可能會(huì)限制其適用范圍,因?yàn)檫@些運(yùn)動(dòng)序列可能難以獲取。
由于該方法使用分層采樣器來(lái)生成長(zhǎng)視頻,因此在生成非常長(zhǎng)的視頻時(shí)可能會(huì)存在一些不連貫的問(wèn)題。
該方法的處理速度受到硬件和預(yù)訓(xùn)練模型的性能限制,對(duì)于某些應(yīng)用場(chǎng)景可能需要更快的處理速度。
大規(guī)模擴(kuò)散模型在文本到視頻合成方面取得了巨大進(jìn)展,但這些模型成本高昂且不對(duì)公眾開(kāi)放。我們的ControlVideo專注于無(wú)需訓(xùn)練的可控文本到視頻生成,并在高效視頻創(chuàng)建方面邁出了重要一步。具體而言,ControlVideo可以使用普通硬件合成高質(zhì)量的視頻,因此可供大多數(shù)研究人員和用戶使用。例如,藝術(shù)家可以利用我們的方法在更短的時(shí)間內(nèi)創(chuàng)建出迷人的視頻。此外,ControlVideo為視頻渲染、視頻編輯和視頻到視頻轉(zhuǎn)換等任務(wù)提供了洞見(jiàn)。然而,雖然作者不打算將模型用于有害目的,但它可能會(huì)被濫用并帶來(lái)一些潛在的負(fù)面影響,例如制作欺騙性、有害性或含有不當(dāng)內(nèi)容的視頻。盡管存在以上擔(dān)憂,但我們相信可以通過(guò)一些措施來(lái)將其最小化。例如,可以使用NSFW過(guò)濾器來(lái)過(guò)濾不健康和暴力內(nèi)容。此外,我們希望政府能夠建立和完善相關(guān)法規(guī)以限制視頻創(chuàng)作的濫用。較為合適的應(yīng)用場(chǎng)景包括但不限于:
視頻游戲開(kāi)發(fā):可以使用該方法生成游戲場(chǎng)景中的動(dòng)態(tài)場(chǎng)景,如人物移動(dòng)、車輛行駛等。
電影和廣告制作:可以使用該方法生成預(yù)覽或草圖,以幫助制片人和廣告商確定最終的場(chǎng)景和效果。
交互式虛擬現(xiàn)實(shí)應(yīng)用:可以使用該方法生成虛擬現(xiàn)實(shí)場(chǎng)景,如虛擬旅游、虛擬展覽等。
視頻編輯和后期制作:可以使用該方法生成缺失的鏡頭或補(bǔ)充一些場(chǎng)景,以幫助編輯和后期制作人員完成工作。
6. 結(jié)論
這一部分主要介紹了在用戶研究和消融實(shí)驗(yàn)方面的結(jié)果,以及將該方法擴(kuò)展到長(zhǎng)視頻生成的有效性。在用戶研究中,本文與其他競(jìng)爭(zhēng)方法進(jìn)行了比較,并讓參與者根據(jù)視頻質(zhì)量、時(shí)間連貫性和文本對(duì)齊等三個(gè)方面選擇更好的合成視頻。結(jié)果表明,本文的方法在所有三個(gè)方面都表現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。在消融實(shí)驗(yàn)中,本文進(jìn)一步評(píng)估了完全跨幀交互和交錯(cuò)幀平滑器的效果,并發(fā)現(xiàn)它們都對(duì)視頻生成的質(zhì)量和連續(xù)性產(chǎn)生了重要影響。最后,本文還展示了如何將該方法擴(kuò)展到長(zhǎng)視頻生成,通過(guò)引入分層采樣器實(shí)現(xiàn)了高效的處理,使得該方法可以在低端硬件上生成高質(zhì)量的長(zhǎng)視頻。
責(zé)任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7233瀏覽量
90735 -
視頻
+關(guān)注
關(guān)注
6文章
1967瀏覽量
73574 -
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49817
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于擴(kuò)散模型的圖像生成過(guò)程

受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

評(píng)論