久久人妻中文字幕日韩,草玖玖在线视频

一、研究背景

盡管3D和視頻生成取得了飛速的發(fā)展，由于缺少高質(zhì)量的4D數(shù)據(jù)集，4D生成始終面臨著巨大的挑戰(zhàn)。過(guò)去幾篇工作嘗試了Text-To-4D的任務(wù)，但依然存在兩個(gè)主要問(wèn)題：

1.由于輸入依賴(lài)于單視角的圖片或者簡(jiǎn)單的文本描述，并不能保證得到精準(zhǔn)的4D結(jié)果，需要花費(fèi)大量的時(shí)間進(jìn)行反復(fù)調(diào)整。

2.盡管采用了Hexplane作為4D的表征，基于NeRF的方法在高分辨率和長(zhǎng)視頻上的渲染所需要的計(jì)算時(shí)間和顯存占用是難以接受的。即使采用了一個(gè)超分辨的后處理網(wǎng)絡(luò)，依然會(huì)有模糊和閃爍的結(jié)果。

為了解決上述問(wèn)題，4DGen定義了“Grounded 4D Generation“新型任務(wù)形式，并且設(shè)計(jì)了新的算法框架實(shí)現(xiàn)高質(zhì)量的4D內(nèi)容生成。

二、任務(wù)定義

過(guò)往的4D生成工作是“one click“的方式，并不能對(duì)生成的結(jié)果進(jìn)行有效的控制。4DGen提出了“Grounded 4D Generation“的形式，通過(guò)利用視頻序列和可選的3D模型作為4D生成的控制信息，可以實(shí)現(xiàn)更為精準(zhǔn)的4D內(nèi)容生成。用戶(hù)可通過(guò)輸入視頻序列或3D模型來(lái)約束4D結(jié)果的運(yùn)動(dòng)和外觀；當(dāng)用戶(hù)僅提供單張圖片作為輸入時(shí)，可借助預(yù)訓(xùn)練好的視頻生成模型來(lái)得到視頻序列；當(dāng)用戶(hù)未提供3D模型時(shí)，可通過(guò)單張圖片重建3D模型來(lái)作為起始點(diǎn)。

三、方法介紹

4DGen框架的輸入起始點(diǎn)為用戶(hù)給定或者模型生成的視頻序列，對(duì)于任意的單張圖片，借助多視角生成模型（multi-view diffusion model），可以得到不同視角的圖片。4DGen通過(guò)對(duì)第一幀多視圖進(jìn)行三維重建，得到初始的靜態(tài)3D Gaussians作為4D生成的起始點(diǎn)。

由于4D數(shù)據(jù)的匱乏，需要盡可能的從先驗(yàn)?zāi)Ｐ椭姓麴s信息。4DGen將每一幀生成的多視圖作為2D偽標(biāo)簽，并且采用多視圖生成的點(diǎn)云作為3D點(diǎn)的偽標(biāo)簽來(lái)監(jiān)督訓(xùn)練過(guò)程。

因?yàn)槎嘁晥D生成具有ill-posed的特點(diǎn)，得到的偽標(biāo)簽在不同視角之間，不同時(shí)序之間存在不連續(xù)性，需要引入時(shí)間和空間上的一致性損失函數(shù)進(jìn)行約束。相較于擬合多視圖DDIM采樣得到的圖片，score distillation sampling（SDS）是根據(jù)先驗(yàn)的擴(kuò)散模型對(duì)場(chǎng)景表達(dá)進(jìn)行似然估計(jì)。

4DGen依據(jù)正面視角計(jì)算任意視角圖片在Zero123模型上的SDS損失，用于提升空間上的連續(xù)性。為了緩解閃爍問(wèn)題，4DGen引入了無(wú)監(jiān)督的時(shí)間平滑約束。通過(guò)計(jì)算平面的平滑損失和Gaussians不同時(shí)刻的平滑損失，有效提升了時(shí)間上的一致性。

四、實(shí)施細(xì)節(jié)

4DGen的 4D表達(dá)采用了4D Gaussian Spaltting的方式，通過(guò)一個(gè)多分辨率Hexplane對(duì)每個(gè)Gaussian進(jìn)行編碼。將6個(gè)時(shí)空平面的特征進(jìn)行相加，并經(jīng)過(guò)一個(gè)額外的MLP解碼得到對(duì)應(yīng)Gaussian在不同時(shí)刻的位置偏移量。

訓(xùn)練上采用三階段方式，第一階段對(duì)場(chǎng)景進(jìn)行靜態(tài)建模，第二階段利用2D和3D的偽標(biāo)簽進(jìn)行動(dòng)態(tài)場(chǎng)景的初步建模，第三建模利用平滑損失增強(qiáng)模型的細(xì)節(jié)和連續(xù)性。

所有實(shí)驗(yàn)可以在一張RTX3090上完成，對(duì)于2.5萬(wàn)個(gè)Gaussians只需45分鐘的訓(xùn)練，對(duì)于9萬(wàn)個(gè)Gaussians訓(xùn)練2小時(shí)可以得到更加好的細(xì)節(jié)效果。

五、實(shí)驗(yàn)結(jié)果

4DGen可以實(shí)現(xiàn)不同視角、不同時(shí)間的高質(zhì)量圖片渲染。相較于對(duì)比方法在細(xì)節(jié)表達(dá)、噪聲去除、顏色還原、時(shí)空連續(xù)性等方面有顯著提升。更多視覺(jué)效果可以參考項(xiàng)目主頁(yè)。

量化對(duì)比上，4DGen采用了不同時(shí)序圖片和參考圖片的CLIP距離來(lái)衡量生成質(zhì)量，采用CLIP-T衡量不同時(shí)間下的圖像連續(xù)性。4DGen在多項(xiàng)指標(biāo)上明顯優(yōu)于過(guò)往方法。

六、總結(jié)

4DGen定義了” Grounded 4D Generation“的任務(wù)形式，通過(guò)視頻序列和可選3D模型的引入提升了4D生成的可控性。通過(guò)高效的4D Gaussian Splatting的表達(dá)，2D和3D偽標(biāo)簽的監(jiān)督和時(shí)空的連續(xù)性約束，使得4DGen可以實(shí)現(xiàn)高分辨率、長(zhǎng)時(shí)序的高質(zhì)量的4D內(nèi)容生成。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編解碼

編解碼

+關(guān)注

關(guān)注
1

文章
145

瀏覽量
20118
SDS

SDS

+關(guān)注

關(guān)注
0

文章
50

瀏覽量
16011
3D模型

3D模型

+關(guān)注

關(guān)注
1

文章
76

瀏覽量
16464
MLP

MLP

+關(guān)注

關(guān)注
0

文章
57

瀏覽量
4621

原文標(biāo)題：3DGS殺瘋了！4DGen：基于動(dòng)態(tài)3D高斯的可控4D生成新工作

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

4DGen：基于動(dòng)態(tài)3D高斯的可控4D生成新工作

評(píng)論