基于3D場景的神經(jīng)架構(gòu)NeRFs

前有DALL.E文本生成圖像，現(xiàn)有將文字變成 3D場景。近日，蘋果 AI 團(tuán)隊(duì)發(fā)布最新 AI 模型 GAUDI，它是基于 3D 場景的神經(jīng)架構(gòu) NeRFs，可以根據(jù)文字生成 3D 室內(nèi)場景。

目前為止，NeRFs 主要用做 3D 模型和 3D 場景的一種神經(jīng)存儲介質(zhì)，然后可以從不同的相機(jī)視角進(jìn)行渲染。

最新 AI 系統(tǒng) GAUDI 如果說 NeRFs 從不同角度逼真地渲染圖像的能力可以用于生成 AI 呢？此前，OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系統(tǒng)展示了 AI 將文本生成圖像的潛力，但內(nèi)容也僅限于 2D 圖像和圖形。 2021 年末時(shí)，谷歌通過 Dream Fields 首次展示了 3D AI 生成系統(tǒng)，將 NeRF 生成 3D 視圖的能力與 OpenAI 的 CLIP 評估圖像內(nèi)容的能力相結(jié)合。蘋果 AI 團(tuán)隊(duì)發(fā)布的 GAUDI 是一種能夠生成沉浸式 3D 場景的神經(jīng)架構(gòu)，可以根據(jù)文字提示創(chuàng)建 3D 場景。例如，輸入“穿過走廊”或“上樓梯”，就可以看到執(zhí)行這一動作的 3D 場景視頻。

Apple GAUDI 是3D 內(nèi)飾專家

雖然谷歌致力于使用 Dream Fields 生成單個(gè)對象，但將生成 AI 擴(kuò)展到完全不受約束的 3D 場景仍是一個(gè)尚未解決的問題。這背后極有可能的原因之一是攝像機(jī)位置的限制。雖然對于單個(gè)對象，每個(gè)攝像機(jī)位置都可以映射到一個(gè)圓頂，但在 3D 場景中，這些攝像機(jī)位置會受到對象和墻壁等障礙物的限制。對于這個(gè)問題，GAUDI 模型的解決方案是：相機(jī)姿態(tài)解碼器對可能的相機(jī)位置進(jìn)行預(yù)測，并確保輸出是 3D 場景架構(gòu)的有效位置。場景的場景解碼器預(yù)測三平面表示，這是一種 3D 畫布，輻射場解碼器在其上使用體積渲染方程繪制后續(xù)圖像。在對四個(gè)不同數(shù)據(jù)集（包括室內(nèi)掃描數(shù)據(jù)集 ARKitScences）的實(shí)驗(yàn)中，研究人員表明 GAUDI 可以重建學(xué)習(xí)視圖并匹配現(xiàn)有方法的質(zhì)量。雖然現(xiàn)在 GAUDI 生成的 3D 場景視頻質(zhì)量還不是很高，但這也說明了 AI 在圖像和視頻技術(shù)這生成的另一種可能。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴