我們介紹一篇2022 CVPR Oral的三維場(chǎng)景重建論文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,該論文由浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室/浙大-商湯三維視覺(jué)聯(lián)合實(shí)驗(yàn)室提出。
論文鏈接:https://arxiv.org/abs/2205.02836
論文代碼:https://github.com/zju3dv/manhattan_sdf
Project page:https://zju3dv.github.io/manhattan_sdf/
1. 引言
1.1 論文的問(wèn)題描述
輸入在室內(nèi)場(chǎng)景采集的圖像序列,論文希望能生成該室內(nèi)場(chǎng)景的三維模型。該問(wèn)題有許多應(yīng)用,例如虛擬與增強(qiáng)現(xiàn)實(shí)、機(jī)器人等。
1.2 當(dāng)前方法在這個(gè)問(wèn)題的局限性
傳統(tǒng)方法一般通過(guò)MVS(Multi-View Stereo) [1,2] 做場(chǎng)景重建,首先根據(jù)多視角匹配來(lái)估計(jì)每個(gè)視角的深度圖,然后將每個(gè)視角的深度在三維空間中做融合。這類方法最大的問(wèn)題在于難以處理弱紋理區(qū)域、非朗伯表面,原因是這些區(qū)域難以做匹配,從而導(dǎo)致重建不完整。
Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method
最近,有方法提出基于隱式神經(jīng)表示做三維重建。NeRF [3] 通過(guò)可微分的體積渲染技術(shù)從圖像中學(xué)習(xí)隱式輻射場(chǎng)。NeRF可以實(shí)現(xiàn)有真實(shí)感的視角合成,但是幾何重建結(jié)果噪音很嚴(yán)重,主要是因?yàn)槿狈Ρ砻婕s束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距離場(chǎng))建模場(chǎng)景的幾何,并實(shí)現(xiàn)了基于SDF的體積渲染,可以得到相比于NeRF更加平滑的幾何重建結(jié)果。此類方法都是基于光度一致性原理,因而難以處理弱紋理區(qū)域,在室內(nèi)場(chǎng)景的重建質(zhì)量很差。
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
1.3 我們的觀察和對(duì)問(wèn)題的解決
為了克服室內(nèi)場(chǎng)景重建在弱紋理平面區(qū)域的歧義性,我們?cè)趦?yōu)化過(guò)程中基于曼哈頓假設(shè)采取了相應(yīng)的幾何約束。曼哈頓假設(shè)是一個(gè)被廣泛使用的室內(nèi)場(chǎng)景假設(shè),即室內(nèi)場(chǎng)景的地面、墻面、天花板通常被對(duì)齊在三個(gè)互相垂直的主方向,基于此我們對(duì)地面、墻面區(qū)域設(shè)計(jì)了對(duì)應(yīng)的幾何約束。
曼哈頓假設(shè)示意圖
2. 論文方法
2.1 方法概述
論文使用神經(jīng)隱式表示建模場(chǎng)景的幾何、外觀和語(yǔ)義,并從多視角圖像優(yōu)化該表示。具體步驟為:
1)使用可微分體積渲染技術(shù),根據(jù)輸入圖像優(yōu)化幾何、外觀。
2)預(yù)測(cè)墻面、地面的語(yǔ)義分割,并基于曼哈頓假設(shè)對(duì)這些區(qū)域采用相應(yīng)的幾何約束。
3)為了提升對(duì)語(yǔ)義分割不準(zhǔn)確性的魯棒性,我們提出聯(lián)合優(yōu)化策略來(lái)同時(shí)優(yōu)化幾何和語(yǔ)義,從而實(shí)現(xiàn)更高質(zhì)量的重建結(jié)果。
2.2 基于SDF的體積渲染
為了采用體積渲染技術(shù),我們首先將有向距離場(chǎng)轉(zhuǎn)換為體積密度:
2.3 幾何約束
我們首先使用DeepLabV3+ [6] 在圖像空間分割地面、墻面區(qū)域。對(duì)于地面區(qū)域的每個(gè)像素,我們首先做體積渲染得到對(duì)應(yīng)的表面點(diǎn),通過(guò)計(jì)算有向距離場(chǎng)在該處的梯度得到法向方向,設(shè)計(jì)損失函數(shù)約束其法向豎直向上:
2.4 聯(lián)合優(yōu)化
幾何約束在語(yǔ)義分割準(zhǔn)確的區(qū)域可以起到很好的效果,但網(wǎng)絡(luò)預(yù)測(cè)的語(yǔ)義分割在部分區(qū)域可能是不準(zhǔn)確的,這會(huì)影響重建結(jié)果。如下圖所示,由于語(yǔ)義分割不準(zhǔn)確,導(dǎo)致加上幾何約束之后重建結(jié)果變得更加糟糕。
為了克服這個(gè)問(wèn)題,我們?cè)?D空間中學(xué)習(xí)語(yǔ)義場(chǎng)。我們使用體積渲染技術(shù)將語(yǔ)義渲染到圖像空間,并通過(guò)softmax歸一化得到每個(gè)像素屬于地面、墻面區(qū)域的概率,我們利用這個(gè)概率來(lái)加權(quán)幾何約束:
?joint=∑?∈??^?(?)??(?)+∑?∈??^?(?)??(?)
同時(shí),為了避免trivial solution(屬于地面、墻面的概率被降為0),我們同時(shí)也用2D語(yǔ)義分割網(wǎng)絡(luò)的預(yù)測(cè)計(jì)算交叉熵作為監(jiān)督:
??=?∑?∈?∑?∈{?,?,?}??(?)log?^?(?)
3. 實(shí)驗(yàn)分析
3.1 Ablation studies
通過(guò)定性、定量的實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)使用體積約束能夠提升在平面區(qū)域的重建效果,但也會(huì)由于語(yǔ)義分割的不準(zhǔn)確性導(dǎo)致一些非平面區(qū)域的重建變差,通過(guò)使用我們提出的聯(lián)合優(yōu)化策略,可以全面地提升重建結(jié)果。
3.2 與SOTA方法的對(duì)比
我們?cè)赟canNet和7-Scenes數(shù)據(jù)集上進(jìn)行了和之前MVS方法、基于volume rendering的方法的對(duì)比,數(shù)值結(jié)果大幅領(lǐng)先于之前的方法。
審核編輯 :李倩
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29280瀏覽量
210920 -
三維模型
+關(guān)注
關(guān)注
0文章
52瀏覽量
13226
原文標(biāo)題:浙大提出Manhattan-SDF:從多視角圖像做三維場(chǎng)景重建 (CVPR'22 Oral)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于安芯一號(hào)SLH89F5162的真三維立體圖形顯示
基于紋理映射的醫(yī)學(xué)圖像三維重建
基于FPGA的醫(yī)學(xué)圖像三維重建系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
AI+AR將用于智能三維重建領(lǐng)域
如何使用單目視覺(jué)進(jìn)行高精度三維場(chǎng)景重建技術(shù)研究

無(wú)人機(jī)圖像處理技術(shù)之三維還原重建技術(shù)簡(jiǎn)介
透明物體的三維重建研究綜述

基于多視角圖片的高精度三維人臉重建綜述
NVIDIA Omniverse平臺(tái)助力三維重建服務(wù)協(xié)同發(fā)展
深度學(xué)習(xí)背景下的圖像三維重建技術(shù)進(jìn)展綜述
NerfingMVS:引導(dǎo)優(yōu)化神經(jīng)輻射場(chǎng)實(shí)現(xiàn)室內(nèi)多視角三維重建
三維重建:從入門到入土
三維場(chǎng)景點(diǎn)云理解與重建技術(shù)

如何實(shí)現(xiàn)整個(gè)三維重建過(guò)程

評(píng)論