本文提出了一個用于評估神經(jīng)輻射場和神經(jīng)渲染框架的真實基準思想,并設(shè)計了一個有效的流程用于快速掃描真實物體。通過不到500美元的硬件預(yù)算,在5分鐘內(nèi)能夠收集到大約4000張被掃描物體的圖像。構(gòu)建了ScanNeRF數(shù)據(jù)集,其中包含多個訓(xùn)練、驗證和測試集,用于評估不同條件下現(xiàn)代NeRF方法的性能。通過評估三個先進的NeRF變種,突出了它們的優(yōu)點和缺點。該數(shù)據(jù)集可以在項目頁面上獲取,并提供在線基準測試,以促進更好的NeRF的發(fā)展。
1 前言
本文提出了元宇宙的概念以及使用神經(jīng)渲染技術(shù)將真實物體轉(zhuǎn)移到虛擬世界中的方法。為了實現(xiàn)這一目標,作者構(gòu)建了一個簡單而有效的物體掃描站-ScanNeRF,并生成了一種高質(zhì)量的真實數(shù)據(jù)集,其中包含適用于訓(xùn)練和評估最先進的神經(jīng)輻射場方法的圖像。這個數(shù)據(jù)集為神經(jīng)渲染領(lǐng)域的研究提供了一個基準,并探討了如何在從單個側(cè)面采集的圖像中完全渲染一個物體的挑戰(zhàn)。此外,作者的工作展示了使用僅500美元的簡單硬件就可以構(gòu)建來自真實物體的數(shù)字孿生。
作者的貢獻有三個方面:
提出了一個用于收集圖像的簡單而有效的平臺,用于訓(xùn)練神經(jīng)渲染方法。
發(fā)布了一個包含真實物體圖像的新型基準測試數(shù)據(jù)集。
評估了現(xiàn)代神經(jīng)輻射場的性能,并突出了它們在不同情況下的優(yōu)缺點。
2 相關(guān)工作
本文回顧了神經(jīng)輻射場(NeRF)的文獻,并介紹了NeRF在新視點合成領(lǐng)域的最新進展。NeRF使用多層感知器(MLP)對隱式連續(xù)的體素表示進行編碼,與離散表示相比具有較好的性能。然而,傳統(tǒng)的NeRF存在訓(xùn)練時間長、需要為每個新場景進行獨立訓(xùn)練以及渲染速度慢等限制。為了解決這些問題,文獻中提出了一些加速NeRF訓(xùn)練和渲染的方法,包括預(yù)訓(xùn)練階段、使用額外的深度信息、利用顯式表示以及結(jié)合隱式表示等。最近的研究工作已經(jīng)實現(xiàn)了更快速訓(xùn)練和渲染的NeRF變體,使得實時渲染成為可能。在此基礎(chǔ)上,本文選擇了DirectVoxGo、Plenoxels和Instant-NGP作為基準模型,建立了ScanNeRF基準測試,旨在推動神經(jīng)輻射場和相關(guān)技術(shù)領(lǐng)域的進一步研究。與現(xiàn)有的基準測試相比,ScanNeRF提供了更可擴展的數(shù)據(jù)收集框架,并明確定義了測試集,避免了潛在的偏見結(jié)果。
3 關(guān)于神經(jīng)輻射場的背景
神經(jīng)輻射場(NeRF)通過將三維場景編碼成隱式表示,在視覺領(lǐng)域中廣泛應(yīng)用。通過學(xué)習(xí)多層感知機(MLP)來建立隱式映射,其中包括中間的MLP(pos)用于推斷密度和嵌入,淺層的MLP(rgb)用于預(yù)測顏色。為了更準確地表示底層函數(shù)的高頻部分,使用基于傅里葉特征的位置編碼。渲染圖像時,根據(jù)光學(xué)模型和體繪制渲染,通過累計透射量和數(shù)值積分來計算像素顏色。訓(xùn)練NeRF模型時,通過最小化光度誤差平方來優(yōu)化模型參數(shù)。
4 ScanNeRF基準測試
在本節(jié)中,作者描述了ScanNeRF框架的硬件和軟件組成部分。作者首先介紹我們的采集平臺,然后描述了用于選擇最終圖像的后處理步驟,以及用于提取物體的掩膜策略。最后,作者強調(diào)了生成數(shù)據(jù)集的整體組織方式。
4.1 掃描站設(shè)置
掃描站使用Lego Mindstorm套件構(gòu)建,配備了OpenCV Oak-D Lite相機。通過旋轉(zhuǎn)底座和機械臂的兩個自由度,可以輕松地收集掃描物體周圍的圖像。相機姿態(tài)計算基于ChArUco標記和OpenCV庫的功能實現(xiàn)。掃描過程中,相機以30fps的頻率錄制1440×1080分辨率的圖像。整個掃描站通過Lego Mindstorms桌面應(yīng)用程序的API進行Python編程,并通過藍牙連接進行控制。掃描站的硬件預(yù)算低于500美元。
4.2 數(shù)據(jù)集過濾
數(shù)據(jù)集過濾的過程通過計算相機姿態(tài)的方位角來檢測基座的旋轉(zhuǎn),并丟棄方位角與前一個角度之差小于1.15°的圖像。這樣可以有效地去除在臂下降期間收集的圖像,從而保留只在臂不移動且基座旋轉(zhuǎn)時獲取的圖像。
4.3 背景遮罩
為了剔除不一致的背景并獲得只包含掃描物體的圖像,作者采用背景遮罩的方法。通過使用Instant-NGP神經(jīng)渲染框架,作者訓(xùn)練并渲染了與原始圖像相同姿態(tài)的新圖像。在渲染過程中,作者使用渲染體積來裁剪不一致的背景,并根據(jù)像素的alpha值生成遮罩。這些遮罩被應(yīng)用于原始圖像,移除了背景和掃描站基座,使最終的圖像中只保留了物體。
4.4 數(shù)據(jù)集的組織和劃分
在數(shù)據(jù)集組織和劃分階段,作者將獲取的圖像序列劃分為Train、Val和Test三個宏劃分,分別包含不同數(shù)量的圖像。作者通過Farthest Point Sampling算法在物體上方半球均勻采樣圖像,并將Train宏劃分的圖像進一步細分為三個訓(xùn)練子劃分,以探究不同圖像數(shù)量對NeRF算法性能的影響。同時,作者還構(gòu)建了八個附加的子劃分,每個子劃分包含在特定區(qū)域更密集采集的圖像,并從整個半球分布的位置上隨機采樣一小部分圖像。這些子劃分的設(shè)計旨在研究在訓(xùn)練集具有不均勻視角空間分布時不同NeRF算法的表現(xiàn),并以此促進未來的研究。
4.5 掃描時間和物體數(shù)量
所述流程允許快速掃描大量物體。一個完整的獲取周期包括收集約9000張圖像,并經(jīng)過過濾步驟后減少至約4000張。當前的ScanNeRF數(shù)據(jù)集包括35個真實物體,用于評估現(xiàn)代NeRF框架的性能。未來計劃擴大數(shù)據(jù)集以包含數(shù)百個甚至數(shù)千個物體,并通過基準網(wǎng)站共享Train/Val拆分。
5 實驗
在本節(jié)中,作者對作者的創(chuàng)新ScanNeRF數(shù)據(jù)集進行了實驗。具體而言,作者在作者設(shè)計的拆分數(shù)據(jù)上運行了三種現(xiàn)代高效的NeRF框架,以研究它們在不同密度和訓(xùn)練圖像數(shù)量的情況下的性能表現(xiàn),以及它們在僅從掃描對象周圍的特定區(qū)域密集獲取圖像時的行為。
5.1 評估的框架和設(shè)置
在本節(jié)中,我們對我們的創(chuàng)新ScanNeRF數(shù)據(jù)集進行了實驗。我們評估了三種現(xiàn)代高效的NeRF框架:DVGO、Plenoxels和Instant-NGP。每種方法都具有不同的訓(xùn)練和渲染速度。我們使用每個框架的官方代碼進行實驗,并保持默認的超參數(shù)設(shè)置。在評估中,我們訓(xùn)練了420個實例,并使用峰值信噪比(PSNR)作為評估指標來衡量渲染圖像的質(zhì)量。
5.2 均勻分布采集的實驗
在均勻分布采集的實驗中,作者訓(xùn)練和評估了三種方法:DVGO、Plenoxels和Instant-NGP。當使用1000張圖像進行訓(xùn)練時,所有三種NeRF變體的性能都相當出色,達到了超過30的PSNR。隨著訓(xùn)練圖像密度逐漸減少到500、250和100,三個框架的性能出現(xiàn)了不同的變化。Instant-NGP幾乎不受訓(xùn)練圖像減少的影響,DVGO的PSNR有輕微下降,而Plenoxels在僅用100張圖像進行訓(xùn)練時出現(xiàn)了最大的渲染質(zhì)量下降。根據(jù)實驗結(jié)果,Instant-NGP在訓(xùn)練和渲染速度、渲染質(zhì)量以及對訓(xùn)練圖像數(shù)量減少的魯棒性方面表現(xiàn)最佳。這里也推薦「3D視覺工坊」新課程《深度剖析面向機器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實戰(zhàn)》。
5.3 對密集局部采集的實驗
本實驗主要針對密集局部采集進行了實驗。實驗結(jié)果顯示,三種NeRF算法在訓(xùn)練和測試相同分布位置的子集時表現(xiàn)良好,但在來自不同密集采集子集的測試中,它們的表現(xiàn)有所不同。其中,Plenoxels在這種設(shè)置下表現(xiàn)不穩(wěn)定,而DVGO和Instant-NGP相對更具魯棒性。作者推測,這一差異可能是因為前兩種方法中的MLP組件能夠從均勻分布的樣本中學(xué)到強烈的偏差,從而幫助它們推廣到幾乎未見過的半球區(qū)域。
6 結(jié)論
本文介紹了ScanNeRF作為一個可伸縮的神經(jīng)輻射場基準和神經(jīng)渲染框架的評估平臺。通過ScanNeRF的特殊劃分,作者在不同設(shè)置下研究了現(xiàn)代NeRF框架的潛力,并給研究社區(qū)提出了一些新的挑戰(zhàn)。我們相信ScanNeRF將促進神經(jīng)輻射場框架的研究。
-
CAN
+關(guān)注
關(guān)注
57文章
2836瀏覽量
466227 -
算法
+關(guān)注
關(guān)注
23文章
4682瀏覽量
94342 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40908 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1221瀏覽量
25195 -
元宇宙
+關(guān)注
關(guān)注
13文章
1401瀏覽量
11843
原文標題:WACV 2023 I 從ScanNeRF到元宇宙:神經(jīng)輻射場的未來
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦

首屆META2021元宇宙大會暨頒獎盛典上海引爆
首屆META2021元宇宙大會暨頒獎盛典上海引爆
大時代、大融合、大未來--META元宇宙頒獎盛典
元宇宙可以實現(xiàn)嗎
從互聯(lián)網(wǎng)到數(shù)字經(jīng)濟,元宇宙在商業(yè)領(lǐng)域有哪些應(yīng)用?
【洞見芯趨勢】2023年,元宇宙正迎來革命!
NeRF2NeRF神經(jīng)輻射場的配對配準介紹
元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
基于幾何分析的神經(jīng)輻射場編輯方法

評論