1. 原文摘要
神經(jīng)隱式表示已經(jīng)被探索用于增強視覺SLAM掩碼算法,特別是在提供高保真的密集地圖方面?,F(xiàn)有的方法在靜態(tài)場景中表現(xiàn)出強大的魯棒性,但卻難以應對移動物體造成的干擾。在本文中,我們提出了NID-SLAM,它顯著地提高了神經(jīng)SLAM掩碼在動態(tài)環(huán)境中的性能。我們提出了一種新的方法來增強語義掩碼中不準確的區(qū)域,特別是在邊緣區(qū)域。利用深度圖像中存在的幾何信息,這種方法能夠準確地移除動態(tài)物體,從而降低了相機漂移的概率。此外,我們還引入了一種針對動態(tài)場景的關鍵幀選擇策略,它提高了相機跟蹤對大尺度物體的魯棒性,并提高了建圖的效率。在公開的RGB-D數(shù)據(jù)集上的實驗表明,我們的方法在跟蹤精度和建圖質量方面優(yōu)于競爭的神經(jīng)SLAM方法。
圖1. NID-SLAM在我們采集的大型動態(tài)場景上的三維重建結果。
2. 方法提出
視覺同時定位與地圖建構(SLAM)在各種應用中發(fā)揮著關鍵作用,如機器人導航、增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)。視覺SLAM算法利用傳感器(如單目、立體和RGB-D相機)收集的數(shù)據(jù)來估計先前未知環(huán)境中相機的姿態(tài),并逐步構建周圍場景的地圖。在各種視覺傳感器中,RGB-D相機同時記錄顏色和深度數(shù)據(jù),為三維環(huán)境信息的獲取提供了更有效和精確的基礎。這增強了大多數(shù)SLAM算法的三維重建性能。
最近的方法已經(jīng)將神經(jīng)隱式表示引入到SLAM中。最典型的例子就是神經(jīng)輻射場(NeRF),它將場景顏色和體素密度編碼到神經(jīng)網(wǎng)絡的權重中,直接從數(shù)據(jù)中學習場景細節(jié)的高頻信息,極大地增強了建圖的平滑性和連續(xù)性。結合基于體積表示的渲染方法,通過訓練,NeRF可以重新合成輸入圖像,并推廣到相鄰未見的視點。
但是,這些神經(jīng)SLAM算法是基于靜態(tài)環(huán)境的假設,其中一些可以處理合成場景中的小動態(tài)物體。在真實的動態(tài)場景中,這些算法可能會由于動態(tài)物體的存在而在稠密重建和相機跟蹤精度方面出現(xiàn)顯著的性能下降。這可能在很大程度上是由于動態(tài)物體導致的數(shù)據(jù)關聯(lián)不正確,嚴重破壞了跟蹤過程中的姿態(tài)估計。此外,動態(tài)物體的信息通常會合并到地圖中,妨礙其長期適用性。
語義信息已經(jīng)在許多研究中被引入到動態(tài)場景中的視覺SLAM算法中。其主要思想是將語義信息與幾何約束相結合以消除場景中的動態(tài)物體。然而,一方面,由于場景中靜態(tài)信息的減少,這些算法中的地圖質量和內在聯(lián)系較差。另一方面,由于缺乏對未觀測區(qū)域的合理幾何預測能力,這些算法通常存在恢復背景中可觀的空洞。
為了解決這個問題,我們提出了神經(jīng)隱式動態(tài)SLAM(NID-SLAM)。我們整合精度提高的深度信息與語義分割以檢測和移除動態(tài)物體,并通過將靜態(tài)地圖投影到當前幀中以填補這些物體遮擋的背景。
圖2. 系統(tǒng)概覽。1) 動態(tài)物體移除:通過使用語義分割和掩碼修正,精確地消除RGB-D圖像中的動態(tài)物體,然后徹底恢復被遮擋的背景。2) 跟蹤:通過最小化損失來優(yōu)化相機姿態(tài){R, t}。3) 建圖:采用基于掩碼的策略來選擇關鍵幀,用于優(yōu)化特征網(wǎng)格場景表示。4) 場景表示:通過表面聚焦的點采樣,實現(xiàn)預測的顏色和深度值的高效渲染。
3. 方法詳解
圖2展示了NID-SLAM的總體框架。給定RGB-D圖像流作為輸入,我們首先使用專門的動態(tài)處理過程移除動態(tài)物體。隨后,我們通過聯(lián)合優(yōu)化相機姿勢和神經(jīng)場景表示來完成跟蹤和建圖。利用語義先驗和深度信息,消除動態(tài)物體,并通過靜態(tài)地圖修復這些物體遮擋的背景。在每次建圖迭代中,選擇關鍵幀以優(yōu)化場景表示和相機姿態(tài)。渲染是通過對查看射線進行采樣并在這些射線上各點處集成預測值來執(zhí)行的。
3.1 動態(tài)物體移除
深度修正:由于深度相機的局限性,物體與相機之間距離增加時的深度估計精度會降低。存在顯著誤差的深度信息可能導致不正確的數(shù)據(jù)關聯(lián),破壞相機跟蹤的穩(wěn)定性。在高度動態(tài)環(huán)境中,這些不準確性變得更加明顯,增加相機漂移的概率。此外,由于深度信息中的錯誤,構建的地圖可能會出現(xiàn)分層現(xiàn)象,其中本應位于相同深度的圖像塊在地圖上表示為不同深度。因此,我們檢測并刪除不準確的深度信息。具體來說,我們計算深度圖的圖像梯度,并將這些梯度用作評估深度信息準確性的指標。當圖像的水平或垂直梯度超過預定義閾值時,說明深度存在顯著變化,我們將梯度方向上后續(xù)像素點的深度設置為零,以減輕深度誤差。
基于深度的語義分割:為了檢測動態(tài)物體,我們采用基于邊界框的網(wǎng)絡進行輸入圖像的語義分割,在我們的實驗中使用YOLO算法。該網(wǎng)絡以RGB原始圖像為輸入,并輸出圖像中潛在動態(tài)或可移動物體的二進制掩碼。語義掩碼存在兩個主要缺點。首先,它們可能無法完全覆蓋動態(tài)物體,有時會并入環(huán)境中的其他物體。其次,掩碼在邊界區(qū)域容易出錯。因此,我們利用深度信息細化掩碼。對于原始掩碼的每個邊界點,我們檢查以其為中心的五像素半徑區(qū)域,計算該區(qū)域內掩碼中像素的深度值范圍。對于此區(qū)域內的掩碼部分,我們計算所有像素的深度值范圍。對于此區(qū)域外掩碼的像素,其深度值在計算的范圍內的像素被認為是掩碼的一部分,并隨后被整合。
背景修復:對于移除的動態(tài)物體,我們使用從以前的視點獲得的靜態(tài)信息來修復被遮擋的背景,合成一個沒有動態(tài)物體的逼真圖像。修復后的圖像包含更多的場景信息,使地圖的外觀更準確,增強了相機跟蹤的穩(wěn)定性。利用先前幀和當前幀的已知位置,我們將一系列先前關鍵幀投影到當前幀的RGB和深度圖像的分割區(qū)域。由于這些區(qū)域要么尚未出現(xiàn)在場景中,要么已經(jīng)出現(xiàn)但沒有有效的深度信息,因此仍有一些區(qū)域保留未填充。圖1展示了我們自制數(shù)據(jù)集中用作輸入的三幀和最終重建的場景??梢宰⒁獾?,動態(tài)物體被成功刪除,大多數(shù)分割部分修復良好。
3.2 基于掩碼的關鍵幀選擇
對于跟蹤的輸入幀,我們選擇一組關鍵幀,表示為K。我們對關鍵幀的偏好傾向于:1) 動態(tài)物體比率較低的幀;2)與前一關鍵幀重疊率較低的幀。我們使用 和 分別表示輸入幀I的兩個比率。當這兩個比率之和小于閾值 時,我們將當前幀插入關鍵幀集。為了解決背景修復中的不準確性和遺漏信息,我們減少關鍵幀中的動態(tài)物體比例。這種方法確保整合更多可靠的信息,增強相機跟蹤的準確性和穩(wěn)定性。同時,關鍵幀之間的重疊更小可以使關鍵幀集包含更多場景信息。在靜態(tài)場景中,此策略默認為基于重疊比的選擇。
從K中選擇關鍵幀以優(yōu)化場景表示時,我們在基于覆蓋的和基于重疊的策略之間交替,旨在在優(yōu)化效率和質量之間取得平衡。基于覆蓋的策略傾向于覆蓋最大場景區(qū)域的幀,確保場景邊緣區(qū)域的全面優(yōu)化。但是,這種方法通常需要大量迭代才能優(yōu)化相對較小的邊緣區(qū)域,降低了整體優(yōu)化效率。它還會導致重復的選擇結果,因為幀的覆蓋面積是恒定的,覆蓋面積大的幀保持更高的優(yōu)先級。基于重疊的策略涉及從與當前幀視覺上重疊的關鍵幀中隨機選擇。為避免過度關注邊緣區(qū)域并反復優(yōu)化相同區(qū)域,我們首先使用基于覆蓋的策略優(yōu)化整個場景,然后多次使用基于重疊的策略,定期重復此過程。
3.3 場景表示和圖像渲染
3.4 建圖和跟蹤
4. 實驗
本方法在公開的RGB-D數(shù)據(jù)集上進行了實驗,包括TUM RGB-D數(shù)據(jù)集和Replica數(shù)據(jù)集,并與現(xiàn)有的方法進行了比較。實驗結果表明,該方法在動態(tài)環(huán)境中的跟蹤精度和建圖質量方面都優(yōu)于其他的神經(jīng)SLAM方法。
表1. TUM RGB-D數(shù)據(jù)集上的相機跟蹤結果。評估指標為ATE RMSE。 代表相應文獻中沒有提到對應的數(shù)值。
表2. TUM數(shù)據(jù)集上的平移RPE RMSE結果。
表3. TUM數(shù)據(jù)集上的旋轉RPE RMSE結果。
圖3. TUM RGB-D數(shù)據(jù)集上的重建結果。紅框標出有動態(tài)物體的區(qū)域。
圖4. Replica數(shù)據(jù)集上的重建結果。紅框標出改進的區(qū)域。
表4. Replica數(shù)據(jù)集上的重建結果(8個場景的平均值)。
表5. 消融實驗結果。
5. 結論
我們介紹了NID-SLAM,這是一種動態(tài)RGB-D神經(jīng)SLAM方法。我們證明神經(jīng)SLAM能夠在動態(tài)場景中實現(xiàn)高質量的建圖和可信的孔填充。利用動態(tài)物體移除,我們的方法實現(xiàn)了穩(wěn)定的相機跟蹤并創(chuàng)建可重復使用的靜態(tài)地圖。準確獲得的無動態(tài)物體圖像也可以在進一步的應用中使用,如機器人導航。
審核編輯:劉清
-
機器人
+關注
關注
213文章
29735瀏覽量
212859 -
RGB
+關注
關注
4文章
807瀏覽量
59929 -
編解碼器
+關注
關注
0文章
274瀏覽量
24758 -
SLAM
+關注
關注
24文章
441瀏覽量
32503 -
MLP
+關注
關注
0文章
57瀏覽量
4618
原文標題:NID-SLAM:動態(tài)環(huán)境中基于神經(jīng)隱式表示的RGB-D SLAM
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
如何去開發(fā)一款基于RGB-D相機與機械臂的三維重建無序抓取系統(tǒng)
基于RGB-D圖像物體識別方法

基于UWB、里程計和RGB-D融合的室內定位方法

用于SLAM的神經(jīng)隱含可擴展編碼
用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf
基于RGB-D相機的三維重建和傳統(tǒng)SFM和SLAM算法有什么區(qū)別?
瞄準AGV/AMR領域-維感科技發(fā)布高性價比RGB-D ToF相機DS86/87

一個動態(tài)環(huán)境下的實時語義RGB-D SLAM系統(tǒng)

一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

常用的RGB-D SLAM解決方案

一種適用于動態(tài)環(huán)境的3DGS-SLAM系統(tǒng)

一種適用于動態(tài)環(huán)境的實時RGB-D SLAM系統(tǒng)

評論