一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

動態(tài)環(huán)境中基于神經(jīng)隱式表示的RGB-D SLAM

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2024-01-17 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 原文摘要

神經(jīng)隱式表示已經(jīng)被探索用于增強視覺SLAM掩碼算法,特別是在提供高保真的密集地圖方面?,F(xiàn)有的方法在靜態(tài)場景中表現(xiàn)出強大的魯棒性,但卻難以應對移動物體造成的干擾。在本文中,我們提出了NID-SLAM,它顯著地提高了神經(jīng)SLAM掩碼在動態(tài)環(huán)境中的性能。我們提出了一種新的方法來增強語義掩碼中不準確的區(qū)域,特別是在邊緣區(qū)域。利用深度圖像中存在的幾何信息,這種方法能夠準確地移除動態(tài)物體,從而降低了相機漂移的概率。此外,我們還引入了一種針對動態(tài)場景的關鍵幀選擇策略,它提高了相機跟蹤對大尺度物體的魯棒性,并提高了建圖的效率。在公開的RGB-D數(shù)據(jù)集上的實驗表明,我們的方法在跟蹤精度和建圖質量方面優(yōu)于競爭的神經(jīng)SLAM方法。

8e955540-b4d8-11ee-8b88-92fbcf53809c.png

圖1. NID-SLAM在我們采集的大型動態(tài)場景上的三維重建結果。

2. 方法提出

視覺同時定位與地圖建構(SLAM)在各種應用中發(fā)揮著關鍵作用,如機器人導航、增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)。視覺SLAM算法利用傳感器(如單目、立體和RGB-D相機)收集的數(shù)據(jù)來估計先前未知環(huán)境中相機的姿態(tài),并逐步構建周圍場景的地圖。在各種視覺傳感器中,RGB-D相機同時記錄顏色和深度數(shù)據(jù),為三維環(huán)境信息的獲取提供了更有效和精確的基礎。這增強了大多數(shù)SLAM算法的三維重建性能。

最近的方法已經(jīng)將神經(jīng)隱式表示引入到SLAM中。最典型的例子就是神經(jīng)輻射場(NeRF),它將場景顏色和體素密度編碼到神經(jīng)網(wǎng)絡的權重中,直接從數(shù)據(jù)中學習場景細節(jié)的高頻信息,極大地增強了建圖的平滑性和連續(xù)性。結合基于體積表示的渲染方法,通過訓練,NeRF可以重新合成輸入圖像,并推廣到相鄰未見的視點。

但是,這些神經(jīng)SLAM算法是基于靜態(tài)環(huán)境的假設,其中一些可以處理合成場景中的小動態(tài)物體。在真實的動態(tài)場景中,這些算法可能會由于動態(tài)物體的存在而在稠密重建和相機跟蹤精度方面出現(xiàn)顯著的性能下降。這可能在很大程度上是由于動態(tài)物體導致的數(shù)據(jù)關聯(lián)不正確,嚴重破壞了跟蹤過程中的姿態(tài)估計。此外,動態(tài)物體的信息通常會合并到地圖中,妨礙其長期適用性。

語義信息已經(jīng)在許多研究中被引入到動態(tài)場景中的視覺SLAM算法中。其主要思想是將語義信息與幾何約束相結合以消除場景中的動態(tài)物體。然而,一方面,由于場景中靜態(tài)信息的減少,這些算法中的地圖質量和內在聯(lián)系較差。另一方面,由于缺乏對未觀測區(qū)域的合理幾何預測能力,這些算法通常存在恢復背景中可觀的空洞。

為了解決這個問題,我們提出了神經(jīng)隱式動態(tài)SLAM(NID-SLAM)。我們整合精度提高的深度信息與語義分割以檢測和移除動態(tài)物體,并通過將靜態(tài)地圖投影到當前幀中以填補這些物體遮擋的背景。

8eaa5e7c-b4d8-11ee-8b88-92fbcf53809c.png

圖2. 系統(tǒng)概覽。1) 動態(tài)物體移除:通過使用語義分割和掩碼修正,精確地消除RGB-D圖像中的動態(tài)物體,然后徹底恢復被遮擋的背景。2) 跟蹤:通過最小化損失來優(yōu)化相機姿態(tài){R, t}。3) 建圖:采用基于掩碼的策略來選擇關鍵幀,用于優(yōu)化特征網(wǎng)格場景表示。4) 場景表示:通過表面聚焦的點采樣,實現(xiàn)預測的顏色和深度值的高效渲染。

3. 方法詳解

圖2展示了NID-SLAM的總體框架。給定RGB-D圖像流作為輸入,我們首先使用專門的動態(tài)處理過程移除動態(tài)物體。隨后,我們通過聯(lián)合優(yōu)化相機姿勢和神經(jīng)場景表示來完成跟蹤和建圖。利用語義先驗和深度信息,消除動態(tài)物體,并通過靜態(tài)地圖修復這些物體遮擋的背景。在每次建圖迭代中,選擇關鍵幀以優(yōu)化場景表示和相機姿態(tài)。渲染是通過對查看射線進行采樣并在這些射線上各點處集成預測值來執(zhí)行的。

3.1 動態(tài)物體移除

深度修正:由于深度相機的局限性,物體與相機之間距離增加時的深度估計精度會降低。存在顯著誤差的深度信息可能導致不正確的數(shù)據(jù)關聯(lián),破壞相機跟蹤的穩(wěn)定性。在高度動態(tài)環(huán)境中,這些不準確性變得更加明顯,增加相機漂移的概率。此外,由于深度信息中的錯誤,構建的地圖可能會出現(xiàn)分層現(xiàn)象,其中本應位于相同深度的圖像塊在地圖上表示為不同深度。因此,我們檢測并刪除不準確的深度信息。具體來說,我們計算深度圖的圖像梯度,并將這些梯度用作評估深度信息準確性的指標。當圖像的水平或垂直梯度超過預定義閾值時,說明深度存在顯著變化,我們將梯度方向上后續(xù)像素點的深度設置為零,以減輕深度誤差。

基于深度的語義分割:為了檢測動態(tài)物體,我們采用基于邊界框的網(wǎng)絡進行輸入圖像的語義分割,在我們的實驗中使用YOLO算法。該網(wǎng)絡以RGB原始圖像為輸入,并輸出圖像中潛在動態(tài)或可移動物體的二進制掩碼。語義掩碼存在兩個主要缺點。首先,它們可能無法完全覆蓋動態(tài)物體,有時會并入環(huán)境中的其他物體。其次,掩碼在邊界區(qū)域容易出錯。因此,我們利用深度信息細化掩碼。對于原始掩碼的每個邊界點,我們檢查以其為中心的五像素半徑區(qū)域,計算該區(qū)域內掩碼中像素的深度值范圍。對于此區(qū)域內的掩碼部分,我們計算所有像素的深度值范圍。對于此區(qū)域外掩碼的像素,其深度值在計算的范圍內的像素被認為是掩碼的一部分,并隨后被整合。

背景修復:對于移除的動態(tài)物體,我們使用從以前的視點獲得的靜態(tài)信息來修復被遮擋的背景,合成一個沒有動態(tài)物體的逼真圖像。修復后的圖像包含更多的場景信息,使地圖的外觀更準確,增強了相機跟蹤的穩(wěn)定性。利用先前幀和當前幀的已知位置,我們將一系列先前關鍵幀投影到當前幀的RGB和深度圖像的分割區(qū)域。由于這些區(qū)域要么尚未出現(xiàn)在場景中,要么已經(jīng)出現(xiàn)但沒有有效的深度信息,因此仍有一些區(qū)域保留未填充。圖1展示了我們自制數(shù)據(jù)集中用作輸入的三幀和最終重建的場景??梢宰⒁獾?,動態(tài)物體被成功刪除,大多數(shù)分割部分修復良好。

3.2 基于掩碼的關鍵幀選擇

對于跟蹤的輸入幀,我們選擇一組關鍵幀,表示為K。我們對關鍵幀的偏好傾向于:1) 動態(tài)物體比率較低的幀;2)與前一關鍵幀重疊率較低的幀。我們使用 和 分別表示輸入幀I的兩個比率。當這兩個比率之和小于閾值 時,我們將當前幀插入關鍵幀集。為了解決背景修復中的不準確性和遺漏信息,我們減少關鍵幀中的動態(tài)物體比例。這種方法確保整合更多可靠的信息,增強相機跟蹤的準確性和穩(wěn)定性。同時,關鍵幀之間的重疊更小可以使關鍵幀集包含更多場景信息。在靜態(tài)場景中,此策略默認為基于重疊比的選擇。

從K中選擇關鍵幀以優(yōu)化場景表示時,我們在基于覆蓋的和基于重疊的策略之間交替,旨在在優(yōu)化效率和質量之間取得平衡。基于覆蓋的策略傾向于覆蓋最大場景區(qū)域的幀,確保場景邊緣區(qū)域的全面優(yōu)化。但是,這種方法通常需要大量迭代才能優(yōu)化相對較小的邊緣區(qū)域,降低了整體優(yōu)化效率。它還會導致重復的選擇結果,因為幀的覆蓋面積是恒定的,覆蓋面積大的幀保持更高的優(yōu)先級。基于重疊的策略涉及從與當前幀視覺上重疊的關鍵幀中隨機選擇。為避免過度關注邊緣區(qū)域并反復優(yōu)化相同區(qū)域,我們首先使用基于覆蓋的策略優(yōu)化整個場景,然后多次使用基于重疊的策略,定期重復此過程。

3.3 場景表示和圖像渲染

wKgaomWnPkOAcrzOAAIgp9qF7-Y380.jpg

3.4 建圖和跟蹤

wKgZomWnPlmAELGRAADxH1tiVCM653.jpg

4. 實驗

本方法在公開的RGB-D數(shù)據(jù)集上進行了實驗,包括TUM RGB-D數(shù)據(jù)集和Replica數(shù)據(jù)集,并與現(xiàn)有的方法進行了比較。實驗結果表明,該方法在動態(tài)環(huán)境中的跟蹤精度和建圖質量方面都優(yōu)于其他的神經(jīng)SLAM方法。

8f028516-b4d8-11ee-8b88-92fbcf53809c.png

表1. TUM RGB-D數(shù)據(jù)集上的相機跟蹤結果。評估指標為ATE RMSE。 代表相應文獻中沒有提到對應的數(shù)值。

8f0f4efe-b4d8-11ee-8b88-92fbcf53809c.png

表2. TUM數(shù)據(jù)集上的平移RPE RMSE結果。

8f199350-b4d8-11ee-8b88-92fbcf53809c.png

表3. TUM數(shù)據(jù)集上的旋轉RPE RMSE結果。

8f33031c-b4d8-11ee-8b88-92fbcf53809c.png

圖3. TUM RGB-D數(shù)據(jù)集上的重建結果。紅框標出有動態(tài)物體的區(qū)域。

8f905486-b4d8-11ee-8b88-92fbcf53809c.png

圖4. Replica數(shù)據(jù)集上的重建結果。紅框標出改進的區(qū)域。

8fb0ea20-b4d8-11ee-8b88-92fbcf53809c.png

表4. Replica數(shù)據(jù)集上的重建結果(8個場景的平均值)。

8fc1266a-b4d8-11ee-8b88-92fbcf53809c.png

表5. 消融實驗結果。

5. 結論

我們介紹了NID-SLAM,這是一種動態(tài)RGB-D神經(jīng)SLAM方法。我們證明神經(jīng)SLAM能夠在動態(tài)場景中實現(xiàn)高質量的建圖和可信的孔填充。利用動態(tài)物體移除,我們的方法實現(xiàn)了穩(wěn)定的相機跟蹤并創(chuàng)建可重復使用的靜態(tài)地圖。準確獲得的無動態(tài)物體圖像也可以在進一步的應用中使用,如機器人導航。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29735

    瀏覽量

    212859
  • RGB
    RGB
    +關注

    關注

    4

    文章

    807

    瀏覽量

    59929
  • 編解碼器
    +關注

    關注

    0

    文章

    274

    瀏覽量

    24758
  • SLAM
    +關注

    關注

    24

    文章

    441

    瀏覽量

    32503
  • MLP
    MLP
    +關注

    關注

    0

    文章

    57

    瀏覽量

    4618

原文標題:NID-SLAM:動態(tài)環(huán)境中基于神經(jīng)隱式表示的RGB-D SLAM

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    2D解析

    《Fundamentals of Computer Graphics》翻譯(三):2D直線
    發(fā)表于 09-03 12:19

    如何去開發(fā)一款基于RGB-D相機與機械臂的三維重建無序抓取系統(tǒng)

    基于RGB-D相機與機械臂的三維重建無序抓取系統(tǒng)有哪些關鍵技術?如何去開發(fā)一款基于RGB-D相機與機械臂的三維重建無序抓取系統(tǒng)?基于RGB-D相機與機械臂的三維重建無序抓取系統(tǒng)是由哪些部分組成的?
    發(fā)表于 09-08 06:12

    基于RGB-D圖像物體識別方法

    圖像塊間匹配核函數(shù)基礎上,應用核主成分分析法提取RGB-D圖像的3D形狀、尺寸、邊緣、顏色等多個互補性核描述子;然后,分別對它們進行LLC編碼及空間池化處理以形成相應的圖像編碼向量;最后,把這些圖像編碼向量融合成具有魯棒性、區(qū)分性的圖像
    發(fā)表于 12-07 10:22 ?1次下載
    基于<b class='flag-5'>RGB-D</b>圖像物體識別方法

    RGB-D圖像是什么

    RGB-D圖像其實是兩幅圖像。
    的頭像 發(fā)表于 11-01 11:46 ?1.9w次閱讀

    基于UWB、里程計和RGB-D融合的室內定位方法

    的思想,僅消耗極少部分的計算資源就可以將各個傳感器融合起來,提高了系統(tǒng)精度。實驗結果表明,該方法可以將定位誤差抑制在10cm以內將偏轉角誤差抑制在1以內,徹底解決單一RGB-D攝像頭SLAM時跟蹤失敗的問題。
    發(fā)表于 04-25 14:47 ?14次下載
    基于UWB、里程計和<b class='flag-5'>RGB-D</b>融合的室內定位方法

    用于SLAM神經(jīng)隱含可擴展編碼

    我們提出了NICE-SLAM,一個密集的RGB-D SLAM系統(tǒng),它具有實時性、可擴展性、預測性和對各種挑戰(zhàn)性場景的魯棒性。
    的頭像 發(fā)表于 01-30 11:19 ?1005次閱讀

    用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf

    我們提出了GO-Surf,一種直接的特征網(wǎng)格優(yōu)化方法,用于從RGB-D序列準確和快速地重建表面。
    的頭像 發(fā)表于 03-17 16:35 ?1007次閱讀

    基于RGB-D相機的三維重建和傳統(tǒng)SFM和SLAM算法有什么區(qū)別?

    輸入數(shù)據(jù)流不同。在基于RGB-D相機的三維重建中,輸入有深度信息和彩色信息,并且深度信息起主導作用,而在SLAM和SFM算法輸入的是主要是彩色信息,個別工作也有結合深度信息。
    發(fā)表于 03-23 12:28 ?1678次閱讀

    用于神經(jīng)SLAM的矢量化對象建圖

    vMAP 是一種基于神經(jīng)場的對象級密集 SLAM 系統(tǒng),可根據(jù) RGB-D 輸入流實時自動構建對象級場景模型。
    的頭像 發(fā)表于 06-15 09:29 ?1130次閱讀
    用于<b class='flag-5'>神經(jīng)</b>場<b class='flag-5'>SLAM</b>的矢量化對象建圖

    瞄準AGV/AMR領域-維感科技發(fā)布高性價比RGB-D ToF相機DS86/87

    維感科技于近期正式對外發(fā)售極具性價比的3D ToF RGB-D深度相機新品DS86/87,零售價格分別為4,199元與4,999元。
    發(fā)表于 06-16 09:40 ?780次閱讀
    瞄準AGV/AMR領域-維感科技發(fā)布高性價比<b class='flag-5'>RGB-D</b> ToF相機DS86/87

    一個動態(tài)環(huán)境下的實時語義RGB-D SLAM系統(tǒng)

    大多數(shù)現(xiàn)有的視覺SLAM方法嚴重依賴于靜態(tài)世界假設,在動態(tài)環(huán)境很容易失效。本文提出了一個動態(tài)環(huán)境
    的頭像 發(fā)表于 08-25 16:49 ?1073次閱讀
    一個<b class='flag-5'>動態(tài)</b><b class='flag-5'>環(huán)境</b>下的實時語義<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>系統(tǒng)

    一種基于RGB-D圖像序列的協(xié)同神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

    提出了一種基于RGB-D圖像序列的協(xié)同神經(jīng)同步定位與建圖(SLAM)系統(tǒng),該系統(tǒng)由完整的前端和后端模塊組成,包括里程計、回環(huán)檢測、子圖融
    的頭像 發(fā)表于 11-29 10:35 ?945次閱讀
    一種基于<b class='flag-5'>RGB-D</b>圖像序列的協(xié)同<b class='flag-5'>隱</b><b class='flag-5'>式</b><b class='flag-5'>神經(jīng)</b>同步定位與建圖(<b class='flag-5'>SLAM</b>)系統(tǒng)

    常用的RGB-D SLAM解決方案

    BundleFusion是一種稠密的實時室內場景三維重建算法框架。輸入為RGB-D相機采集的并且是對齊好的RGB圖像和深度圖的數(shù)據(jù)流。輸出為重建好的稠密三維場景模型。
    的頭像 發(fā)表于 04-16 09:37 ?1555次閱讀
    常用的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>解決方案

    一種適用于動態(tài)環(huán)境的3DGS-SLAM系統(tǒng)

    當前基于神經(jīng)輻射場(NeRF)或3D高斯?jié)姙R(3DGS)的SLAM方法在重建靜態(tài)3D場景方面表現(xiàn)出色,但在動態(tài)
    的頭像 發(fā)表于 06-13 10:10 ?288次閱讀
    一種適用于<b class='flag-5'>動態(tài)</b><b class='flag-5'>環(huán)境</b>的3DGS-<b class='flag-5'>SLAM</b>系統(tǒng)

    一種適用于動態(tài)環(huán)境的實時RGB-D SLAM系統(tǒng)

    了UP-SLAM,這是一種適用于動態(tài)環(huán)境的實時RGB-D SLAM系統(tǒng)。實驗結果表明,UP-SLAM
    的頭像 發(fā)表于 07-04 15:14 ?206次閱讀
    一種適用于<b class='flag-5'>動態(tài)</b><b class='flag-5'>環(huán)境</b>的實時<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>系統(tǒng)