青青艹成人在线视频,91伊人免费视频在线

近期用于視覺SLAM的3D高斯?jié)姙R（3DGS）技術在跟蹤和高保真建圖方面取得了顯著進展。然而，其順序優(yōu)化框架以及對動態(tài)物體的敏感性限制了其在現(xiàn)實場景中的實時性能和魯棒性。為此，我們提出了UP-SLAM，這是一種適用于動態(tài)環(huán)境的實時RGB-D SLAM系統(tǒng)。實驗結果表明，UP-SLAM在定位精度方面（高出59.8%）和渲染質(zhì)量方面（峰值信噪比高出4.57分貝）均優(yōu)于最先進的方法，同時保持實時性能，并在動態(tài)環(huán)境中生成可重復使用且無偽影的靜態(tài)地圖。

? 文章：

UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

? 作者：

Wancai Zheng, Linlin Ou, Jiajie He, Libo Zhou, Xinyi Yu, Yan Wei

? 論文鏈接：

https://arxiv.org/abs/2505.22335

? 編譯：

INDEMIND

01 本文核心內(nèi)容

視覺SLAM是具身智能和虛擬現(xiàn)實的核心技術。傳統(tǒng)的SLAM算法通常假設環(huán)境是靜態(tài)的，這促進了眾多有效系統(tǒng)的開發(fā)。然而，這種假設限制了SLAM在動態(tài)現(xiàn)實環(huán)境中的適用性，從而阻礙了機器人技術及相關領域的進步。近期的SLAM方法利用物體檢測和多視圖幾何理論來降低動態(tài)物體的影響。盡管這些方法增強了系統(tǒng)在動態(tài)環(huán)境中的魯棒性，但它們嚴重依賴于對動態(tài)物體的先驗知識以及檢測算法的可靠性。高保真場景表示技術的進步，如神經(jīng)輻射場（NeRF）和3D高斯?jié)姙R（3DGS），激發(fā)了將不確定性建模引入3D重建的探索。

近期的研究表明，納入不確定性預測能夠顯著增強對瞬態(tài)場景元素的魯棒性。這些具有不確定性感知能力的模型即使在間歇性遮擋的情況下也能實現(xiàn)高質(zhì)量的重建。然而，這些方法依賴于有利條件，例如精確的相機姿態(tài)和稀疏的視角，這在使用連續(xù)幀輸入的SLAM系統(tǒng)中很難實現(xiàn)。為了解決這些挑戰(zhàn)，我們提出了一種名為UP-SLAM的實時RGB-D SLAM系統(tǒng)，用于動態(tài)環(huán)境中的穩(wěn)健姿態(tài)估計和靜態(tài)場景重建。

我們的方法將3DGS壓縮為由多個淺層多層感知機（MLP）編碼的結構化錨點。引入概率八叉樹以實現(xiàn)錨點的自適應調(diào)整，從而刪除由動態(tài)物體引起的冗余錨點。此外，通過將運動掩碼生成與地圖優(yōu)化解耦，UP-SLAM實現(xiàn)了同步跟蹤和建圖，支持實時定位。在跟蹤過程中，我們提出了一種無需訓練、基于優(yōu)化的多模態(tài)一致性估計方法，該方法融合了幾何線索與DINO特征，以實現(xiàn)有效的動態(tài)物體識別。在映射過程中，為了進一步增強動態(tài)條件下的重建效果，設計了一種利用正弦位置編碼的時間編碼器，將幀間信息嵌入到多層感知機（MLP）中，從而提高表示能力。此外，動態(tài)對象在不同幀中不一致的外觀和運動為不確定性預測提供了有價值的線索。因此，將魯棒的DINO特征輸入到淺層MLP中進行逐像素不確定性估計，從而實現(xiàn)連續(xù)的運動掩碼細化，并增強重建的魯棒性。

本文的貢獻可概括為：

?提出了一種不確定性感知的并行跟蹤與映射框架，無需依賴預定義的語義標注即可有效減輕動態(tài)干擾，從而構建高質(zhì)量、無偽影的靜態(tài)地圖。

?提出了一種具有概率八叉樹的自適應結構化3DGS場景表示，支持在動態(tài)環(huán)境中自動分配或修剪高斯基元。這種方法提高了定位精度并減小了模型大小。

?將方法整合到ORB-SLAM3中，并在多個數(shù)據(jù)集上進行了全面評估。此外，還引入了一種在動態(tài)環(huán)境中評估渲染質(zhì)量的協(xié)議。

?項目地址：https://aczheng-cai.github.io/up_slam.github.io/

02 方法架構

圖2展示了UP-SLAM系統(tǒng)的概覽。

UP-SLAM以一系列RGB和深度圖像作為輸入，并采用并行化的跟蹤和建圖架構來提高整體效率。在跟蹤線程中，系統(tǒng)執(zhí)行實時定位并生成用于建圖的關鍵幀。動態(tài)區(qū)域檢測由來自建圖線程的多模態(tài)殘差引導，從而實現(xiàn)穩(wěn)健且實時的跟蹤。建圖線程采用概率錨點來構建自適應結構化的3DGS表示，這在減小模型大小的同時提高了重建質(zhì)量。為了在動態(tài)環(huán)境中提高建圖質(zhì)量，從DINOv2中提取的穩(wěn)健2D視覺特征被蒸餾到3DGS表示中以構建多模態(tài)殘差，這些殘差監(jiān)督淺層MLP進行逐像素不確定性預測，并實現(xiàn)運動掩碼的持續(xù)優(yōu)化。

03 實驗結果

1. 實驗設置

為了證明所提方法的優(yōu)勢，我們將它與16種方法進行了比較，這些方法按以下類別劃分：

（a）經(jīng)典SLAM方法：ORB-SLAM3；

（b）經(jīng)典動態(tài)SLAM方法：ReFusion、DynaSLAM、EM-Fusion；

（c）基于NeRF的SLAM方法：iMAP、NICE-SLAM、Vox-Fusion、Co-SLAM、ESLAM；

（d）基于NeRF的動態(tài)SLAM：RoDyn-SLAM；

（e）基于3DGS的SLAM：Photo-SLAM、GS-SLAM、SplaTAM；

（f）基于3DGS的動態(tài)SLAM方法：DG-SLAM、Gassidy、WildGS-SLAM。

所有方法均使用動態(tài)數(shù)據(jù)集進行評估，具體包括TUMRGB-D數(shù)據(jù)集、波恩RGB-D數(shù)據(jù)集以及MoCapRGB-D數(shù)據(jù)集，此外還使用了一個靜態(tài)環(huán)境數(shù)據(jù)集ScanNet數(shù)據(jù)集。對于非開源方法，我們報告原始結果；對于開源方法，我們報告五次運行的平均結果。加粗字體表示最佳結果，下劃線表示次優(yōu)結果。我們從每個類別中選取了具有代表性的基線方法。

2. 跟蹤性能評估

動態(tài)場景

與DG-SLAM相比，我們的方法在定位精度上平均提高了59.8%。值得注意的是，如表2所示，其平均定位精度提高了84.7%，這主要是因為DG-SLAM基于歷史幾何信息實現(xiàn)了開放集能力，但在復雜的動態(tài)環(huán)境中不夠穩(wěn)健。盡管DynaSLAM在表3中表現(xiàn)良好，這是由于其預定義的動態(tài)物體處理策略，但在表1、2中出現(xiàn)了明顯的漂移。這種性能下降源于這些數(shù)據(jù)集中存在大量難以預先定義的動態(tài)物體，尤其是在表2和雨傘（Umb.）序列中。

靜態(tài)場景

在公開的靜態(tài)ScanNet數(shù)據(jù)集上對UP-SLAM進行評估，以檢驗其魯棒性。雖然動態(tài)物體識別被用于提高動態(tài)環(huán)境中的SLAM系統(tǒng)的魯棒性，但識別不準確可能會對靜態(tài)場景中的定位精度產(chǎn)生不利影響。如表5所示，我們的方法在定位精度上比為靜態(tài)環(huán)境設計的SLAM系統(tǒng)平均提高了10.2%。此外，它還實現(xiàn)了8.1%的提升。與同樣適用于動態(tài)場景的DG-SLAM相比，平均改進情況。結果表明，我們的方法在靜態(tài)和動態(tài)環(huán)境中均保持了強勁的性能。

3. 映射性能評估

如表6所示，我們的方法在渲染質(zhì)量方面取得了顯著提升，峰值信噪比（PSNR）平均提高了5.47分貝。Photo-SLAM的渲染質(zhì)量與WildGSSLAM相當，這主要得益于其在低動態(tài)序列（例如Ball_track和Mv_box2）中的魯棒性。然而，在高度動態(tài)的環(huán)境中，定位失敗削弱了渲染結果的實際意義。此外，DG-SLAM缺乏穩(wěn)健的高斯基元初始化策略，導致重建不完整，顯著降低了渲染質(zhì)量。圖4提供了渲染結果的視覺比較。兩種靜態(tài)SLAM方法，SplaTAM和Photo-SLAM，無法生成靜態(tài)地圖。DG-SLAM和單目動態(tài)SLAM方法WildGS-SLAM均存在不同程度的失敗。相比之下，UP-SLAM能夠有效去除動態(tài)物體，并構建出高保真、無偽影的靜態(tài)地圖。