針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明,vSGraphs優(yōu)于當(dāng)前最先進(jìn)的VSLAM方法,在真實(shí)數(shù)據(jù)上平均降低3.38%的軌跡誤差,最大降幅達(dá)9.58%。同時(shí),所提出的框架還具有良好的可擴(kuò)展性,能夠處理大規(guī)模場(chǎng)景。此外,僅通過(guò)視覺(jué)特征,本框架實(shí)現(xiàn)的語(yǔ)義實(shí)體檢測(cè)精度即可媲美基于激光雷達(dá)的精密框架,表現(xiàn)出優(yōu)秀的環(huán)境驅(qū)動(dòng)型語(yǔ)義感知能力。
? 文章:
vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding
? 作者:
Ali Tourani, Saad Ejaz, Hriday Bavle, David Morilla-Cabello, Jose Luis Sanchez-Lopez, Holger Voos
? 論文鏈接:
https://arxiv.org/abs/2503.01783
? 編譯:
INDEMIND
01本文核心內(nèi)容
在SLAM的研究背景下,強(qiáng)大的環(huán)境理解作為機(jī)器人情境感知的核心基礎(chǔ),高度依賴傳感器數(shù)據(jù)的質(zhì)量和類型。雖然在SLAM中已采用了各種傳感模式(例如激光雷達(dá)和相機(jī)),但視覺(jué)傳感器提供了一種經(jīng)濟(jì)高效的解決方案,以確保豐富的地圖重建,形成了VSLAM專門類別。在視覺(jué)傳感器中,RGB-D相機(jī)提供了視覺(jué)和深度信息的豐富融合。這類傳感器解決了單目相機(jī)和激光雷達(dá)的局限性,生成密集的點(diǎn)云,以提供詳細(xì)的環(huán)境元素的空間信息、精確檢測(cè)、定位和建圖。為了增強(qiáng)VSLAM的能力,計(jì)算機(jī)視覺(jué)技術(shù)被整合進(jìn)來(lái),從語(yǔ)義場(chǎng)景理解算法到引入像ArUco標(biāo)記這樣的人工地標(biāo)。
除了利用視覺(jué)和深度數(shù)據(jù)豐富地圖之外,還可以采用各種方法將數(shù)據(jù)組織成易于理解的結(jié)構(gòu)。其中,場(chǎng)景圖是結(jié)構(gòu)化的表示形式,用于描述場(chǎng)景中的對(duì)象及其關(guān)系。通過(guò)將場(chǎng)景圖與VSLAM相結(jié)合,可以實(shí)現(xiàn)對(duì)環(huán)境的更高級(jí)理解,包括對(duì)象識(shí)別、關(guān)系推理和場(chǎng)景分類。這種結(jié)合不僅提高了地圖的質(zhì)量,還增強(qiáng)了機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航和交互能力。掃描環(huán)境記錄了“物體”的存在、其屬性以及相互關(guān)系。它們?yōu)閳?chǎng)景理解提供了更高層次的抽象,生成分層(即基于圖的)環(huán)境表示,概述了觀察到的物體之間的空間關(guān)聯(lián)。雖然有的方法側(cè)重于為可靠的環(huán)境解釋量身定制幾何和語(yǔ)義信息,但像S-Graphs這樣的其他工作則通過(guò)將場(chǎng)景圖直接納入SLAM來(lái)突破界限。S-Graphs在統(tǒng)一的優(yōu)化系統(tǒng)中使用激光雷達(dá)里程計(jì)和平面表面提取,而Hydra則從給定的傳感器數(shù)據(jù)(即相機(jī)姿態(tài)和點(diǎn)云)實(shí)時(shí)構(gòu)建3D場(chǎng)景圖。
受S-Graphs的啟發(fā),本文提出了一種實(shí)時(shí)VSLAM框架,名為視覺(jué)S-Graphs(vS-Graphs),它將場(chǎng)景圖生成直接集成到SLAM過(guò)程中。vS-Graphs是一個(gè)實(shí)時(shí)系統(tǒng),利用視覺(jué)和深度數(shù)據(jù)來(lái)增強(qiáng)地圖重建和相機(jī)姿態(tài)估計(jì)。它可靠地整合了“建筑組件”(即墻壁和地面表面)、“結(jié)構(gòu)元素”(即門、窗和柱子)以及“物體”(即家具和裝飾品)的信息,從而實(shí)現(xiàn)更精確的場(chǎng)景理解和地圖構(gòu)建。vS-Graphs將檢測(cè)到的房間和走廊及其關(guān)聯(lián)關(guān)系整合到重建的地圖中,以獲得更精確和結(jié)構(gòu)化的環(huán)境表示。因此,它利用檢測(cè)到的建筑組件作為較低層級(jí)的、由環(huán)境驅(qū)動(dòng)的語(yǔ)義實(shí)體來(lái)識(shí)別潛在的結(jié)構(gòu)元素,從而通過(guò)施加額外的語(yǔ)義約束來(lái)提高VSLAM系統(tǒng)的精度。最終,vS-Graphs生成具有分層優(yōu)化能力的可理解的3D場(chǎng)景圖,將底層SLAM的機(jī)器人姿態(tài)與檢測(cè)到的實(shí)體相匹配,如圖1所示。它還可以利用(如果存在的話)基準(zhǔn)標(biāo)記,將元數(shù)據(jù)添加到檢測(cè)到的結(jié)構(gòu)元素中。
本文的貢獻(xiàn)可概括為:
? 一種實(shí)時(shí)多線程的VSLAM框架,在重建地圖的同時(shí)生成分層可優(yōu)化的3D場(chǎng)景圖。
? 一種基于視覺(jué)的識(shí)別和繪制建筑組件(即墻壁和地面表面)的方法,豐富了地圖內(nèi)容并減少了軌跡誤差。
? 一種從局部建筑組件中提取高級(jí)結(jié)構(gòu)元素(例如房間和走廊)的解決方案,以提高場(chǎng)景理解能力。
02方法架構(gòu)
在ORB-SLAM3的基礎(chǔ)上,vS-Graphs對(duì)其核心模塊進(jìn)行了重大修改,并添加了新的線程以實(shí)現(xiàn)穩(wěn)健的場(chǎng)景分析和重建。如圖2所示的系統(tǒng)架構(gòu)詳細(xì)說(shuō)明了各個(gè)線程、組件及其相互連接。當(dāng)前版本支持RGB-D輸入,利用深度數(shù)據(jù)實(shí)現(xiàn)穩(wěn)健的場(chǎng)景理解。其核心貢獻(xiàn)在于無(wú)縫集成兩個(gè)新穎的線程:“建筑組件識(shí)別”和“結(jié)構(gòu)元素識(shí)別”。這兩個(gè)線程在vS-Graphs中緊密集成,由其他線程觸發(fā),以豐富重建的地圖并實(shí)現(xiàn)最佳性能。
在核心部分,RGB-D數(shù)據(jù)實(shí)時(shí)處理,提供視覺(jué)和深度信息。同時(shí),“基準(zhǔn)標(biāo)記檢測(cè)”(本研究中使用ArUco庫(kù))獨(dú)立運(yùn)行于輸入幀上,檢測(cè)潛在的標(biāo)記,并將其唯一標(biāo)識(shí)符和姿態(tài)存儲(chǔ)在地圖管理器Atlas中。在“跟蹤”線程中,從連續(xù)幀中提取并跟蹤視覺(jué)特征。在此線程中,姿態(tài)信息要么被初始化,要么被優(yōu)化。根據(jù)地圖重建階段,創(chuàng)建包含跨幀跟蹤特征的3D地圖。最后,關(guān)鍵幀選擇這一關(guān)鍵步驟在特征提取之后通過(guò)分析視覺(jué)數(shù)據(jù)來(lái)執(zhí)行。這些關(guān)鍵幀包含3D地圖點(diǎn)、點(diǎn)云以及可能檢測(cè)到的基準(zhǔn)標(biāo)記,為后續(xù)處理奠定基礎(chǔ)。關(guān)鍵幀隨后被發(fā)送到“局部映射”線程進(jìn)行地圖整合和優(yōu)化,剔除定位不準(zhǔn)確的關(guān)鍵幀以提高精度。同時(shí),“建筑組件識(shí)別”線程通過(guò)處理關(guān)鍵幀級(jí)別的點(diǎn)云來(lái)識(shí)別和定位墻壁和地面表面?!敖Y(jié)構(gòu)元素識(shí)別”線程則以固定的時(shí)間間隔運(yùn)行,從活動(dòng)地圖中提取更高層次的實(shí)體,包括房間和走廊。最終,由于“閉環(huán)檢測(cè)”,如果當(dāng)前位置已被重新訪問(wèn),系統(tǒng)會(huì)校正或合并地圖,并在檢測(cè)到閉環(huán)時(shí)觸發(fā)“全局束調(diào)整”以優(yōu)化地圖。
03實(shí)驗(yàn)結(jié)果
1. 評(píng)估標(biāo)準(zhǔn)
評(píng)估是在配備英特爾i9-11950H處理器(2.60GHz)、4GBNVIDIAT600移動(dòng)GPU和32GB內(nèi)存的系統(tǒng)上進(jìn)行。vS-Graphs通過(guò)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試(真實(shí)和逼真)以及內(nèi)部專有數(shù)據(jù)集進(jìn)行了評(píng)估。內(nèi)部數(shù)據(jù)是使用一種名為AutoSense的定制手持/機(jī)器人可安裝設(shè)備收集的,該設(shè)備可同時(shí)記錄RGB-D視頻和激光雷達(dá)點(diǎn)云。收集的AutoSense數(shù)據(jù)集包含各種真實(shí)世界室內(nèi)環(huán)境的序列,其建筑布局各不相同,如圖4所示。在一些房間中戰(zhàn)略性地放置了ArUco標(biāo)準(zhǔn)標(biāo)記,以增強(qiáng)語(yǔ)義信息(即房間標(biāo)簽)。此外,數(shù)據(jù)集中的地面實(shí)況數(shù)據(jù)是通過(guò)S-Graphs生成的可靠激光雷達(dá)姿態(tài)和點(diǎn)云獲得的。由于篇幅限制,完整的評(píng)估結(jié)果和圖表可在https://snt-arg.github.io/vsgraphs-results/查看。
2. 軌跡估計(jì)與建圖性能
為了展示vS-Graphs的軌跡估計(jì)精度,將其與ORBSLAM3(基準(zhǔn))、ElasticFusion以及BADSLAM進(jìn)行了比較,因?yàn)樗鼈冊(cè)谝曈X(jué)同步定位與建圖(VSLAM)領(lǐng)域具有較強(qiáng)的魯棒性和廣泛的應(yīng)用。由于標(biāo)記依賴型和神經(jīng)場(chǎng)SLAM方法使用外部姿態(tài)約束并需要特征標(biāo)記來(lái)整合語(yǔ)義實(shí)體,這限制了它們?cè)跓o(wú)標(biāo)記數(shù)據(jù)實(shí)例中的適用性,因此未將其納入評(píng)估。此外,神經(jīng)RGB-D方法依賴于其學(xué)習(xí)到的場(chǎng)景先驗(yàn)知識(shí)和隱式表示,與所提出的映射策略不同。表1展示了評(píng)估結(jié)果,每個(gè)系統(tǒng)在數(shù)據(jù)集實(shí)例上進(jìn)行了八次運(yùn)行評(píng)估,性能通過(guò)絕對(duì)軌跡誤差(ATE)以米為單位進(jìn)行衡量。表1中的破折號(hào)表示由于跟蹤失敗而無(wú)法獲取的數(shù)據(jù)。
根據(jù)評(píng)估結(jié)果,vS-Graphs一直保持著最先進(jìn)的性能,在幾乎所有情況下都取得了最佳或次佳的結(jié)果。這種卓越的性能在較長(zhǎng)的軌跡中尤為明顯,真實(shí)世界的序列源自于整合從精確定位的建筑組件和結(jié)構(gòu)元素中得出的約束條件。雖然納入這些實(shí)體能夠增強(qiáng)軌跡估計(jì),但對(duì)其不準(zhǔn)確的映射和定位可能會(huì)對(duì)結(jié)果產(chǎn)生負(fù)面影響。這種情況主要與快速的相機(jī)運(yùn)動(dòng)(序列deer-gr)和有噪聲的點(diǎn)云數(shù)據(jù)(序列office1-7)有關(guān)。平均而言,vS-Graphs在所有序列中比基準(zhǔn)方法提高了3.38%。此外,通過(guò)將重建地圖的精度與AutoSense的真實(shí)數(shù)據(jù)進(jìn)行對(duì)比分析發(fā)現(xiàn),vS-Graphs在均方根誤差(RMSE)方面比ORB-SLAM3表現(xiàn)得更為穩(wěn)健。如圖5所示,vS-Graphs的中位RMSE始終更低,表明其整體映射精度更高。盡管vS-Graphs生成的地圖平均點(diǎn)數(shù)比基準(zhǔn)方法少約10.15%,但它仍實(shí)現(xiàn)了更優(yōu)的映射精度,這得益于其環(huán)境驅(qū)動(dòng)的約束條件,使得重建更加連貫。
3. 場(chǎng)景理解性能
本節(jié)評(píng)估了vSGraphs在語(yǔ)義場(chǎng)景理解方面的性能,能夠準(zhǔn)確檢測(cè)出解讀環(huán)境布局所必需的關(guān)鍵實(shí)體。為了對(duì)這一能力進(jìn)行基準(zhǔn)測(cè)試,使用了AutoSense數(shù)據(jù)集中包含多個(gè)房間的序列,因?yàn)樗鼈兲峁┝嘶贚iDAR數(shù)據(jù)的真實(shí)標(biāo)注。表2對(duì)vS-Graphs與兩種最先進(jìn)的方法進(jìn)行了定量比較:Hydra和S-Graphs。盡管S-Graphs受益于LiDAR點(diǎn)云的幾何精度,但Hydra被配置為使用視覺(jué)點(diǎn)云,以確保與我們純視覺(jué)的方法進(jìn)行公平比較。實(shí)驗(yàn)結(jié)果表明,盡管vSGraphs僅依賴視覺(jué)輸入,但在檢測(cè)建筑構(gòu)件和結(jié)構(gòu)元素方面,其準(zhǔn)確率與基于LiDAR的方法相當(dāng)。這突顯了其視覺(jué)特征處理和場(chǎng)景圖生成在高精度理解環(huán)境方面的有效性。需要注意的是,Hydra并未直接提供“墻”實(shí)體,因此Hydra的性能其評(píng)估基于正確“房間”元素的計(jì)數(shù)和識(shí)別。此外,當(dāng)前vS-Graphs的實(shí)現(xiàn)不包含“樓層”實(shí)體,因此在分析中予以舍棄。圖6對(duì)vS-Graphs、S-Graphs和Hydra在兩個(gè)數(shù)據(jù)集實(shí)例中生成的重建場(chǎng)景圖進(jìn)行了定性比較。
4. 運(yùn)行時(shí)分析
vS-Graphs實(shí)現(xiàn)了實(shí)時(shí)性能,平均處理速率為每秒22±3幀(FPS),超過(guò)了實(shí)時(shí)操作所需的20FPS閾值。這是通過(guò)多線程架構(gòu)實(shí)現(xiàn)的,如圖7所示。“跟蹤”線程在幀級(jí)別處理視覺(jué)特征,而“局部建圖”線程則同時(shí)對(duì)物體進(jìn)行建圖并優(yōu)化其位置?!皹?gòu)建組件識(shí)別”線程在關(guān)鍵幀級(jí)別并行運(yùn)行,從在線全景分割中識(shí)別潛在的墻壁和地面表面?!敖Y(jié)構(gòu)元素識(shí)別”線程運(yùn)行頻率較低且周期固定(每?jī)擅胍淮危糜谕茢嗟貓D中的房間和走廊。與在相同硬件和數(shù)據(jù)集上ORB-SLAM3的29±3FPS相比,vS-Graphs略微降低的幀率是其豐富語(yǔ)義場(chǎng)景理解能力的合理權(quán)衡。
04總結(jié)
本文介紹了vS-Graphs,這是一種實(shí)時(shí)的VSLAM框架,它利用可優(yōu)化的分層3D場(chǎng)景圖來(lái)重建機(jī)器人操作環(huán)境。為實(shí)現(xiàn)這一目標(biāo),該框架檢測(cè)建筑組件(如墻壁和地面),從中推斷出結(jié)構(gòu)元素(如房間和走廊),并將它們?nèi)空系椒謱颖硎局?。因此,除了通過(guò)整合這些有意義的實(shí)體來(lái)增強(qiáng)地圖重建外,vS-Graphs還提供了高級(jí)環(huán)境驅(qū)動(dòng)語(yǔ)義對(duì)象之間空間關(guān)系的結(jié)構(gòu)化和靈活表示。使用標(biāo)準(zhǔn)和內(nèi)部的室內(nèi)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)結(jié)果表明,與基線和最先進(jìn)的VSLAM方法相比,所提出的框架在真實(shí)世界收集的數(shù)據(jù)集實(shí)例中,將軌跡誤差降低了高達(dá)9.58%,從而實(shí)現(xiàn)了更優(yōu)的軌跡估計(jì)和建圖性能。其他評(píng)估表明,vS-Graphs處理的視覺(jué)特征能夠有效地識(shí)別描述環(huán)境布局的語(yǔ)義實(shí)體,其準(zhǔn)確性可與精確的激光雷達(dá)方法相媲美。未來(lái)的工作包括整合更多的建筑組件(例如天花板、窗戶和門道)以及結(jié)構(gòu)元素(例如地板),以豐富重建的地圖,同時(shí)擴(kuò)展對(duì)不規(guī)則房間布局(例如非矩形空間)和非線性墻壁(例如曲面)的檢測(cè)支持。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29607瀏覽量
212151 -
視覺(jué)傳感器
+關(guān)注
關(guān)注
3文章
265瀏覽量
23281 -
激光雷達(dá)
+關(guān)注
關(guān)注
971文章
4218瀏覽量
192385 -
VSLAM
+關(guān)注
關(guān)注
0文章
25瀏覽量
4500
原文標(biāo)題:語(yǔ)義豐富度超越現(xiàn)有VSLAM、精度媲美激光雷達(dá)!最新實(shí)時(shí)多線程VSLAM!
文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Java多線程的用法
RT-Thread嵌入式實(shí)時(shí)多線程操作系統(tǒng)介紹
基于USB和多線程的實(shí)時(shí)數(shù)據(jù)采集系統(tǒng)
NP多線程防火墻的設(shè)計(jì)與實(shí)現(xiàn)
QNX環(huán)境下多線程編程
多線程在VC++串口通信程序中的應(yīng)用
多線程技術(shù)在電能質(zhì)量實(shí)時(shí)監(jiān)控系統(tǒng)中的應(yīng)用
基于多線程的雷達(dá)數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)

一種支持同時(shí)多線程的VLIW DSP架構(gòu)
多線程細(xì)節(jié)問(wèn)題學(xué)習(xí)筆記

mfc多線程編程實(shí)例及代碼,mfc多線程間通信介紹

評(píng)論