一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種新的全景視覺里程計(jì)框架PVO

3D視覺工坊 ? 來源:自動(dòng)駕駛之心 ? 2023-05-09 16:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文提出了PVO,這是一種新的全景視覺里程計(jì)框架,用于實(shí)現(xiàn)場(chǎng)景運(yùn)動(dòng)、幾何和全景分割信息的更全面建模。提出的PVO在統(tǒng)一的視圖中對(duì)視覺里程計(jì)(VO)和視頻全景分割(VPS)進(jìn)行建模,這使得這兩項(xiàng)任務(wù)互惠互利。具體來說,在圖像全景分割的指導(dǎo)下,在VO模塊中引入了全景更新模塊。

該全景增強(qiáng)VO模塊可以通過全景感知?jiǎng)討B(tài)mask來減輕動(dòng)態(tài)目標(biāo)在相機(jī)姿態(tài)估計(jì)中的影響。另一方面,VO增強(qiáng)型VPS模塊還利用從VO模塊獲得的相機(jī)姿態(tài)、深度和光流等幾何信息,將當(dāng)前幀的全景分割結(jié)果融合到相鄰幀,從而提高了分割精度,這兩個(gè)模塊通過反復(fù)迭代優(yōu)化相互促進(jìn)。大量實(shí)驗(yàn)表明,PVO在視覺里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法。

eee0d53e-e63c-11ed-ab56-dac502259ad0.png

領(lǐng)域背景

了解場(chǎng)景的運(yùn)動(dòng)、幾何和全景分割在計(jì)算機(jī)視覺機(jī)器人技術(shù)中發(fā)揮著至關(guān)重要的作用,其應(yīng)用范圍從自動(dòng)駕駛到增強(qiáng)現(xiàn)實(shí),本文朝著解決這個(gè)問題邁出了一步,以實(shí)現(xiàn)單目視頻場(chǎng)景的更全面建模!已經(jīng)提出了兩項(xiàng)任務(wù)來解決這個(gè)問題,即視覺里程計(jì)(VO)和視頻全景分割(VPS)。特別地,VO[9,11,38]將單目視頻作為輸入,并在靜態(tài)場(chǎng)景假設(shè)下估計(jì)相機(jī)姿態(tài)。為了處理場(chǎng)景中的動(dòng)態(tài)對(duì)象,一些動(dòng)態(tài)SLAM系統(tǒng)使用實(shí)例分割網(wǎng)絡(luò)進(jìn)行分割,并明確過濾出某些類別的目標(biāo),這些目標(biāo)可能是動(dòng)態(tài)的,例如行人或車輛。

然而,這種方法忽略了這樣一個(gè)事實(shí),即潛在的動(dòng)態(tài)目標(biāo)實(shí)際上可能在場(chǎng)景中是靜止的,例如停放的車輛。相比之下,VPS專注于在給定一些初始全景分割結(jié)果的情況下,跨視頻幀跟蹤場(chǎng)景中的單個(gè)實(shí)例。當(dāng)前的VPS方法沒有明確區(qū)分目標(biāo)實(shí)例是否在移動(dòng),盡管現(xiàn)有的方法廣泛地獨(dú)立地解決了這兩個(gè)任務(wù),但值得注意的是,場(chǎng)景中的動(dòng)態(tài)目標(biāo)會(huì)使這兩項(xiàng)任務(wù)都具有挑戰(zhàn)性。認(rèn)識(shí)到兩個(gè)任務(wù)之間的這種相關(guān)性,一些方法試圖同時(shí)處理這兩個(gè)任務(wù),并以多任務(wù)的方式訓(xùn)練運(yùn)動(dòng)語義網(wǎng)絡(luò),如圖2所示。然而,這些方法中使用的損失函數(shù)可能相互矛盾,從而導(dǎo)致性能下降。

eeef5b7c-e63c-11ed-ab56-dac502259ad0.png

本文提出了一種新的全景視覺里程計(jì)(PVO)框架,該框架使用統(tǒng)一的視圖將這兩項(xiàng)任務(wù)緊密耦合,以對(duì)場(chǎng)景進(jìn)行全面建模。VPS可以利用全景分割信息調(diào)整VO的權(quán)重(每個(gè)實(shí)例的像素的權(quán)重應(yīng)該相互關(guān)聯(lián)),VO可以將視頻全景分割的跟蹤和融合從2D轉(zhuǎn)換為3D。受開創(chuàng)性的期望最大化算法的啟發(fā),遞歸迭代優(yōu)化策略可以使這兩項(xiàng)任務(wù)互惠互利。

PVO由三個(gè)模塊組成,一個(gè)圖像全景分割模塊、一個(gè)全景增強(qiáng)型VO模塊和一個(gè)VO增強(qiáng)型VPS模塊。全景分割模塊獲取單個(gè)圖像并輸出圖像全景分割結(jié)果,然后被饋送到全景增強(qiáng)VO模塊中作為初始化。注意,盡管本文選擇PanopticFPN,但任何分割模型都可以用于全景分割模塊。在全景增強(qiáng)VO模塊,提出了一個(gè)全景更新模塊來過濾動(dòng)態(tài)目標(biāo)的干擾,從而提高了動(dòng)態(tài)場(chǎng)景中姿態(tài)估計(jì)的準(zhǔn)確性。在VO增強(qiáng)的VPS模塊中,引入了一種在線融合機(jī)制,根據(jù)估計(jì)的姿態(tài)、深度和光流,將當(dāng)前幀的多分辨率特征與相鄰幀對(duì)齊,這種在線融合機(jī)制可以有效地解決多目標(biāo)遮擋的問題。實(shí)驗(yàn)表明,遞歸迭代優(yōu)化策略提高了VO和VPS的性能。本文的主要貢獻(xiàn)概括為四個(gè)方面:

1.本文提出了一種新的全景視覺里程計(jì)(PVO)框架,該框架可以將VO和VPS任務(wù)統(tǒng)一起來,對(duì)場(chǎng)景進(jìn)行全面建模;

2.引入全景更新模塊,并將其納入全景增強(qiáng)VO模塊,以改進(jìn)姿態(tài)估計(jì);

3.在VOEnhanced VPS模塊中提出了一種在線融合機(jī)制,有助于改進(jìn)視頻全景分割;

4.大量實(shí)驗(yàn)表明,提出的具有遞歸迭代優(yōu)化的PVO在視覺里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法;

1)視頻全景分割

視頻全景分割旨在生成一致的全景分割,并跟蹤視頻幀中所有像素的實(shí)例。作為一項(xiàng)先驅(qū)工作,VPSNet定義了這項(xiàng)新任務(wù),并提出了一種基于實(shí)例級(jí)跟蹤的方法。SiamTrack通過提出pixel-tube匹配損失和對(duì)比度損失來擴(kuò)展VPSNet,以提高實(shí)例嵌入的判別能力。VIPDeplab通過引入額外的深度信息,提供了一個(gè)深度感知VPS網(wǎng)絡(luò)。而STEP提出對(duì)視頻全景分割的每個(gè)像素進(jìn)行分割和跟蹤,HybridTracker提出從兩個(gè)角度跟蹤實(shí)例:特征空間和空間位置。與現(xiàn)有方法不同,本文引入了一種VO增強(qiáng)的VPS模塊,該模塊利用VO估計(jì)的相機(jī)姿態(tài)、深度和光流來跟蹤和融合從當(dāng)前幀到相鄰幀的信息,并可以處理遮擋。

2)SLAM和視覺里程計(jì)

SLAM同時(shí)進(jìn)行定位和地圖構(gòu)建,視覺里程計(jì)作為SLAM的前端,專注于姿態(tài)估計(jì)?,F(xiàn)代SLAM系統(tǒng)大致分為兩類,基于幾何的方法和基于學(xué)習(xí)的方法。由于基于監(jiān)督學(xué)習(xí)的方法具有良好的性能,基于無監(jiān)督學(xué)習(xí)的VO方法受到了廣泛的關(guān)注,但它們的性能不如有監(jiān)督的方法。一些無監(jiān)督方法利用多任務(wù)學(xué)習(xí)和深度和光流等輔助任務(wù)來提高性能。

最近,TartanVO提出建立一個(gè)可推廣基于學(xué)習(xí)的VO,并在具有挑戰(zhàn)性的SLAM數(shù)據(jù)集TartanAir上測(cè)試該系統(tǒng)。DROID-SLAM提出使用bundle adjustment層迭代更新相機(jī)姿態(tài)和像素深度,并展示了卓越的性能。DeFlowSLAM進(jìn)一步提出了dual-flow表示和自監(jiān)督方法,以提高SLAM系統(tǒng)在動(dòng)態(tài)場(chǎng)景中的性能。為了應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景的挑戰(zhàn),動(dòng)態(tài)SLAM系統(tǒng)通常利用語義信息作為約束但它們主要作用于stereo、RGBD或LiDAR序列。相反,本文引入了全景更新模塊,并在DROID-SLAM上構(gòu)建了全景增強(qiáng)型VO,可以用于單目視頻。這樣的組合可以更好地理解場(chǎng)景幾何和語義,從而對(duì)場(chǎng)景中的動(dòng)態(tài)對(duì)象更加魯棒。與其它多任務(wù)端到端模型不同,本文的PVO具有循環(huán)迭代優(yōu)化策略,可以防止任務(wù)相互干擾。

本文提出的方法

給定一個(gè)單目視頻,PVO的目標(biāo)是同時(shí)定位和全景3D映射。圖3描述了PVO模型的框架,它由三個(gè)主要模塊組成:圖像全景分割模塊、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。VO模塊旨在估計(jì)攝像機(jī)的姿態(tài)、深度和光流,而VPS模塊輸出相應(yīng)的視頻全景分割,最后兩個(gè)模塊以反復(fù)互動(dòng)的方式相互促進(jìn)!

eefd685c-e63c-11ed-ab56-dac502259ad0.png

1)圖像全景分割

圖像全景分割以單個(gè)圖像為輸入,輸出圖像的全景分割結(jié)果,將語義分割和實(shí)例分割相結(jié)合,對(duì)圖像的實(shí)例進(jìn)行綜合建模。輸出結(jié)果用于初始化視頻全景分割,然后輸入全景增強(qiáng)VO模塊。在本文的實(shí)驗(yàn)中,如果沒有特別指出,使用廣泛使用的圖像全景分割網(wǎng)絡(luò)PanopticFPN。PanopticFPN建立在具有權(quán)重θ_e的ResNetf_{θ_e}的主干上,并提取圖像的多尺度特征I_t:

ef099bea-e63c-11ed-ab56-dac502259ad0.png

它使用具有權(quán)重θ_d的解碼器g_{θ_d}輸出全景分割結(jié)果,該解碼器由語義分割和實(shí)例分割組成,每個(gè)像素p的全景分割結(jié)果為:

ef13f4f0-e63c-11ed-ab56-dac502259ad0.png

被饋送到解碼器中的多尺度特征隨著時(shí)間的推移而更新。一開始,編碼器生成的多尺度特征被直接輸入解碼器(圖3藍(lán)色部分)。在隨后的時(shí)間步長中,這些多尺度特征在被饋送到解碼器之前用在線特征融合模塊進(jìn)行更新。

2)全景增強(qiáng) VO 模塊

在視覺里程計(jì)中,動(dòng)態(tài)場(chǎng)景無處不在,過濾掉動(dòng)態(tài)目標(biāo)的干擾至關(guān)重要。DROID-SLAM的前端以單目視頻{{I_t}}^N_{t=0}為輸入,并優(yōu)化相機(jī)姿態(tài){G_t}^N_{t=0}∈SE(3)和反深度d_t∈R^{H×W}+,通過迭代優(yōu)化光流delta r{ij}∈R^{HW2}。它不考慮大多數(shù)背景是靜態(tài)的,前景目標(biāo)可能是動(dòng)態(tài)的,并且每個(gè)目標(biāo)的像素權(quán)重應(yīng)該是相關(guān)的。全景增強(qiáng)VO模塊(見圖4)是通過結(jié)合全景分割的信息,幫助獲得更好的置信度估計(jì)(見圖7),因此,全景增強(qiáng)VO可以獲得更精確的相機(jī)姿勢(shì)。接下來,將簡要回顧DROID-SLAM的類似部分(特征提取和相關(guān)性),并重點(diǎn)介紹全景更新模塊的復(fù)雜設(shè)計(jì)。

ef1c107c-e63c-11ed-ab56-dac502259ad0.png

ef22e38e-e63c-11ed-ab56-dac502259ad0.png

特征提取:與DROID-SLAM類似,全景增強(qiáng)VO模塊借用了RAFT的關(guān)鍵組件來提取特征。本文使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)(一個(gè)特征編碼器和一個(gè)上下文編碼器) 提取每個(gè)圖像的多尺度特征,其中利用特征編碼器的特征構(gòu)建成對(duì)圖像的4D相關(guān)volumes,并將上下文編碼器的特征注入全景更新模塊。特征編碼器的結(jié)構(gòu)類似于全景分割網(wǎng)絡(luò)的主干,并且它們可以使用共享編碼器。

相關(guān)金字塔和查找表:與DROIDSLAM類似,本文采用幀圖(V,E)來指示幀之間的共同可見性。例如,邊(i,j)∈E表示保持重疊區(qū)域的兩個(gè)圖像I_i和I_j,并且可以通過這兩個(gè)圖像的特征向量之間的點(diǎn)積來構(gòu)建4D相關(guān)volumes:

ef2e099e-e63c-11ed-ab56-dac502259ad0.png

遵循平均池化層以獲得金字塔相關(guān)性,本文使用DROID-SLAM中定義的相同查找運(yùn)算符來使用雙線性插值對(duì)金字塔相關(guān)volumes值進(jìn)行索引,這些相關(guān)特征被串聯(lián),從而產(chǎn)生最終的特征向量。Panoptic增強(qiáng)型VO模塊繼承了DROID-SLAM的前端VO模塊,利用全景分割信息來調(diào)整VO的權(quán)重。將通過將初始光流饋送到流編碼器而獲得的flow信息和從兩幀建立的4D相關(guān)volumes以及上下文編碼器獲取的特征作為中間變量饋送到GRU,然后三個(gè)卷積層輸出動(dòng)態(tài)掩碼M_{d_{ij}},相關(guān)置信度map w_{ij}和稠密光流delta r_{ij}。給定初始化的全景分割,可以將動(dòng)態(tài)掩碼調(diào)整為全景感知?jiǎng)討B(tài)掩碼,為了便于理解,保持符號(hào)不變。置信度和全景感知?jiǎng)討B(tài)掩碼通過全景感知濾波器模塊以獲得全景感知置信度:

ef34f61e-e63c-11ed-ab56-dac502259ad0.png

深度和動(dòng)態(tài)的殘差掩碼被添加到當(dāng)前深度和動(dòng)態(tài)掩碼,分別為:

ef407a02-e63c-11ed-ab56-dac502259ad0.png

ef672a12-e63c-11ed-ab56-dac502259ad0.png

Correspondence:首先在每次迭代中使用當(dāng)前的姿態(tài)和深度估計(jì)來搜索對(duì)應(yīng)關(guān)系。參考DROID-SLAM,對(duì)于幀i中的每個(gè)像素坐標(biāo)pi,幀圖中每個(gè)邊(i,j)∈E的稠密對(duì)應(yīng)域pij可以計(jì)算如下:

ef706e06-e63c-11ed-ab56-dac502259ad0.png

DBA層:使用DROID-SLAM中定義的密集束調(diào)整層(DBA)來map stream revisions,以更新當(dāng)前估計(jì)的逐像素深度和姿態(tài),成本函數(shù)可以定義如下:

ef7d1a0c-e63c-11ed-ab56-dac502259ad0.png

3)VO增強(qiáng)型VPS模塊

視頻全景分割旨在獲得每幀的全景分割結(jié)果,并保持幀間分割的一致性。為了提高分割精度和跟蹤精度,F(xiàn)useTrack等一些方法試圖利用光流信息對(duì)特征進(jìn)行融合,并根據(jù)特征的相似性進(jìn)行跟蹤。這些方法僅來自可能遇到遮擋或劇烈運(yùn)動(dòng)的2D視角。我們生活在一個(gè)3D世界中,可以使用額外的深度信息來更好地建模場(chǎng)景。本文的VO增強(qiáng)型VPS模塊正是基于這一理解,能夠更好地解決上述問題。

圖5顯示了VO增強(qiáng)型VPS模塊,該模塊通過使用從視覺里程計(jì)獲得的深度、姿態(tài)和光流信息,將前一幀t?1的特征wrap到當(dāng)前幀t,從而獲得wrap的特征。在線融合模塊將融合當(dāng)前幀t的特征和wrap的特征,以獲得融合的特征。為了保持視頻分割的一致性,首先將wrap的特征t?1(包含幾何運(yùn)動(dòng)信息)和融合的特征圖t輸入解碼器,分別獲得全景分割t?1和t,然后使用簡單的IoU匹配模塊來獲得一致的全景分割,該結(jié)果將被輸入Panoptic增強(qiáng)型VO模塊。

ef88ea62-e63c-11ed-ab56-dac502259ad0.png

4)遞歸迭代優(yōu)化

受EM算法的啟發(fā),可以以遞歸迭代的方式優(yōu)化所提出的全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊,直到收斂。在實(shí)驗(yàn)上,循環(huán)通常只需要兩次迭代就可以收斂,表5和表6表明,反復(fù)迭代優(yōu)化可以提高VPS和VO模塊的性能。

efa1818a-e63c-11ed-ab56-dac502259ad0.pngefac750e-e63c-11ed-ab56-dac502259ad0.png

5)實(shí)施細(xì)則

PVO由PyTorch實(shí)現(xiàn),由三個(gè)主要模塊組成:圖像全景分割、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。本文使用三個(gè)階段來訓(xùn)練網(wǎng)絡(luò),在KITTI數(shù)據(jù)集上訓(xùn)練圖像全景分割作為初始化。在PanopticFCN之后,訓(xùn)練過程中采用了多尺度縮放策略。在兩個(gè)GeForce RTX 3090 GPU上以1e-4的初始速率優(yōu)化網(wǎng)絡(luò),其中每個(gè)小批量有八個(gè)圖像,SGD優(yōu)化器的使用具有1e-4的重量衰減和0.9的動(dòng)量。

全景增強(qiáng)VO模塊的訓(xùn)練遵循DROIDSLAM,只是它額外提供了地面實(shí)況全景分割結(jié)果。在訓(xùn)練VO增強(qiáng)視頻全景分割模塊時(shí),使用GT深度、光流和姿態(tài)信息作為幾何先驗(yàn)來對(duì)齊特征,并固定訓(xùn)練的單圖像全景分割的主干,然后僅訓(xùn)練融合模塊。該網(wǎng)絡(luò)在一個(gè)GeForce RTX 3090 GPU上以1e-5的初始學(xué)習(xí)率進(jìn)行了優(yōu)化,其中每個(gè)批次有八個(gè)圖像。當(dāng)融合網(wǎng)絡(luò)基本收斂時(shí),添加了一個(gè)分割一致性損失函數(shù)來進(jìn)一步完善VPS模塊!

實(shí)驗(yàn)結(jié)果

1)視覺里程計(jì)

本文在三個(gè)具有動(dòng)態(tài)場(chǎng)景的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):Virtual KITTI、KITTI和TUM RGBD動(dòng)態(tài)序列,使用絕對(duì)軌跡誤差(ATE)進(jìn)行評(píng)估。對(duì)于視頻全景分割,在cityscape和VIPER數(shù)據(jù)集上使用視頻全景質(zhì)量(VPQ)度量。本文進(jìn)一步對(duì)Virtual KITTI進(jìn)行消融研究,以分析本文的框架設(shè)計(jì)。最后,展示了PVO在視頻編輯方面的適用性,如補(bǔ)充材料中的第B節(jié)所示。

VKITTI2

虛擬KITTI數(shù)據(jù)集[3]由從KITTI跟蹤基準(zhǔn)克隆的5個(gè)序列組成,為每個(gè)序列提供RGB、深度、類分割、實(shí)例分割、相機(jī)姿態(tài)、flow和場(chǎng)景flow數(shù)據(jù)。如表6和圖6所示,在大多數(shù)序列中,本文的PVO以很大的優(yōu)勢(shì)優(yōu)于DROID SLAM,并在序列02中實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能。

efb6e368-e63c-11ed-ab56-dac502259ad0.pngefc1029e-e63c-11ed-ab56-dac502259ad0.png

KITTI

KITTI是一個(gè)捕捉真實(shí)世界交通場(chǎng)景的數(shù)據(jù)集,從農(nóng)村地區(qū)的高速公路到擁有大量靜態(tài)和動(dòng)態(tài)對(duì)象的城市街道。本文將在VKITTI2[3]數(shù)據(jù)集上訓(xùn)練的PVO模型應(yīng)用于KITTI序列。如圖6所示,PVO的姿態(tài)估計(jì)誤差僅為DROID-SLAM的一半,這證明了PVO具有良好的泛化能力。表1顯示了KITTI和VKITTI數(shù)據(jù)集上的完整SLAM比較結(jié)果,其中PVO在大多數(shù)情況下都大大優(yōu)于DROID-SLAM和DynaSLAM,DynaSLAM在VKITTI2 02、06和18序列中屬于災(zāi)難性系統(tǒng)故障。

efcc0c98-e63c-11ed-ab56-dac502259ad0.png

TUM-RGBD

TUM RGBD是一個(gè)用手持相機(jī)捕捉室內(nèi)場(chǎng)景的數(shù)據(jù)集,本文選擇TUM RGBD數(shù)據(jù)集的動(dòng)態(tài)序列來顯示本文的方法的有效性。將PVO與DROIDSLAM以及三種最先進(jìn)的動(dòng)態(tài)RGB-D SLAM系統(tǒng)進(jìn)行了比較,即DVO-SLAM、ORB-SLAM2和PointCorr。請(qǐng)注意,PVO和DROID-SLAM僅使用單目RGB視頻。表2表明PVO在所有場(chǎng)景中都優(yōu)于DROID-SLAM,與傳統(tǒng)的RGB-D SLAM系統(tǒng)相比,本文的方法在大多數(shù)場(chǎng)景中也表現(xiàn)得更好。

efed4750-e63c-11ed-ab56-dac502259ad0.png

2)視頻全景分割

將PVO與三種基于實(shí)例的視頻全景分割方法進(jìn)行了比較,即VPSNetTrack、VPSNetFuseTrack和SiamTrack。在圖像全景分割模型UPSNet的基礎(chǔ)上,VPSNetTrack還添加了MaskTrack head,以形成視頻全景分割模型?;赩PSNet Track的VPSNet FuseTrack額外注入了時(shí)間特征聚合和融合,而SiamTrack利用pixel-tubel 匹配損失和對(duì)比度損耗對(duì)VPSNet Track進(jìn)行微調(diào),性能略有提高,比較VPSNet FuseTrack主要是因?yàn)镾iamTrack的代碼不可用。

Cityscape:本文在VPS中采用了Cityscape的公共訓(xùn)練/val/test分割,其中每個(gè)視頻包含30個(gè)連續(xù)幀,每五幀有相應(yīng)的GT注釋。表3表明,使用PanopticFCN的方法在val數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法,實(shí)現(xiàn)了比VPSNet Track高+1.6%VPQ。與VPSNetFuseTrack相比,本文的方法略有改進(jìn),可以保持一致的視頻分割,如補(bǔ)充材料中的圖A4所示。原因是由于內(nèi)存有限,論文的VO模塊只能獲得1/8分辨率的光流和深度。

VIPER:VIPER維護(hù)了大量高質(zhì)量的全景視頻注釋,這是另一個(gè)視頻全景分割基準(zhǔn)。遵循VPS[19],并采用其公共train/val拆分。使用從日常場(chǎng)景中選擇的10個(gè)視頻,每個(gè)視頻的前60幀用于評(píng)估。表4表明,與VPSNet FuseTrack相比,PanopticFCN方法在VIPER數(shù)據(jù)集上獲得了更高的分?jǐn)?shù)(+3.1VPQ)。

effd0316-e63c-11ed-ab56-dac502259ad0.png

3)消融實(shí)驗(yàn)

VPS增強(qiáng)型VO模塊:在全景增強(qiáng)型VO模塊中,使用DROID-SLAM作為基線,(VPS->VO)意味著增加了全景信息先驗(yàn)以增強(qiáng)VO基線,(VPS->VO x2)意味著可以迭代優(yōu)化VO模塊兩次。(VPS->VO x3)意味著對(duì)VO模塊進(jìn)行3次反復(fù)迭代優(yōu)化,表6和圖7顯示,在大多數(shù)高度動(dòng)態(tài)的VKITTI2數(shù)據(jù)集上,全景信息可以幫助提高DROID-SLAM的準(zhǔn)確性,遞歸迭代優(yōu)化可以進(jìn)一步改善結(jié)果。

VO增強(qiáng)型VPS模塊:為了評(píng)估VO是否有助于VPS,首先使用PanopticFPN來獲得每個(gè)幀的全景分割結(jié)果,然后使用來自RAFT的光流信息進(jìn)行幀間跟蹤,這被設(shè)置為VPS基線。(VPS基線+w/fusion)意味著額外地將特征與流量估計(jì)相融合。(VO->VPS+w/o融合)意味著在基線之上使用額外的深度、姿勢(shì)和其他信息,(VO->VPS)意味著我們額外融合了該功能。

VO增強(qiáng)型VPS模塊中的在線融合:為了驗(yàn)證所提出的特征對(duì)齊損失(fea損失)和分割一致性損失(seg損失)的有效性,方法如下:(VO->VPS+w/fusion+w/o fealoss)意味著在沒有特征對(duì)齊損失的情況下訓(xùn)練在線融合模塊,(VO->VPS+w/fusion+w/o-seg loss)意味著在沒有Segmentation Consistent loss的情況下訓(xùn)練在線融合模塊,表5展示了這兩種損失函數(shù)的有效性!

一些結(jié)論

論文提出了一種新的全景視覺里程計(jì)方法,該方法在統(tǒng)一的視圖中對(duì)VO和VPS進(jìn)行建模,使這兩項(xiàng)任務(wù)能夠相互促進(jìn)。全景更新模塊可以幫助改進(jìn)姿態(tài)估計(jì),而在線融合模塊有助于改進(jìn)全景分割。大量實(shí)驗(yàn)表明,本文的PVO在這兩項(xiàng)任務(wù)中都優(yōu)于最先進(jìn)的方法。局限性主要是PVO建立在DROID-SLAM和全景分割的基礎(chǔ)上,這使得網(wǎng)絡(luò)很重,需要大量內(nèi)存。盡管PVO可以在動(dòng)態(tài)場(chǎng)景中穩(wěn)健地執(zhí)行,但它忽略了當(dāng)攝像機(jī)返回到之前的位置時(shí)環(huán)路閉合的問題,探索一種低成本、高效的閉環(huán)SLAM系統(tǒng)是未來的工作。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 攝像機(jī)
    +關(guān)注

    關(guān)注

    3

    文章

    1702

    瀏覽量

    61368
  • Droid
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    6478
  • SLAM
    +關(guān)注

    關(guān)注

    24

    文章

    440

    瀏覽量

    32486
  • vps
    vps
    +關(guān)注

    關(guān)注

    1

    文章

    115

    瀏覽量

    12251

原文標(biāo)題:CVPR 2023 | PVO:全景視覺里程計(jì)(VO和全景分割雙SOTA)!

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    結(jié)合IMU(慣性測(cè)量單元)進(jìn)行多傳感器融合。 三、總結(jié)與展望 技術(shù)融合趨勢(shì) 機(jī)器人視覺與SLAM的結(jié)合(如視覺慣性里程計(jì)VIO)是當(dāng)前研究熱點(diǎn),未來可能進(jìn)步結(jié)合語義SLAM,讓機(jī)
    發(fā)表于 05-03 19:41

    一種新型激光雷達(dá)慣性視覺里程計(jì)系統(tǒng)介紹

    針對(duì)具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級(jí)且穩(wěn)健的激光雷達(dá)-慣性-視覺里程計(jì)系統(tǒng)。通過采用諸如利用深度與激光雷達(dá)點(diǎn)云關(guān)聯(lián)實(shí)現(xiàn)特征的均勻深度分布等先進(jìn)技術(shù),以及利用
    的頭像 發(fā)表于 04-28 11:18 ?346次閱讀
    <b class='flag-5'>一種</b>新型激光雷達(dá)慣性<b class='flag-5'>視覺</b><b class='flag-5'>里程計(jì)</b>系統(tǒng)<b class='flag-5'>介紹</b>

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語義表達(dá)不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?384次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    無線電愛好者實(shí)用電子制作精選

    魔音門鈴,對(duì)講音樂門鈴,自動(dòng)穩(wěn)光的調(diào)光臺(tái)燈,自熄臺(tái)燈,音樂彩燈,彩虹吸頂燈,簡易卡拉OK話筒,簡易電視天線放大器,電熱毯通電指示器,電飯煲火力調(diào)制器,電冰箱溫度顯示器,家用電器簡易過壓保護(hù)器,視力保護(hù)測(cè)光器,聲控音樂娃娃,電子溫度計(jì),自行車里程計(jì)等等。
    發(fā)表于 04-07 11:26

    一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端到端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實(shí)駕駛場(chǎng)景中的適用性。
    的頭像 發(fā)表于 03-24 15:57 ?877次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場(chǎng)景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介紹</b>

    成像式亮度色度計(jì)產(chǎn)品原理及應(yīng)用介紹

    成像式亮度色度計(jì)工作原理:成像式亮度色度計(jì)一種基于成像原理來進(jìn)行測(cè)光和測(cè)色的測(cè)量儀器,基本結(jié)構(gòu)是由視覺(或色覺)匹配的探測(cè)器(CCD或CMOS)、光學(xué)系統(tǒng)以及與亮度(或三刺激值XYZ)成比例的信號(hào)
    的頭像 發(fā)表于 01-16 11:05 ?1127次閱讀
    成像式亮度色度<b class='flag-5'>計(jì)</b>產(chǎn)品原理及應(yīng)用<b class='flag-5'>介紹</b>

    AI開發(fā)框架集成介紹

    隨著AI應(yīng)用的廣泛深入,單框架往往難以滿足多樣化的需求,因此,AI開發(fā)框架的集成成為了提升開發(fā)效率、促進(jìn)技術(shù)創(chuàng)新的關(guān)鍵路徑。以下,是對(duì)AI開發(fā)框架集成的
    的頭像 發(fā)表于 01-07 15:58 ?553次閱讀

    用于任意排列多相機(jī)的通用視覺里程計(jì)系統(tǒng)

    如何讓多相機(jī)視覺SLAM系統(tǒng)更易于部署且對(duì)環(huán)境更具魯棒性?本文提出了一種適用于任意排列多相機(jī)的通用視覺里程計(jì)系統(tǒng)。在KITTI-360和MultiCamData數(shù)據(jù)集上驗(yàn)證了該方法對(duì)于
    的頭像 發(fā)表于 12-13 11:22 ?753次閱讀
    用于任意排列多相機(jī)的通用<b class='flag-5'>視覺</b><b class='flag-5'>里程計(jì)</b>系統(tǒng)

    一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

    天地氣動(dòng)數(shù)據(jù)致性,針對(duì)某外形飛行試驗(yàn)數(shù)據(jù)開展了典型對(duì)象的天地氣動(dòng)數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架,通過引入地面風(fēng)洞試驗(yàn)氣動(dòng)數(shù)據(jù),實(shí)現(xiàn)了對(duì)復(fù)雜輸入?yún)?shù)的特征
    的頭像 發(fā)表于 11-27 11:34 ?836次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗(yàn)的數(shù)據(jù)融合<b class='flag-5'>框架</b>

    滲壓計(jì)和水位計(jì)之間有什么區(qū)別?

    問題,南京峟思今天就來給大家簡單的介紹下:滲壓計(jì)和水位計(jì)之間有什么區(qū)別?1.滲壓計(jì)滲壓計(jì)
    的頭像 發(fā)表于 11-26 15:18 ?590次閱讀
    滲壓<b class='flag-5'>計(jì)</b>和水位<b class='flag-5'>計(jì)</b>之間有什么區(qū)別?

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為
    的頭像 發(fā)表于 11-22 09:42 ?784次閱讀

    投入式水位計(jì)是什么?投入式水位計(jì)怎么安裝

    投入式水位計(jì)一種在工程領(lǐng)域中廣泛應(yīng)用的監(jiān)測(cè)儀器,主要用于測(cè)量和顯示水位的變化量。本文將詳細(xì)介紹投入式水位計(jì)的定義、特點(diǎn)以及安裝步驟,幫助大家更好地理解和應(yīng)用這
    的頭像 發(fā)表于 11-08 16:08 ?711次閱讀
    投入式水位<b class='flag-5'>計(jì)</b>是什么?投入式水位<b class='flag-5'>計(jì)</b>怎么安裝

    基于旋轉(zhuǎn)平移解耦框架視覺慣性初始化方法

    精確和魯棒的初始化對(duì)于視覺慣性里程計(jì)(VIO)至關(guān)重要,因?yàn)椴涣嫉某跏蓟瘯?huì)嚴(yán)重降低姿態(tài)精度。
    的頭像 發(fā)表于 11-01 10:16 ?964次閱讀
    基于旋轉(zhuǎn)平移解耦<b class='flag-5'>框架</b>的<b class='flag-5'>視覺</b>慣性初始化方法

    一種完全分布式的點(diǎn)線協(xié)同視覺慣性導(dǎo)航系統(tǒng)

    在本文中,我們提出了一種完全分布式的點(diǎn)線協(xié)同視覺慣性導(dǎo)航系統(tǒng)。我們通過蒙特卡羅模擬和真實(shí)環(huán)境數(shù)據(jù)集,在稠密特征或稀疏特征環(huán)境下將所提出的算法與其他四算法進(jìn)行了比較。所有結(jié)果表明,我們的PL-CVIO優(yōu)于獨(dú)立的MSCKF和CVI
    的頭像 發(fā)表于 09-30 14:45 ?891次閱讀
    <b class='flag-5'>一種</b>完全分布式的點(diǎn)線協(xié)同<b class='flag-5'>視覺</b>慣性導(dǎo)航系統(tǒng)

    全景聲解碼器

    全景聲解碼器是款將音頻技術(shù)推向極致的產(chǎn)品。它不僅提供高質(zhì)量的音頻解碼,還讓用戶體驗(yàn)到一種前所未有的聲音空間。無論您是想要享受音樂、觀看電影,還是沉浸于游戲世界,全景聲解碼器都能為您打
    的頭像 發(fā)表于 09-24 10:40 ?874次閱讀
    <b class='flag-5'>全景</b>聲解碼器