0. 引言
雖然近年來無監(jiān)督單目深度學(xué)習(xí)取得了很大的進(jìn)展,但仍然存在一些基本問題。首先,目前的方法存在尺度模糊性問題,因為反推過程對于深度和平移來說相當(dāng)于任意尺度因子。其次,光度誤差對照明變化和移動物體敏感。此外,盡管在無監(jiān)督學(xué)習(xí)框架下已經(jīng)為光度誤差圖引入了不確定性,但自我運(yùn)動的不確定性度量仍然是重要的。在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics",作者提出了一種感知框架,通過集成視覺和IMU來進(jìn)行真實尺度估計,算法已經(jīng)開源。
1. 論文信息
2. 摘要
近年來,無監(jiān)督單目深度和自我運(yùn)動估計引起了廣泛的研究關(guān)注。盡管當(dāng)前的方法已經(jīng)達(dá)到了很高的尺度精度,但是由于利用單目序列進(jìn)行訓(xùn)練所固有的尺度模糊性,它們通常不能學(xué)習(xí)真實的尺度度量。在這項工作中,我們解決了這個問題,并提出了DynaDepth,一種新的尺度感知框架,集成了視覺和IMU運(yùn)動動力學(xué)的信息。
具體來說,我們首先提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監(jiān)督和絕對尺度。為了充分利用來自兩個傳感器的互補(bǔ)信息,我們進(jìn)一步驅(qū)動一個可微分的以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF),以在觀察視覺測量時更新IMU預(yù)積分。
此外,EKF公式使得能夠?qū)W習(xí)自我運(yùn)動不確定性測量,這對于無監(jiān)督的方法來說不是微不足道的。通過在訓(xùn)練過程中利用IMU,DynaDepth不僅學(xué)習(xí)了絕對尺度,還提供了更好的泛化能力和對光照變化和移動物體等視覺退化的魯棒性。我們通過在KITTI和Make3D數(shù)據(jù)集上進(jìn)行大量實驗和仿真,驗證了DynaDepth的有效性。
3. 算法分析
如圖1所示是作者提出的單目尺度感知深度估計和自我運(yùn)動預(yù)測方法DynaDepth的概述,該系統(tǒng)在以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF)框架下,將IMU運(yùn)動動力學(xué)顯式集成到基于視覺的系統(tǒng)中。DynaDepth旨在聯(lián)合訓(xùn)練尺度感知深度網(wǎng)絡(luò)Md,以及融合IMU和相機(jī)信息的自我運(yùn)動網(wǎng)絡(luò)Mp。
圖1 DynaDepth概述
DynaDepth通過使用IMU的估計運(yùn)動執(zhí)行反向操作,來構(gòu)建尺度感知的IMU光度損失,并使用基于外觀的光度損失。為了校正由光照變化和運(yùn)動物體引起的誤差,作者進(jìn)一步提出了跨傳感器光度一致性損失,分別使用網(wǎng)絡(luò)預(yù)測和IMU集成自我運(yùn)動的合成目標(biāo)視圖。
與積累來自初始幀的重力和速度估計的經(jīng)典VIO-SLAM系統(tǒng)不同,對于無監(jiān)督深度估計方法,這兩個度量是未知的。為了解決這個問題,DynaDepth訓(xùn)練兩個超輕型網(wǎng)絡(luò),這兩個網(wǎng)絡(luò)將兩個連續(xù)幀作為輸入,并在訓(xùn)練期間預(yù)測以相機(jī)為中心的重力和速度。
考慮到IMU和相機(jī)提供兩種互補(bǔ)的獨(dú)立傳感模式,作者進(jìn)一步為DynaDepth導(dǎo)出了一個可區(qū)分的以相機(jī)為中心的EKF框架,以充分利用這兩種傳感器。當(dāng)從相機(jī)觀察新的自我運(yùn)動預(yù)測時,DynaDepth根據(jù)IMU誤差狀態(tài)和視覺預(yù)測的協(xié)方差更新IMU預(yù)積分。
這樣一方面可以通過視覺來糾正IMU噪聲偏差,另一方面還提供了一種學(xué)習(xí)預(yù)測自我運(yùn)動的不確定性測量的方式,這對于最近出現(xiàn)的將深度學(xué)習(xí)納入經(jīng)典SLAM系統(tǒng)以實現(xiàn)學(xué)習(xí)、幾何和優(yōu)化的協(xié)同作用的研究方法是有益的。
綜上所述,作者所做工作的主要貢獻(xiàn)如下:
(1) 提出了IMU光度損失和交叉?zhèn)鞲衅鞴舛纫恢滦該p失,以提供稠密的監(jiān)督和絕對尺度;
(2) 為傳感器融合推導(dǎo)了一個可微分的以相機(jī)為中心的EKF框架;
(3) 通過在KITTI和Make3D數(shù)據(jù)集上的大量實驗和仿真證明了DynaDepth有利于:<1>絕對尺度的學(xué)習(xí);<2>泛化能力;<3>對諸如照明變化和移動物體的視覺退化的魯棒性;<4>自我運(yùn)動不確定性度量的學(xué)習(xí)。
3.1 IMU光度損失
如果直接將訓(xùn)練損失寫為IMU預(yù)積分項上的殘差,那么就只能為自我運(yùn)動網(wǎng)絡(luò)提供稀疏的監(jiān)督,作者提出了一種IMU光度損失:
其中K和N是相機(jī)的固有特性,yi和zi是圖像中的像素坐標(biāo)系以及由Md預(yù)測的深度,I(yi)是yi處的像素強(qiáng)度,ψ()表示深度歸一化函數(shù),SSIM()表示結(jié)構(gòu)相似性索引。
3.2 交叉?zhèn)鞲衅鞴舛纫恢滦該p失
作者進(jìn)一步提出跨傳感器光度一致性損失來對齊IMU預(yù)積分和Mp的自我運(yùn)動,而不是直接比較。對于自我運(yùn)動,作者使用反向圖像之間的光度誤差,這為Md和Mp提供了更密集的監(jiān)督信號:
此外,DynaDepth中的總訓(xùn)練損失Ltotal還包括基于視覺的光度損失Lvis、平滑度損失Ls以及弱L2范數(shù)損失Lvg:
3.3 以相機(jī)為中心的EKF融合框架
為了充分利用互補(bǔ)的IMU和相機(jī),作者提出了一個以相機(jī)為中心的EKF框架。與之前將EKF集成到基于深度學(xué)習(xí)的框架中以處理IMU數(shù)據(jù)的方法不同,DynaDepth不需要真實的自我運(yùn)動和速度來獲得每個IMU幀的對齊速度和重力,而是提出{Mv,Mg}來預(yù)測。在論文中,作者推導(dǎo)了該EKF的傳播和更新過程。
EKF傳播:設(shè)ck表示時刻tk的相機(jī)幀,bt表示tk到tk+1之間的IMU幀,誤差狀態(tài)為:
EKF利用一階泰勒近似將狀態(tài)轉(zhuǎn)移模型在每個時間步線性化進(jìn)行傳播,誤差狀態(tài)的連續(xù)時間傳播模型為:δx*bt = Fδxbt + Gn,其中F和G為:
EKF更新公式為:
DynaDepth將觀測量定義為Mp預(yù)測的自我運(yùn)動,為了完成以相機(jī)為中心的EKF更新步驟,可推導(dǎo)h和H為:
4. 實驗
作者評估了DynaDepth在KITTI上的有效性,以及在Make3D上的泛化能力。此外,作者對IMU損耗、EKF框架、學(xué)習(xí)到的自我運(yùn)動不確定性以及對光照變化和移動物體的魯棒性進(jìn)行了消融實驗。在具體試驗階段,損失函數(shù)的四個權(quán)重依次為0.001,0.5,0.01,0.001,初始學(xué)習(xí)率為1e-4,在一個NVIDIA V100 GPU上訓(xùn)練了30輪。
4.1 KITTI上的尺度感知深度估計
如表1所示是將DynaDepth與最新的單目深度估計方法進(jìn)行比較的結(jié)果,作者為了公平比較只給出了圖像分辨率為640x192和尺寸適中的編碼器所取得的結(jié)果,即ResNet18(R18)和ResNet50(R50)。
表1 對KITTI進(jìn)行的每張圖像的重定標(biāo)深度評估
除了標(biāo)準(zhǔn)的深度評價指標(biāo)之外,作者還報告了重尺度因子的均值和標(biāo)準(zhǔn)誤差來證明尺度感知能力。值得注意的是DynaDepth達(dá)到了一個近乎完美的絕對尺度,在尺度感知方面甚至R18版本也優(yōu)于G2S R50 ,而后者使用了更重的編碼器。
如表2所示是對比結(jié)果,并與利用GPS信息構(gòu)造速度約束的PackNet-SfM和G2S進(jìn)行了比較。在這種情況下,DynaDepth實現(xiàn)了所有度量指標(biāo)的最佳性能,為單目方法的非尺度深度評估設(shè)定了一個新的基準(zhǔn)。為了更好的說明,圖1(b)給出了包含IMU和不包含IMU的比例直方圖。
表2 在KITTI進(jìn)行深度評估結(jié)果
4.2 Make3D上的泛化
作者利用KITTI上訓(xùn)練的模型進(jìn)一步檢驗DynaDepth在Make3D上的泛化能力,圖1(c)給出了一個定性示例,其中沒有IMU的模型在玻璃和陰影區(qū)域失效,而DynaDepth實現(xiàn)了可區(qū)分的預(yù)測。定量結(jié)果如表3所示,DynaDepth取得了相當(dāng)好的尺度比例,表明DynaDepth學(xué)習(xí)的尺度能力可以很好地推廣到不可觀測的數(shù)據(jù)集。
此外,僅利用陀螺儀和加速度計IMU信息的DynaDepth取得了最好的泛化效果。作者解釋了可能的原因:首先,由于建模能力的提高,完整模型可能會過擬合KITTI數(shù)據(jù)集。第二,因為Mv和Mg都以圖像作為輸入,性能退化可能是由于視覺數(shù)據(jù)的域間隙造成的,這也解釋了這種情況下G2S的尺度損失。
此外,實驗也表明EKF有明顯的提高泛化能力,可能是因為EKF融合框架考慮了不確定性,以更合理的方式融合了可泛化IMU動力學(xué)和特定視覺信息。
表3 Make 3d上的泛化結(jié)果
4.3 消融研究
作者對KITTI進(jìn)行了消融研究,并關(guān)注IMU相關(guān)損失、EKF融合框架和學(xué)習(xí)自我運(yùn)動不確定性對KITTI的影響,結(jié)果如表4所示。此外,還設(shè)計了模擬實驗來驗證DynaDepth對光照變化和運(yùn)動物體等視覺退化的魯棒性。
表4 KITTI上IMU相關(guān)損失和EKF融合框架的消融結(jié)果
結(jié)果顯示,IMU光度損失具有重要作用。但僅用IMU光度損失學(xué)習(xí)的只是一個粗略的尺度。將IMU光度損失和交叉?zhèn)鞲衅鞴舛葥p失結(jié)合在一起,可以提高準(zhǔn)確性,Lvg的使用進(jìn)一步增強(qiáng)了評價結(jié)果。
針對光照變化和運(yùn)動物體,這兩種情況違反了光度損失的底層假設(shè)。作者通過在0.5范圍內(nèi)隨機(jī)交替的圖像對比度來模擬光照變化,通過隨機(jī)插入三個150x150的黑色方塊來模擬運(yùn)動物體,結(jié)果如表5所示。在光照變化下,Mono deep2的精度按預(yù)期下降,DynaDepth則在一定程度上挽救了精度,保持了正確的絕對尺度。
在這種情況下,EKF幾乎改進(jìn)了所有的度量指標(biāo),使用EKF和Lvg在AbsRel上達(dá)到了最優(yōu)。然而,沒有Lvg的模型在大多數(shù)度量指標(biāo)上都取得了最好的性能,其原因可能是Lvg對視覺數(shù)據(jù)的依賴性,對圖像質(zhì)量更加敏感。當(dāng)存在移動對象時,Mono deep2完全失敗,使用EKF顯著地提高了性能,但考慮到任務(wù)的難度,仍然難以學(xué)習(xí)到尺度。在這種情況下,使用Lvg顯著提供了強(qiáng)有力的規(guī)模監(jiān)管,取得了良好的規(guī)模效果。
表5 對來自KITTI的模擬數(shù)據(jù)的魯棒性消融結(jié)果
作者以平均協(xié)方差作為不確定性度量,圖2說明了自我運(yùn)動不確定性的訓(xùn)練過程。學(xué)習(xí)的不確定性表現(xiàn)出與深度誤差(AbsRel)類似的模式,這意味著隨著訓(xùn)練的繼續(xù),模型對其預(yù)測變得更加確定。此外,DynaDepth R50比R18具有更低的不確定性,表明更大的模型容量也有助于提高預(yù)測的可信度,但這種差異并不明顯。
圖2 訓(xùn)練過程
5. 結(jié)論
在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics"中,作者提出了DynaDepth,這是一個使用IMU運(yùn)動動力學(xué)的尺度感知、魯棒和可推廣的單目深度估計框架。具體來說,作者提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監(jiān)督和絕對尺度。
此外,作者為傳感器融合推導(dǎo)了一個以攝像機(jī)為中心的EKF框架,它也提供了在無監(jiān)督學(xué)習(xí)設(shè)置下的自我運(yùn)動不確定性度量。最后作者通過實驗證明了DynaDepth在學(xué)習(xí)絕對尺度、泛化能力和抵抗視覺退化的魯棒性方面具有優(yōu)勢。
-
傳感器
+關(guān)注
關(guān)注
2565文章
52942瀏覽量
766961 -
濾波器
+關(guān)注
關(guān)注
162文章
8133瀏覽量
181958 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5560瀏覽量
122769
原文標(biāo)題:基于整合IMU運(yùn)動動力學(xué)的無監(jiān)督單目深度估計
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
LED光度測試的研究解決方案
Litestar 4D應(yīng)用:光度文件批處理
歐司朗推出采用I²C數(shù)字輸出的環(huán)境光度傳感器
CMOS傳感器/SDDS,什么是CMOS傳感器/SDDS
什么是擴(kuò)展感光度?為什么說盡量不要用相機(jī)的擴(kuò)展感光度?
基于分布光度計的光電探測器介紹

721型分光度及使用步驟說明

分光光度計具體是測什么_分光光度計原理介紹
熒光分光光度計是紫外么_熒光分光光度計原理是什么

熒光分光度計怎么使用?熒光分光光度計使用步驟
熒光分光度計的應(yīng)用用途_熒光分光度計原理_熒光分光度計使用步驟

LED分布光度計測試原理 LED成像光度計結(jié)構(gòu)

評論