1. 文章一覽
本文介紹了一種名為長短距離循環(huán)更新(LRRU)網(wǎng)絡的輕量級深度網(wǎng)絡框架,用于深度補全。深度補全是指從稀疏的距離測量估計密集的深度圖的過程?,F(xiàn)有的深度學習方法使用參數(shù)眾多的大型網(wǎng)絡進行深度補全,導致計算復雜度高,限制了實際應用的可能性。相比之下,本文提出的LRRU網(wǎng)絡首先利用學習到的空間變體核將稀疏輸入填充以獲得初始深度圖,然后通過迭代更新過程靈活地更新深度圖。迭代更新過程是內(nèi)容自適應的,可以從RGB圖像和待更新的深度圖中學習到核權(quán)重。初始深度圖提供了粗糙但完整的場景深度信息,有助于減輕直接從稀疏數(shù)據(jù)回歸密集深度的負擔。實驗證明,LRRU網(wǎng)絡在減少計算復雜度的同時實現(xiàn)了最先進的性能,更適用于深度補全任務。
圖1 不同模型性能與效率比較
2. 原文摘要
現(xiàn)有的基于深度學習的深度補全方法通常需要堆疊大量的網(wǎng)絡層,以從稀疏的數(shù)據(jù)直接預測密集的深度圖。雖然這種方法大大推動了此任務的發(fā)展,但隨之帶來的巨大計算復雜度限制了實際應用。為了更高效地完成深度補全任務,我們提出了一種新型的輕量級深度網(wǎng)絡框架LRRU(Long-short Range Recurrent Updating Networks)。LRRU首先使用非學習方法粗略填充稀疏的輸入,得到初始的密集深度圖,然后通過學習到的空間變化內(nèi)核迭代更新初始深度圖。我們提出的Target-Dependent Update模塊可以動態(tài)調(diào)整內(nèi)核權(quán)重,并考慮RGB圖像及深度圖本身的內(nèi)容特征進行自適應更新。另外,我們還提出了一種長短范圍循環(huán)更新策略,可以動態(tài)調(diào)整內(nèi)核范圍,以捕獲不同距離尺度的相關(guān)信息。實驗結(jié)果表明,LRRU在不同的參數(shù)配置下都可以達到SOTA性能。具體來說,最大的LRRU-Base模型在NYUv2和KITTI數(shù)據(jù)集上分別獲得最優(yōu)的性能。
圖2 LRRU網(wǎng)絡流程圖
3. 方法細節(jié)
給定一個稀疏深度圖,我們首先用一個簡單的非學習方法將其填充為密集深度圖。然后,根據(jù)我們提出的長短范圍循環(huán)更新策略(詳見3.2節(jié)),我們的方法通過目標相關(guān)更新模塊(詳見3.1節(jié))迭代優(yōu)化初始深度圖,以得到精確密集的深度圖。在3.3節(jié),我們提供了方法的實現(xiàn)細節(jié)。為了方便描述,我們使用目標深度()來表示第次更新的深度圖。
圖3 目標相關(guān)更新模塊
3.1 目標相關(guān)更新單元
我們提出的目標相關(guān)更新(TDU)模塊通過學習空間變化內(nèi)核來更新目標深度圖,這些內(nèi)核能夠根據(jù)每個像素及其鄰域之間的親和力進行調(diào)整。為了避免固定局部鄰域帶來的冗余信息,我們的TDU使用全卷積網(wǎng)絡預測內(nèi)核權(quán)重和鄰域采樣位置,其中采樣位置是通過學習相對于規(guī)則網(wǎng)格的偏移量實現(xiàn)的。然而,由于權(quán)重和偏移量缺乏直接監(jiān)督信號,這可能導致訓練不穩(wěn)定。為了解決這個問題,我們利用RGB圖像和稀疏深度圖的特征來引導TDU獲取合適的鄰域,因為RGB圖像中包含豐富的結(jié)構(gòu)細節(jié),稀疏深度圖中包含準確的場景深度信息。此外,我們還考慮了待更新深度圖本身的特征來引導TDU,使得更新操作與目標深度圖內(nèi)容相關(guān)聯(lián),這可以避免產(chǎn)生次優(yōu)解,尤其是當初始深度圖不是直接從RGB圖像和稀疏深度圖回歸得到時。因此,除了RGB圖像和稀疏深度圖之外,我們還提出從目標深度圖本身中提取特征來引導TDU。我們將從RGB圖像和稀疏深度圖中提取的特征稱為交叉引導特征,將從目標深度圖中提取的特征稱為自引導特征。如式(1)所示,交叉引導特征 從特征提取網(wǎng)絡 中的RGB圖像和稀疏深度圖中提取,自引導特征 通過卷積層 從目標深度圖 中獲得。
權(quán)重和偏移回歸。如圖3所示,我們的TDU首先連接交叉引導特征和自引導特征,然后通過兩個獨立的卷積層分別學習權(quán)重特征圖和偏移特征圖。為使權(quán)重和偏移快速收斂,我們對它們的行為添加一些限制來指導學習過程。具體來說,權(quán)重特征圖有個通道,其中是內(nèi)核大小,在本文中設置為3。我們對sigmoid層的輸出應用sigmoid層使權(quán)重大于0且小于1。此外,我們從sigmoid層的輸出中減去均值,使權(quán)重之和為0,起到類似高通濾波器的作用。偏移特征圖有個通道,表示相對于規(guī)則網(wǎng)格上的位置在x和y方向上的偏移。但是,為確保每個參考像素參與其自身的更新過程,我們首先預測具有個通道的偏移特征圖,然后將零插入偏移特征圖的中心。
殘差連接。我們觀察到更新單元的輸入和輸出圖高度相關(guān),共享低頻信息。因此,與現(xiàn)有的SPN不同,這些SPN直接預測更新后的深度圖,我們提出學習目標深度圖的殘差圖像以增強結(jié)構(gòu)細節(jié)和抑制噪聲。給定學習到的權(quán)重和采樣偏移,如式(2)所示,位置處的殘差圖像 通過加權(quán)平均獲得。
在式(2)中,表示位置的鄰域集合。由于偏移通常是分數(shù),我們使用雙線性插值對局部四點進行采樣。濾波器權(quán)重從交叉引導特征和自引導特征中預測。我們聚合來自稀疏選擇的位置的深度值,具有學習到的權(quán)重。然后,如式(3)所示,我們將殘差圖像添加到目標深度圖中以獲得更新后的深度圖。
3.2 長短距離循環(huán)更新策略
圖4 長短距離循環(huán)更新策略
為了在更新過程中獲得適合各自目標的適當內(nèi)核權(quán)重和范圍,我們需要一個有效的循環(huán)更新策略來指導TDU。具體來說,由于對于由非學習方法獲得的初始深度圖,只有少數(shù)可用的稀疏測量點及其周圍點具有高精度,而大多數(shù)像素的周圍點則不準確,因此,在更新過程開始時,我們應該采用大的內(nèi)核范圍,以便從一些長距離但準確的點中獲取鄰域信息。然而,隨著深度圖變得更精細,我們應該逐漸縮小內(nèi)核范圍,以便更多地關(guān)注短距離內(nèi)的點,因為它們通常與參考點更相關(guān)。但是,現(xiàn)有的SPN使用的遞歸更新策略不夠靈活,無法滿足上述需求。例如,CSPN和NLSPN在更新過程中使用固定的內(nèi)核權(quán)重和范圍,這不僅限制了SPN的表示能力,還需要大量迭代來獲得長距離依賴關(guān)系。盡管CSPN++和DySPN通過模型集成和注意機制緩解了這個問題,但它們的內(nèi)核范圍在更新過程中仍然保持不變。
圖5 在迭代更新過程中內(nèi)核范圍的變化
圖6 在KITTI和NYUv2數(shù)據(jù)集上鄰域最大最小距離分析
為了指導TDU在更新過程中動態(tài)調(diào)整內(nèi)核范圍,從而獲得適合各自目標的適當內(nèi)核權(quán)重和范圍,我們在本文中提出了一種長短距離循環(huán)更新策略,如圖4所示。每個TDU的參數(shù),包括內(nèi)核權(quán)重和鄰域的采樣位置,都是通過考慮交叉引導特征和自引導特征來學習的。我們發(fā)現(xiàn),當不同TDU分別由不同尺度的交叉引導特征引導時,由更小尺度的交叉引導特征引導的TDU將自適應地學習以獲得相對更大范圍的鄰域,反之亦然。這是因為不同尺度的交叉引導特征具有不同的感受野?;谶@一觀察,我們讓第一次迭代的TDU使用 1/8 尺度的交叉引導特征圖來引導,以便從一些長距離但準確的點中獲取鄰域信息。在后續(xù)迭代中,我們讓TDU逐漸使用更大尺度的交叉引導特征圖,例如1/4尺度、1/2尺度和全尺度,以便更多地關(guān)注短距離內(nèi)的點。圖5和圖6展示了在迭代更新過程中內(nèi)核范圍從大到小的變化。由于提出的循環(huán)更新策略具有很高的靈活性,我們只需要很少的迭代次數(shù)和鄰域即可獲得滿意的結(jié)果。
3.3 實現(xiàn)細節(jié)
網(wǎng)絡架構(gòu)。我們的網(wǎng)絡架構(gòu)如圖2所示,由兩個部分組成:交叉引導特征提取網(wǎng)絡和長短距離循環(huán)更新模塊。交叉引導特征提取網(wǎng)絡使用深度編碼器和RGB編碼器這兩個子網(wǎng)絡,分別從稀疏深度圖和對應的RGB圖像中提取特征。然后,多尺度RGB特征被注入到深度編碼器中,以實現(xiàn)不同模式信息的充分整合。接著,解碼器網(wǎng)絡用于學習融合后的多尺度特征的殘差。最后,交叉引導特征被上采樣到與初始深度圖相同的分辨率,并作為輸入傳遞給長短距離循環(huán)更新模塊中的TDU。
損失函數(shù)。我們通過和距離對每個迭代輸出與ground truth深度圖進行監(jiān)督,權(quán)重按指數(shù)遞增。損失函數(shù)如式(4)定義。
其中1表示ground truth中是否有值,表示逐元素乘法。我們在實驗中設置。
訓練細節(jié)。我們使用PyTorch實現(xiàn)模型,在GeForce RTX 3090 GPU上進行訓練和測試。所有模型從隨機權(quán)重開始初始化。在訓練過程中,我們使用批量大小為8的Adam優(yōu)化器。我們設置,權(quán)重衰減為,總迭代輪數(shù)為45。初始學習率為,前15輪保持不變,之后每5輪衰減50%。
4. 實驗結(jié)果
我們在NYUv2和KITTI數(shù)據(jù)集上對LRRU進行了評估,并將其與其他state-of-the-art方法進行了比較。結(jié)果表明,LRRU在不同的參數(shù)配置下都優(yōu)于其他方法。特別是,最大的LRRU-Base模型在NYUv2上達到了最佳性能,在KITTI基準測試上獲得了第一名。表1和表2分別給出了LRRU和其他方法在兩個數(shù)據(jù)集上的定量結(jié)果,圖3和圖4展示了LRRU和其他方法在兩個數(shù)據(jù)集上的定性結(jié)果。
表1 四個LRRU變體的設置
表2 在KITTI基準測試上的定量比較
圖7 在KITTI測試數(shù)據(jù)集上的定性比較
表3 消融實驗
表4 使用不同更新模塊的比較
表5 使用不同損失函數(shù)的比較
表6 硬件花費比較
表7 在KITTI驗證集上使用測試時數(shù)據(jù)增強的結(jié)果
圖8 在RMSE的性能
表8 在NYUv2數(shù)據(jù)集上的定量評估
圖9 在NYUv2數(shù)據(jù)集上的定性結(jié)果
表9 在僅深度的情況下的結(jié)果
5. 本文總結(jié)
本文提出了一種新型高效的深度補全網(wǎng)絡LRRU,它通過結(jié)合目標相關(guān)更新模塊和長短距離循環(huán)策略,實現(xiàn)了在參數(shù)量和推理時間較少的情況下達到SOTA的性能。與直接回歸方法相比,LRRU采用了預填充稀疏深度圖并迭代更新的方式,更加有效地優(yōu)化深度圖。目標相關(guān)更新模塊可以根據(jù)RGB圖像、稀疏深度圖和當前深度圖自適應地調(diào)整內(nèi)核參數(shù),從而更好地適應不同的目標。長短距離循環(huán)策略可以從長距離逐步聚焦到短距離,使更新過程更加靈活和精細。實驗結(jié)果表明,LRRU的不同規(guī)模變體在NYUv2和KITTI數(shù)據(jù)集上都優(yōu)于現(xiàn)有方法。未來工作將探索將LRRU應用于其他密集預測任務,如單目深度估計和語義分割。
審核編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7233瀏覽量
90734 -
RGB
+關(guān)注
關(guān)注
4文章
803瀏覽量
59416 -
網(wǎng)絡
+關(guān)注
關(guān)注
14文章
7713瀏覽量
90140 -
參數(shù)
+關(guān)注
關(guān)注
11文章
1865瀏覽量
32770
原文標題:ICCV2023 SOTA!長短距離循環(huán)更新網(wǎng)絡--LRRU介紹
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于ZigBee的短距離無線通信網(wǎng)絡技術(shù)解析
輕量級的ui框架如何去制作
超短距離(USR)接口的方法介紹
基于ZigBee的短距離無線通信網(wǎng)絡技術(shù)
短距離無線通信技術(shù)是什么意思

無線傳感器網(wǎng)絡節(jié)點數(shù)據(jù)短距離接收研究

短距離無線通信及組網(wǎng)技術(shù)_部分1
短距離無線通信及組網(wǎng)技術(shù)_部分2
淺談阿里輕量級的深度神經(jīng)網(wǎng)絡推理引擎MNN
長短時記憶網(wǎng)絡(LSTM)介紹

長短時記憶網(wǎng)絡(LSTM)

測評分享 | 如何在先楫HPM6750上運行輕量級AI推理框架TinyMaix

評論