1. 全文一覽
激光雷達(dá)全景分割是自動駕駛車輛全面理解周圍物體和場景的關(guān)鍵技術(shù),它要求算法具有實時性。最近的無先驗方法雖然加快了運算速度,但由于難以建模不存在的實例中心和高昂的基于中心的聚類開銷,其有效性和效率仍然有限。為了實現(xiàn)準(zhǔn)確和實時的激光雷達(dá)全景分割,本文提出了一種新的中心對焦網(wǎng)絡(luò)(CFNet)。具體來說,本文提出了一種中心對焦特征編碼(CFFE)模塊,它通過移動激光雷達(dá)點并填充中心點,顯式地建模了原始激光雷達(dá)點與虛擬實例中心之間的關(guān)系。此外,本文提出了一種中心去重模塊(CDM),它可以高效地保留每個實例的唯一中心,消除冗余的中心檢測。在SemanticKITTI和nuScenes兩個全景分割基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,與所有現(xiàn)有方法相比,我們的CFNet在性能上取得了顯著的提升,同時速度比最高效的方法快1.6倍。
圖1. SemanticKITTI測試集上的PQ與運行時間。
2. 問題簡介
全景分割是一種將語義分割和實例分割結(jié)合在一起的技術(shù)。它為不可數(shù)的東西類(例如道路,人行道)分配語義標(biāo)簽,同時為可數(shù)的東西類(例如汽車,行人)分配語義標(biāo)簽和實例ID。激光雷達(dá)全景分割是自動駕駛安全的重要基礎(chǔ),它利用激光雷達(dá)傳感器采集的點云有效地描述周圍環(huán)境?,F(xiàn)有的激光雷達(dá)全景分割方法通常先進(jìn)行語義分割,然后通過兩種方式實現(xiàn)東西類的實例分割,即基于先驗框架和無先驗框架的方法。
基于先驗框架的方法采用與圖像領(lǐng)域中著名的Mask R-CNN類似的兩階段流程。它首先使用3D檢測網(wǎng)絡(luò)生成物體先驗框,然后在每個先驗框內(nèi)單獨提取實例分割結(jié)果。如圖1所示,這些方法通常非常復(fù)雜,由于其順序的多階段流水線,難以實現(xiàn)實時處理。
基于無先驗框架的方法更為簡潔。為了將東西點與實例ID關(guān)聯(lián)起來,這些方法通常利用實例中心。具體來說,它們回歸從點到對應(yīng)中心的偏移量,然后采用與類別無關(guān)的基于中心的聚類模塊或基于鳥瞰圖(BEV)的中心熱力圖。然而,這些方法存在兩個問題。首先,對于中心特征提取和中心建模,由于激光雷達(dá)點通常是表面聚集的,在大多數(shù)情況下,實例中心是不存在的,這增加了難度。如圖2(a)所示,這種困難通常導(dǎo)致一個實例被錯誤地分割成多個部分。其次,對于利用冗余檢測到的中心,聚類模塊(例如MeanShift,DBSCAN)的計算時間過長,無法滿足實時自動駕駛感知系統(tǒng)的需求,而BEV中心熱力圖無法區(qū)分不同高度的物體位于同一個BEV網(wǎng)格中。
圖2. 一輛車的實例分割案例,不同顏色表示不同的實例。不帶我們的CFFE模塊,汽車被分割成部分(a),而CFFE顯著改善了這個問題(b)。
為了實現(xiàn)準(zhǔn)確和快速的激光雷達(dá)全景分割,本文提出了一種無先驗框架的中心對焦網(wǎng)絡(luò)(CFNet)。為了更好地編碼中心特征,本文提出了一種新的中心對焦特征編碼(CFFE)模塊,它通過移動激光雷達(dá)點并填充中心點,以獲得更精確的預(yù)測(如圖2(b)所示)。為了更好地建模中心,CFNet不僅將全景分割任務(wù)分解為廣泛使用的語義分割和中心偏移回歸,而且還提出了一個新的置信度評分預(yù)測,以指示中心偏移回歸的準(zhǔn)確性。然后,為了高效地利用檢測到的中心,本文設(shè)計了一個新的中心去重模塊(CDM),以選擇每個實例的唯一中心。CDM保留預(yù)測置信度更高的中心,同時抑制預(yù)測置信度較低的中心。最后,通過將移動后的東西點分配給最近的中心來實現(xiàn)實例分割。為了提高效率,CFNet建立在基于2D投影的分割范式之上。
3. 方法詳析
激光雷達(dá)全景分割任務(wù)的輸入是激光雷達(dá)點云數(shù)據(jù)集(其中是笛卡爾空間中的3D坐標(biāo),表示附加的激光雷達(dá)點特征,例如強(qiáng)度)。該任務(wù)的目標(biāo)是為這些點分配一組標(biāo)簽,其中是語義標(biāo)簽(例如道路、建筑、汽車、行人),是第個點的實例ID。此外,可以分為不可數(shù)的東西類(例如道路、建筑)和可數(shù)的東西類(例如汽車、行人)。東西點的實例ID設(shè)置為0。
圖3. 我們CFNet的概覽。它由四個步驟組成:1) 基于2D投影的backbone在2D空間上提取特征;2) 提出的中心對焦特征編碼(CFFE)模擬和增強(qiáng)不存在的實例中心特征;3) 全景分割head預(yù)測輸出結(jié)果;4) 提出的中心去重模塊(CDM)實現(xiàn)實例分割,其與語義分割結(jié)果融合生成最終全景分割結(jié)果。虛線表示操作僅在推理時使用。
為了預(yù)測輸入激光雷達(dá)點云的標(biāo)簽,我們的CFNet將這個過程分解為四個步驟,如圖3所示:1)應(yīng)用現(xiàn)成的基于2D投影的backbone在2D空間上高效提取特征;2)使用新的中心對焦特征編碼(CFFE)生成中心對焦特征圖,以獲得更準(zhǔn)確的預(yù)測;3)全景分割head將來自3D點和2D空間的特征進(jìn)行融合,分別預(yù)測語義分割結(jié)果、中心偏移和中心偏移的置信度評分;4)在推理時進(jìn)行后處理,生成全景分割結(jié)果,其中新的中心去重模塊(CDM)對移動后的東西點操作,選擇每個實例的一個中心,然后分配移動后的東西點到最近的中心以獲取實例ID。
3.1 中心對焦特征編碼
如上所述,一個對象的激光雷達(dá)點通常是表面聚集的,尤其對于汽車和卡車類別,這導(dǎo)致對象的中心是虛構(gòu)的,在激光雷達(dá)點云中不存在。為了編碼不存在中心的特征,提出了一種新的中心對焦特征編碼(CFFE),它以backbone提取的2D特征和3D點坐標(biāo)為輸入,生成增強(qiáng)的中心對焦特征圖,如圖3所示。
圖4. 提出的中心對焦特征編碼(CFFE)?!癈onv”表示帶有3×3內(nèi)核、批歸一化和ReLU層的2D卷積。語義分支和實例分支的細(xì)節(jié)如圖3所示。藍(lán)色箭頭是坐標(biāo)相關(guān)的操作。
CFFE模塊由三個步驟組成,包括中間結(jié)果預(yù)測、中心特征生成和特征增強(qiáng)模塊,如圖4所示。
中間結(jié)果預(yù)測。在這一步中,CFFE根據(jù)2D特征 和3D點特征 預(yù)測中間結(jié)果(包括語義分割、中心偏移和其置信度分?jǐn)?shù)),以便后續(xù)模擬中心特征。具體來說,在2D特征 上分別應(yīng)用兩個卷積層,生成語義特征 和實例特征 (m是特定的2D視圖,如RV、BEV和極坐標(biāo)視圖)。
其中Conv表示順序2D卷積、批歸一化和ReLU操作, 和 是它們的可學(xué)習(xí)參數(shù)。然后,語義分支通過融合點特征和2D語義特征生成每點3D語義特征,
其中Seg是語義分支,是參數(shù)。最后,根據(jù)生成中間語義結(jié)果。中間的中心偏移結(jié)果和置信度分?jǐn)?shù)是通過實例分支預(yù)測的,輸入為點特征和2D實例特征,
其中Ins是實例分支,F(xiàn)C表示全連接層。語義分支和實例分支的結(jié)構(gòu)及訓(xùn)練目標(biāo)與全景分割head中的相同,在圖3和3.2節(jié)中說明。
**中心特征生成(CFG)**。在這一步中,CFFE通過將3D語義點特征根據(jù)上述中間結(jié)果移位到預(yù)測的中心,生成移位的中心特征。
首先,根據(jù)以下公式計算一個預(yù)測中心的坐標(biāo):
其中是原始3D激光雷達(dá)點坐標(biāo),是一個二值指示器,指示置信度是否大于。換句話說,它不移動?xùn)|西點或置信度低的東西點。
然后,將移位的3D點作為新坐標(biāo)的特征點,將3D語義特征 通過Point to Grid (P2G)操作重新投影到具有這個新坐標(biāo)的2D投影特征圖上。
與相比,更關(guān)注假想的中心,因為大多數(shù)東西點已經(jīng)移位到它們預(yù)測的中心。
**特征增強(qiáng)模塊(FEM)**。CFFE最后融合語義特征圖和重新投影的移位中心特征圖來生成中心對焦語義特征圖和實例特征圖,它們將由后續(xù)的語義分支和實例分支進(jìn)行更準(zhǔn)確的預(yù)測。增強(qiáng)模塊由簡單的連接操作和幾個卷積層組成,詳細(xì)結(jié)構(gòu)在補(bǔ)充材料中。
另外,對于應(yīng)用多視圖融合backbone的情況,每個視圖的特征圖、、、 (例如m ∈ {RV, BEV})都根據(jù)上述流程獨立計算。然后,它們在點融合(PF)模塊中進(jìn)行融合,生成集成的3D點特征和每點預(yù)測。
3.2 全景分割頭
為了更好地建模實例中心,全景分割頭使用語義分支預(yù)測語義分割,實例分支同時估計中心偏移和新引入的置信度分?jǐn)?shù),給定中心對焦語義特征圖和實例特征圖。
語義分支。為了進(jìn)行每點預(yù)測,語義分支首先應(yīng)用Grid到點(G2P)操作從2D語義特征圖獲取3D點表示。然后,一個PF模塊將來自G2P操作的點表示和原始3D點進(jìn)行融合,生成點表示的語義特征。在獲得點的語義特征之后,一個全連接(FC)層用于預(yù)測最終的每點語義結(jié)果()。 表示第個激光雷達(dá)點屬于第類的概率。預(yù)測的語義標(biāo)簽通過選擇概率最高的類獲得,即 。
參考CPGNet,采用了相同的損失函數(shù),包括加權(quán)交叉熵?fù)p失、Lovász-Softmax損失和轉(zhuǎn)換一致性損失。
實例分支。與語義分支類似,實例分支也采用G2P操作和一個PF模塊獲得點表示的實例特征。一個FC層用于預(yù)測每點的中心偏移。的真值是從第個點到其對應(yīng)的實例中心的偏移向量。
對于中心偏移回歸,優(yōu)化的損失函數(shù)僅考慮東西類,形式化如下:
其中是實例的軸對齊中心。
然后,損失函數(shù)求和如下:
其中和分別是所有點和東西點的數(shù)量。
對于置信度分?jǐn)?shù)回歸,另一個FC層用于預(yù)測每點的置信度分?jǐn)?shù),以指示的準(zhǔn)確度。通過sigmoid激活函數(shù)激活以確保。監(jiān)督的真值標(biāo)簽由以下生成:
對于東西點,越低,越高。這意味著中心偏移回歸更準(zhǔn)確的點有更高的置信度分?jǐn)?shù)。
采用加權(quán)二進(jìn)制交叉熵?fù)p失,
其中東西點被手動強(qiáng)調(diào),因為它們的數(shù)量遠(yuǎn)少于東西點的數(shù)量。
最后,每個結(jié)果組(來自CFNet或CFFE)的損失定義為:
總損失是來自CFNet和CFFE的兩個損失之和。
3.3 中心去重模塊
給定最終預(yù)測的語義分割結(jié)果、中心偏移和置信度分?jǐn)?shù),本節(jié)介紹如何在推理時利用檢測到的中心來獲取全景分割結(jié)果,并闡述關(guān)鍵模塊中心去重模塊(CDM)。
后處理。對于全景分割結(jié)果,首先生成實例分割,然后通過融合語義分割和實例分割標(biāo)簽獲得最終全景分割。有五個步驟生成最終全景分割:
根據(jù)預(yù)測的語義標(biāo)簽選擇東西點,以及它們的偏移和置信度分?jǐn)?shù)(其中M是東西點的數(shù)量)。
每個移位后的東西點作為實例中心候選。
CDM根據(jù)坐標(biāo)和置信度分?jǐn)?shù)為每個實例選擇一個中心,同時抑制其他候選中心。
實例ID 通過將移位后的東西點分配給所有中心中最近的一個獲得(D是檢測到的實例數(shù)量)。
多數(shù)投票法將一個預(yù)測實例中最頻繁出現(xiàn)的語義標(biāo)簽重新分配給該實例的所有點,以進(jìn)一步確保預(yù)測實例內(nèi)語義標(biāo)簽的一致性。
**中心去重模塊(CDM)**。CDM以移位點和置信度分?jǐn)?shù)為輸入,為每個實例獲得一個中心。受到邊界框NMS的啟發(fā),如果兩個中心之間的歐式距離小于閾值,我們的CDM會抑制置信度較低的中心。CDM的偽代碼如算法1所示,其中兩個中心距離小于被認(rèn)為是同一個實例。CDM的過程很簡單,可以輕松在CUDA中實現(xiàn)。
4. 實驗結(jié)果
本文在SemanticKITTI和nuScenes全景分割基準(zhǔn)上評估了CFNet,在單個NVIDIA RTX 3090 GPU上進(jìn)行運行時間測量,使用全景質(zhì)量(PQ)指標(biāo)評估性能。經(jīng)驗證,CFNet在兩個基準(zhǔn)上的表現(xiàn)均遠(yuǎn)超現(xiàn)有方法,CFNet比最高效的方法快1.6倍。
圖5. 我們的 CFNet 在 SemanticKITTI 測試集上的可視化。不同的顏色代表不同的類或?qū)嵗?/p>
表1. SemanticKITTI驗證集上的ablation研究。RT:運行時間。
表2. 在SemanticKITTI訓(xùn)練集和驗證集上,中間結(jié)果和帶CFFE的CFNet的東西中心偏移的平均誤差,單位米(m)。
表3. SemanticKITTI 測試集的結(jié)果。
表4. NuScenes 驗證集的結(jié)果。
5. 結(jié)論
本文提出了一種新穎的無先驗的中心對焦網(wǎng)絡(luò)(CFNet),用于實時的激光雷達(dá)全景分割。為了更好地建模和利用不存在的實例中心,本文提出了一種新的中心對焦特征編碼(CFFE)模塊,用于生成增強(qiáng)的中心對焦特征圖,以及一種中心去重模塊(CDM),用于為每個實例保留唯一的中心,然后將移動后的東西點分配給最近的中心,以獲取實例ID。從實驗中可以看出,中心建模和利用是無先驗的激光雷達(dá)全景分割方法中的一個關(guān)鍵問題,而模擬不存在的中心特征是有前景的,并且顯示出明顯的優(yōu)勢。
審核編輯:黃飛
?
評論