動機(jī)
作為一種能夠直接測量深度的傳感器,其相較于Lidar存在較大的誤差,因此利用雷達(dá)本身精度難以精確地將雷達(dá)結(jié)果與單目方法的3D估計相關(guān)聯(lián)。本文提出了一種融合網(wǎng)絡(luò)RADIANT來解決雷達(dá)-攝像機(jī)關(guān)聯(lián)的挑戰(zhàn)。通過預(yù)測雷達(dá)點(diǎn)到真實(shí)目標(biāo)中心點(diǎn)的3D偏移,隨后利用修正后的雷達(dá)點(diǎn)修正圖像預(yù)測結(jié)果,使得網(wǎng)絡(luò)在特征層和檢測層完成融合。
貢獻(xiàn)
通過增強(qiáng)毫米波點(diǎn)云獲得3D目標(biāo)的中心位置
使用增強(qiáng)后的毫米波點(diǎn)云完成相機(jī)-雷達(dá)的檢測結(jié)果關(guān)聯(lián)
在多個單目SOTA模型中驗(yàn)證了結(jié)構(gòu)有效性并取得SOTA
背景&問題定義
正雷達(dá)樣本點(diǎn)
對于目標(biāo)檢測的訓(xùn)練,關(guān)鍵就是:候選點(diǎn)的選擇、定義正負(fù)樣本,F(xiàn)COS3D將每個像素點(diǎn)作為目標(biāo)候選點(diǎn),而正樣本點(diǎn)定義為GT目標(biāo)中心周圍的區(qū)域內(nèi)。同樣,對于本文,我們將每個雷達(dá)反射點(diǎn)作為目標(biāo)的候選點(diǎn),將成功與目標(biāo)相關(guān)聯(lián)的雷達(dá)像素點(diǎn)作為正樣本點(diǎn)。
但是,由于毫米波反射點(diǎn)的模糊性(存在多徑干擾)和不準(zhǔn)確性(檢測的分辨率不高)等問題,導(dǎo)致反射點(diǎn)許多無法反映真實(shí)的目標(biāo)位置框內(nèi),同時目前的主流多模態(tài)數(shù)據(jù)集(radar+camera)沒有提供point-wise(點(diǎn)云級別)的標(biāo)記,以上兩種原因?qū)е铝耍含F(xiàn)有的毫米波反射點(diǎn)無論是精度上還是標(biāo)注上,都需要做一些工作。 由此,作者如此解決:
3D框內(nèi)部的點(diǎn)云當(dāng)然歸屬于對應(yīng)目標(biāo),但是對于外部點(diǎn)云,作者設(shè)置距離閾值將一定范圍內(nèi)的點(diǎn)云考慮在內(nèi)
同時為了防止誤召回,上一步召回的點(diǎn)云還需要再徑向速度上與分配的GT目標(biāo)相差在一定范圍內(nèi)
Radar Depth Offset
z為反射點(diǎn)相關(guān)聯(lián)的目標(biāo)深度,z_r為反射點(diǎn)的原始測量深度
細(xì)化動機(jī):
單目3D檢測性能一直受到深度估計不精確問題的裹挾
毫米波雷達(dá)能提供相較相機(jī)更精確的深度,但是其稀疏性、穿透性導(dǎo)致其很難反映出目標(biāo)真實(shí)中心,甚至出現(xiàn)幽靈點(diǎn),反射點(diǎn)到物體中心的偏移是未知的,但是又是關(guān)鍵的,我們通常需要通過物體的中心特征回歸目標(biāo)的各類屬性
預(yù)測的偏移不僅要包括深度偏移,還有image-plane的投影像素偏移,補(bǔ)償雷達(dá)反射點(diǎn)在橫向等方向上誤差
因?yàn)辄c(diǎn)云和目標(biāo)匹配需要類別信息,毫米波用于分類的信息較少(無法通過形狀判斷)
網(wǎng)絡(luò)架構(gòu)
整體上,作者使用“雙流”網(wǎng)絡(luò)結(jié)構(gòu),圖像、雷達(dá)分支分別使用原始FCOS3D網(wǎng)絡(luò)、引入圖像特征的輕量級FCOS3D網(wǎng)絡(luò),在Depth Fusion結(jié)構(gòu)中,通過DWN(depth weight net)對兩個head預(yù)測結(jié)果引入可學(xué)習(xí)的深度加權(quán)網(wǎng)絡(luò),并在最后預(yù)測加權(quán)后的目標(biāo)深度。
我們按照(Backbone, Neck, Heads):分別生成圖像預(yù)測結(jié)果和點(diǎn)云預(yù)測結(jié)果, (Depth Fusion Modules):修正圖像預(yù)測結(jié)果,兩個部分介紹細(xì)節(jié):
Backbone, Neck, Heads
更進(jìn)一步,對圖像分支采用原始FCOS3D網(wǎng)絡(luò),不過多介紹。對Radar分支,輸入的是投影到image-plane的數(shù)據(jù),其中包括深度、坐標(biāo)、速度、占位掩碼(象征點(diǎn)云是否存在于像素中方便后面后處理),在neck部分加入了一些bottleneck瓶頸結(jié)構(gòu)融合圖像和雷達(dá)數(shù)據(jù),解決點(diǎn)云分類能力不足的問題。
最后就是在Head上,與圖像的各類目標(biāo)屬性回歸不同,點(diǎn)云只在其分布的投影像素中,計算類別得分、像素偏移、深度殘差(偏移)三個屬性。最后的結(jié)果形式如下。
Depth Fusion Module
在得到heads的結(jié)果后,這部分的任務(wù)就是將兩個模態(tài)的結(jié)果融合,用radar預(yù)測的結(jié)果修正圖像預(yù)測結(jié)果:
關(guān)聯(lián)投影后的雷達(dá)反射點(diǎn)radar pixels(預(yù)測修正后)與圖像檢測結(jié)果
對關(guān)聯(lián)后的每個radar pixels預(yù)測深度可靠性概率
利用加權(quán)后的radar pixels,修正目標(biāo)的深度,對于目標(biāo)的尺度、角度等屬性不做修改,作者認(rèn)為是毫米波缺少目標(biāo)朝向、尺度信息
Radar-Camera Association
由上圖,我們已得到兩個Heads的輸出,我們?nèi)D像預(yù)測結(jié)果的前1000個boxes按照得分,同樣,我們也取radar預(yù)測結(jié)果中滿足置信度>T_r的radar pixels用于融合,我們把雷達(dá)預(yù)測結(jié)果先修正:
修正后,進(jìn)行關(guān)聯(lián):匹配要滿足以下條件:首先,類別相同,其次投影像素差在一定范圍內(nèi),最后,深度誤差在一定范圍內(nèi),由此,完成篩選和匹配,假設(shè)兩個Heads結(jié)果分別是MN個,則復(fù)雜度為O(MN)
Depth Weighting Network
上部分完成了radar pixels的篩選和匹配,本部分進(jìn)行融合 這部分采用可學(xué)習(xí)的方式,與之對比的是將匹配的radar pixels深度與圖像檢測的深度進(jìn)行平均相加這種不可學(xué)習(xí)的固定方式
這個網(wǎng)絡(luò)的目的,就是判斷radar pixels是否可信,輸出可信度,用于最后的融合。 那么如何規(guī)定訓(xùn)練標(biāo)簽呢?
DWN預(yù)測的是每個點(diǎn)的置信度,DWN前向完成后,結(jié)合圖像預(yù)測和GT,給予每個點(diǎn)云權(quán)重標(biāo)簽,用于訓(xùn)練DWN,DWN僅根據(jù)點(diǎn)云head輸出特征、原始深度等信息預(yù)測,如果GT與radar更接近,α標(biāo)記為1,反之和圖像預(yù)測的結(jié)果更接近則為0.
Fused Depth Calculation
上一步預(yù)測的radar pixels權(quán)重,這一步根據(jù)權(quán)重融合加權(quán)得到結(jié)果,Tα就是閾值,如果任意點(diǎn)云的深度權(quán)重閾值<閾值,則只考慮相機(jī)的預(yù)測結(jié)果
實(shí)驗(yàn)
作者對融合方式做了消融實(shí)驗(yàn),其中None是不加入雷達(dá)反射點(diǎn),Average代表平均反射點(diǎn)與圖像預(yù)測深度,DWN是作者提出的深度權(quán)重網(wǎng)絡(luò)。
由上圖,最上面的Table1,表述了從由近到遠(yuǎn)過程中,圖像、原始雷達(dá)、修正后雷達(dá)(中間)的預(yù)測誤差,可以看到經(jīng)過offset的修正后,雷達(dá)的深度預(yù)測值在近處的修正作用占比更大。
這里不要被作者的數(shù)據(jù)嚇到,因?yàn)檫@是丈量雷達(dá)反射點(diǎn)到目標(biāo)中心偏移誤差,因?yàn)槔走_(dá)反射點(diǎn)本身就分布在非車身中心。
上圖中的Figure 4,分別代表:融合后目標(biāo)深度預(yù)測值和雷達(dá)反射點(diǎn)之間的偏差,GT目標(biāo)深度和雷達(dá)反射點(diǎn)之間的偏差,兩者的偏差分布整體是相似的,預(yù)測結(jié)果的偏差分布更加均勻。
Table2是NuScenes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比,作者基于FOCOS3D, PGD兩類單目檢測模型改進(jìn),都得到了較大的提升,提升體現(xiàn)在mATE,AP兩個數(shù)據(jù)指標(biāo)上。同時,相比經(jīng)典的centerfusion,也有較大的提升。
Figure 5中,分散的反射點(diǎn)通過預(yù)測offset,集中于目標(biāo)的中心,目標(biāo)的深度也得到了進(jìn)一步的修正。
簡單總結(jié):
作者提出的這種關(guān)聯(lián)、更新方式,有效改善了單目單幀的目標(biāo)深度預(yù)測能力,提出了細(xì)粒度更高的標(biāo)記NuScenes毫米波點(diǎn)云的一種方式
根據(jù)具體場景,根據(jù)傳感器特性,在feature-level和decision-level上多方式非對稱融合往往更加有效
作者基于image-plane,選擇的投影方式導(dǎo)致了點(diǎn)云偏移預(yù)測受限于特征提取方式,事實(shí)上雷達(dá)點(diǎn)云投影存在遮擋,同時點(diǎn)云稀疏,將其投影到image-plane上導(dǎo)致原本形狀進(jìn)一步丟失,進(jìn)一步加劇了數(shù)據(jù)的稀疏性
作者只通過radar改善了目標(biāo)的位置性能和平均精度,事實(shí)上目標(biāo)的RCS等信息對于其他屬性仍然有一定修正作用
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2561文章
52244瀏覽量
762056 -
圖像檢測
+關(guān)注
關(guān)注
0文章
35瀏覽量
12001 -
毫米波
+關(guān)注
關(guān)注
21文章
1959瀏覽量
65581
原文標(biāo)題:RV融合新SOTA!RADIANT:全新雷達(dá)-圖像關(guān)聯(lián)網(wǎng)絡(luò)的3D檢測
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論