車載視覺終端數(shù)據(jù)提取可以生成一項(xiàng)有價(jià)值的信息,那就是檢測(cè)捕獲圖像中的目標(biāo)物體位置信息、方向信息以及與自車之間的距離信息,這樣可以很好的預(yù)測(cè)自車以及周圍物體未來的運(yùn)動(dòng)趨勢(shì),這些信息可以有效的聚合稱一個(gè)自上而下的表示形式,也就是我們常說的BEV鳥瞰圖,這樣可以很好的為自動(dòng)駕駛車輛導(dǎo)航提供除高精地圖外的其他圖層信息。
獲取BEV圖的經(jīng)典圖像處理方法是利用單應(yīng)性矩陣Homograph對(duì) RGB 圖像進(jìn)行變換,從而PV透視圖投影轉(zhuǎn)換到3D坐標(biāo)系下的BEV視圖。此類傳統(tǒng)方法的基本原理都是需要利用提前計(jì)算的相機(jī)矩陣來實(shí)現(xiàn)單應(yīng)陣的構(gòu)造。然而,這樣的方式適配性是交叉的,因?yàn)楫?dāng)相機(jī)的位置發(fā)生變化時(shí),需要更新傳輸矩陣值重新構(gòu)造對(duì)應(yīng)的單應(yīng)性矩陣Homograph,以確保新的轉(zhuǎn)換的正確性。
然而,使用常規(guī)的幾何變換會(huì)在某些場(chǎng)景下存在較大問題。比如,當(dāng)構(gòu)建環(huán)境目標(biāo)時(shí),一些車輛或行人目標(biāo)由于遮擋而對(duì)自車不可見時(shí),就會(huì)在圖像變換時(shí)被自動(dòng)忽略。而由于深度學(xué)習(xí)網(wǎng)絡(luò)可以在一段時(shí)間內(nèi)通過對(duì)移動(dòng)目標(biāo)在時(shí)間域上進(jìn)行跟蹤和學(xué)習(xí)。也就是哪怕在某一段短時(shí)間內(nèi)看不到該目標(biāo),通過歷史學(xué)習(xí)信息,也可模擬出當(dāng)前時(shí)刻該目標(biāo)的運(yùn)動(dòng)狀態(tài)。
此算法架構(gòu)主要包括幾個(gè)模塊。
為了解決這樣的問題,本文介紹另一種適配性更強(qiáng),適應(yīng)范圍更廣的鳥瞰圖定位構(gòu)建方法。即采用深度學(xué)習(xí)方法從圖像中提取重要信息進(jìn)行透視變換,與經(jīng)典方法相比,降低了相對(duì)于物體的方向和位置變化的敏感度,實(shí)現(xiàn)了更高的準(zhǔn)確性和效率。當(dāng)然,單應(yīng)性變換的方法尚未被新方法完全取代,并且仍在一些算法中被研究使用。
實(shí)際上,這種基于深度學(xué)習(xí)的鳥瞰圖生成方式是需要大量數(shù)據(jù)作為支撐的,因?yàn)橹挥杏?xùn)練的數(shù)據(jù)集夠多,才能真正通過足夠多的泛化模型來提升2D圖像到3D狀態(tài)下的BEV圖層的準(zhǔn)確性。
這里有比較典型的幾種深度學(xué)習(xí)的方法實(shí)現(xiàn)相應(yīng)的BEV制圖功能:
1、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)BEV構(gòu)圖
考慮到 PV 與 BEV 相比完全位于不同的空間,嘗試生成對(duì)抗網(wǎng)絡(luò) (GAN)、自動(dòng)編碼器 (AE) 以及授權(quán)Transformer和CNN來解決分組進(jìn)行變換問題。這一系列先進(jìn)的神經(jīng)網(wǎng)絡(luò)方法在生成BEV地圖方面可以相當(dāng)高效,因?yàn)榛趯?duì)抗性學(xué)習(xí)來生成BEV地圖,可以確保判別器具備較高精度。當(dāng)然,應(yīng)用幾何學(xué)作為網(wǎng)絡(luò)的附加屬性來改變對(duì)抗神經(jīng)網(wǎng)絡(luò)的一些特征,也可以獲得更好的性能。
2、利用AE、可變AE (VAE)的模型組合進(jìn)行轉(zhuǎn)換
以上架構(gòu)的目的是提供一組有價(jià)值的信息,將圖像通過編碼信息映射到低維空間,這樣可以以較少的信息很好的生成對(duì)應(yīng)BEV地圖表示。
3、利用Transformer生成BEV目標(biāo)映射
有一些研究利用 Transformer(具有交叉注意力)通過構(gòu)建查詢并搜索相應(yīng)的 BEV 圖像來實(shí)現(xiàn)映射目標(biāo),以便通過注意力機(jī)制獲得有益的特征。
4、利用視角間/幀間變換生成BEV目標(biāo)映射
目前生成BEV的方法有很多種不同的方法,考慮視角間的方法主要是通過利用主流的7V(前視、周視、后視)攝像頭實(shí)現(xiàn)360°覆蓋,最終利用圖像拼接直接生成BEV圖。此外,使用視頻序列圖像中在時(shí)間序列上的幀間信息代替單個(gè)圖像信息的處理,可以充分利用前序幀和后續(xù)幀中的信息獲得更好的準(zhǔn)確性能。
基于深度學(xué)習(xí)的BEV構(gòu)圖模型
本文介紹的方法是利用 PV 圖像以及其中車輛邊界框的位置為自車創(chuàng)建自上而下的環(huán)境表示。這樣的圖像無需采用360°環(huán)繞式攝像頭模組進(jìn)行,而是可以利用單前視2V。;當(dāng)然有條件可以加上測(cè)前視實(shí)現(xiàn)4V。因?yàn)閷?duì)于自動(dòng)駕駛系統(tǒng)來說,除開變道這類特殊場(chǎng)景外,自車通常更關(guān)心自車前方的目標(biāo)信息。然而有個(gè)比較棘手的問題是,如果是非多視角下的場(chǎng)景重構(gòu),單視角是無法實(shí)現(xiàn)從2D到3D的精確變換的,因?yàn)閳D像坐標(biāo)到世界坐標(biāo)下的P陣沒法完整建立起來。所以對(duì)于BEV重建目標(biāo)來說,如果想通過Mono3D的方式,則需要采用提前注入真值系統(tǒng)的方式實(shí)現(xiàn)對(duì)應(yīng)的場(chǎng)景圖重構(gòu)。原理就是當(dāng)識(shí)別場(chǎng)景后,需要與提前建立的真值系統(tǒng)匹配,從而分析現(xiàn)實(shí)場(chǎng)景下相應(yīng)的真值。
當(dāng)然,真值系統(tǒng)的建立是需我們?nèi)绾螐默F(xiàn)實(shí)環(huán)境中收集大量此類數(shù)據(jù),特別是因?yàn)樗枰@得相應(yīng)的 PV 圖像的自上而下的表示。這里有必要首先解決可用于自動(dòng)駕駛車輛領(lǐng)域的全面數(shù)據(jù)集收集方法。這種方法可以創(chuàng)建一個(gè)數(shù)據(jù)集,生成帶有車輛邊界框位置信息的PV圖像,以及相應(yīng)的BEV地圖。其次,需要研究這種基于深度學(xué)習(xí)將PV圖像轉(zhuǎn)換為精確的BEV地圖的方法,實(shí)際上是一種端到端深度學(xué)習(xí)架構(gòu)。
如下圖表示本文介紹的這種端到端學(xué)習(xí)架構(gòu)的處理方法。其中輸入處理主要包括圖像采集、輸入圖像分割、目標(biāo)跟蹤幾個(gè)。其過程是負(fù)責(zé)收集輸入,提取其關(guān)鍵特征,并將其轉(zhuǎn)換為不同的特征空間供后續(xù)使用。輸出處理通過區(qū)分橫縱向分割特征模式,最終通過一定的聚合方法論生成最終BEV圖中的邊界框。
用于預(yù)測(cè)鳥瞰圖的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)
1、輸入處理:
該輸入處理主要分兩路進(jìn)行數(shù)據(jù)處理。
特征提取分支:采用預(yù)先訓(xùn)練的主干模型來提取關(guān)鍵特征(如提取圖像中ROI之間的位置信息、形狀信息等)。然后將如上這些特征轉(zhuǎn)化為特征向量,并對(duì)特征向量進(jìn)行編碼。由于提取的特征顯著影響最終輸出,因此對(duì)于主干網(wǎng)的選擇將很大程度影響整體系統(tǒng)性能和準(zhǔn)確性。這里的主干網(wǎng)絡(luò)當(dāng)前也有很多不同的選擇,有較多的主流算法模型都可以提供較大的訓(xùn)練效率和靈活性。
邊界繪制分支:通過多個(gè)完全鏈接的密集層,將如上特征提取的信息編碼維特征向量。利用聚合向量的形式從上而下的定位選定的車輛目標(biāo),建立如上兩個(gè)分支之間的關(guān)系,最終可以增強(qiáng)模型識(shí)別目標(biāo)之間在空間關(guān)系的能力。
2、輸出處理:
針對(duì)前序車輛目標(biāo)邊界框定位其水平和垂直軸位置,兩種軸需要分別關(guān)注圖像在其水平行方向和垂直列方向上的特征值。為了構(gòu)建對(duì)應(yīng)在水平和垂直方向上處理分支,需要利用多個(gè)完全鏈接的密集層,將前序特征輸入到對(duì)應(yīng)的兩個(gè)分支中。由于前視攝像頭觀察到的車輛信息通常是相對(duì)本車垂直放置的,因此對(duì)于垂直方向需要生成的邊界框更多,其對(duì)應(yīng)的垂直值分布的方差也會(huì)更大。
以上水平和垂直位置分布最終通過聚合器腳本生成邊界框。為了比較水平和垂直方向的預(yù)測(cè)值,需要利用均方誤差(MSE)作為損失函數(shù)來進(jìn)行模型優(yōu)化,這樣可以最大限度地減少這種損失。在終極框架中,將ReLU 激活函數(shù)應(yīng)用于除輸出層之外的所有層。而輸出層則利用線性激活來促進(jìn)像素坐標(biāo)中的邊界框預(yù)測(cè)。
Mono3D中的真值數(shù)據(jù)集獲取
對(duì)于自動(dòng)駕駛系統(tǒng)數(shù)據(jù)集的獲取很少有包含街道圖像的數(shù)據(jù)集空間、行人和車輛被公開發(fā)布,因?yàn)檫@些數(shù)據(jù)集多變且難以完整的重現(xiàn)。此外,還有些數(shù)據(jù)集還額外提供一些其他注釋,例如針對(duì)不同對(duì)象的邊界框以及各種類型的環(huán)境和天氣條件下的語義分段地圖作為附加信息。實(shí)際上,沒有特定的真實(shí)數(shù)據(jù)集可以直接解決所有場(chǎng)景挖掘任務(wù),研究人員需要在使用數(shù)據(jù)集之前構(gòu)建預(yù)處理步驟、增加數(shù)據(jù)丟失的機(jī)會(huì)并減慢該過程。為了全方位泛化生成所有自動(dòng)駕駛使用場(chǎng)景,同時(shí)降低實(shí)車數(shù)據(jù)采集的獲取成本,就需要使用虛擬城市空間模擬器合成了一個(gè)全新的數(shù)據(jù)集。該模擬器復(fù)制了現(xiàn)實(shí)世界的物體和事件,在這種情況下,則可以通過PV圖像很輕松的生成BEV圖像。
由于深度學(xué)習(xí)模型需要大量數(shù)據(jù),因此需要大量數(shù)據(jù)才能做出更準(zhǔn)確的預(yù)測(cè)。在數(shù)據(jù)采樣研究中,需要使用模擬器的巨大數(shù)據(jù)集來解決上述問題,同時(shí)生成更真實(shí)的圖像。
1、數(shù)據(jù)集模擬器設(shè)置
為了使用模擬器生成的數(shù)據(jù)集,需要在地圖的隨機(jī)生成自車位置作為輸出圖像的起源,并且在數(shù)據(jù)捕獲的每個(gè)epoch重復(fù)此過程,以便結(jié)果數(shù)據(jù)集將涵蓋來自不同分布和環(huán)境的不同記錄。
這些記錄可以是如下一些內(nèi)容:
- 道路信息、車道信息、路口信息;
- 建筑物、道路特征表面(如紋理信息、凹凸信息、坡度信息)等。
- 自定義白天天氣條件。
- 不同的氣候類別,如雨天,晴天和多云。
以上這些屬性將使生成的數(shù)據(jù)集成為一個(gè)廣義集,包含各種各樣的情況,能夠使模擬器盡可能真實(shí)的反應(yīng)現(xiàn)實(shí)環(huán)境情況。在最終數(shù)據(jù)集中的每條記錄中,以結(jié)構(gòu)化的形式存儲(chǔ)有關(guān)自車各種有價(jià)值的信息,如名稱、目標(biāo)id、位置和速度等。
2、傳感器設(shè)置
對(duì)于這類數(shù)據(jù)采集的傳感器需要在自動(dòng)駕駛的車上暗轉(zhuǎn)多個(gè)視覺傳感器實(shí)現(xiàn)對(duì)周邊環(huán)境信息的采集。首先,在車輛中部正前方平行于地面安裝攝像頭一個(gè)用于捕獲原始RGB圖像,該圖像需要覆蓋車輛引擎蓋。其對(duì)應(yīng)視頻圖像的屬性經(jīng)過調(diào)整可生成具有所需縱橫比的 PV 圖像,這些PV圖像包括視場(chǎng)、輸出圖像尺寸以及相對(duì)于自車的相對(duì)位置。需要在智駕系統(tǒng)域控裝置中設(shè)置對(duì)應(yīng)的時(shí)間同步模塊,能夠保證時(shí)間能夠與其他傳感器同步。
此外,安裝的深度相機(jī)傳感器可以提供場(chǎng)景視圖,編碼每個(gè)像素到具有相同屬性和位置的相機(jī)距離。因此 RGB 相機(jī)和深度傳感器的輸出完全匹配。
3、地圖生成
本文介紹的BEV地圖生成方法主要是基于數(shù)據(jù)集的注入后生成的端到端信息,這里需要建立一個(gè)BEV生成管道,該管道需要與PV透視圖在寬高比上進(jìn)行同步,其結(jié)果會(huì)以自車為中心生成自上而下的分段表示。同時(shí),由于自車的運(yùn)動(dòng)狀態(tài)是實(shí)時(shí)變化的,比如轉(zhuǎn)彎、掉頭、橫縱破都會(huì)對(duì)自車采集的BEV地圖產(chǎn)生不同的結(jié)果。因此,這就要求以自車定位在BEV中心和底部后,生成的BEV圖必須具備能夠旋轉(zhuǎn)視圖的能力。
4、數(shù)據(jù)采集
這里介紹的數(shù)據(jù)集采集是針對(duì) 6 個(gè)不同的圖重復(fù)數(shù)據(jù)采集過程 6 次。且模擬器需要在每個(gè)采集過程中,提供隨機(jī)選擇不同種類的 100 輛環(huán)境目標(biāo)車和惡20量自車,并在不同位置放置對(duì)應(yīng)的車輛。為了盡可能減少碰撞,需要每輛車都具有低階輔助駕駛功能。每輛自車都針對(duì)前面提到不同道路特征、天氣特征、路口信息捕獲 20 個(gè)連續(xù)幀的數(shù)據(jù)。存儲(chǔ)過程需要進(jìn)行一定程度的抽幀,以便降低幀率,確保在存儲(chǔ)限制內(nèi)滿足不同環(huán)境組合情況的泛化能力。
5、數(shù)據(jù)標(biāo)注
對(duì)于采集的原始數(shù)據(jù)集需要使用這里的模擬器工具箱對(duì)PV透視圖和BEV地圖進(jìn)行感興趣目標(biāo)ROI標(biāo)注。標(biāo)注出與自車距離不大于50m的車輛,且對(duì)于潛在風(fēng)險(xiǎn)車輛可能是不可見的部分也會(huì)以邊界框標(biāo)注出來。
在數(shù)據(jù)采集過程的每次迭代中從上述傳感器收集原始數(shù)據(jù)后,作者使用模擬器提供的工具在 PV 和 BEV 中注釋每個(gè)車輛邊界框。輸出僅包含與自我車輛距離等于或小于 50 米的車輛。車輛的邊界框是不可見的車輛 PV,但也發(fā)布了位于上述距離的車輛。存儲(chǔ)每輛車在PV中的左上角和右下角的位置以及它們?cè)贐EV地圖中的對(duì)應(yīng)位置。使用模擬器提供的地圖中的車輛位置來計(jì)算其他車輛相對(duì)于自我車輛的距離。
總結(jié)
為了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)將 RGB 相機(jī)捕獲的透視 (PV) 圖像轉(zhuǎn)換為鳥瞰 (BEV) 地圖,需要大量且多樣化的數(shù)據(jù)集來增強(qiáng)模型在各種條件下的泛化性和性能。從現(xiàn)實(shí)環(huán)境中收集此類數(shù)據(jù)可能具有挑戰(zhàn)性且成本高昂,特別是因?yàn)樗枰獙?duì)獲得的 PV 圖像做自上而下的表示。本文介紹了一種端到端深度學(xué)習(xí)架構(gòu),旨在將PV圖像轉(zhuǎn)換為精確的BEV地圖。同時(shí),提出一種使用模擬器創(chuàng)建一個(gè)數(shù)據(jù)集的方法,通過生成帶有車輛邊界框位置信息的PV圖像,以及相應(yīng)的BEV地圖,可以適合特定需求的新數(shù)據(jù)收集,也可以應(yīng)用于現(xiàn)場(chǎng)的類似任務(wù)。
審核編輯:湯梓紅
-
相機(jī)
+關(guān)注
關(guān)注
4文章
1468瀏覽量
54695 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50433 -
車載視覺
+關(guān)注
關(guān)注
0文章
16瀏覽量
8814 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
790文章
14321瀏覽量
170688
原文標(biāo)題:一種基于PV變換和CNN模型生成BEV數(shù)據(jù)的方法
文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種基于路測(cè)數(shù)據(jù)的傳播模型校正方法
一種改進(jìn)的小波變換圖像壓縮方法
一種實(shí)時(shí)交互的浮雕紋理模型構(gòu)建方法

一種新的軟件測(cè)試模型—軟件層次化模型

一種隨機(jī)化的軟件模型生成方法

一種新的DEA公共權(quán)重生成方法
一種利用強(qiáng)化學(xué)習(xí)來設(shè)計(jì)mobile CNN模型的自動(dòng)神經(jīng)結(jié)構(gòu)搜索方法
一種基于Mask R-CNN的人臉檢測(cè)及分割方法

一種基于改進(jìn)的DCGAN生成SAR圖像的方法

評(píng)論