九色免费电影网站,www.桃色91.com,好屌爽com永久性免费视频在线播放

車載視覺終端數(shù)據(jù)提取可以生成一項(xiàng)有價(jià)值的信息，那就是檢測(cè)捕獲圖像中的目標(biāo)物體位置信息、方向信息以及與自車之間的距離信息，這樣可以很好的預(yù)測(cè)自車以及周圍物體未來的運(yùn)動(dòng)趨勢(shì)，這些信息可以有效的聚合稱一個(gè)自上而下的表示形式，也就是我們常說的BEV鳥瞰圖，這樣可以很好的為自動(dòng)駕駛車輛導(dǎo)航提供除高精地圖外的其他圖層信息。

獲取BEV圖的經(jīng)典圖像處理方法是利用單應(yīng)性矩陣Homograph對(duì) RGB 圖像進(jìn)行變換，從而PV透視圖投影轉(zhuǎn)換到3D坐標(biāo)系下的BEV視圖。此類傳統(tǒng)方法的基本原理都是需要利用提前計(jì)算的相機(jī)矩陣來實(shí)現(xiàn)單應(yīng)陣的構(gòu)造。然而，這樣的方式適配性是交叉的，因?yàn)楫?dāng)相機(jī)的位置發(fā)生變化時(shí)，需要更新傳輸矩陣值重新構(gòu)造對(duì)應(yīng)的單應(yīng)性矩陣Homograph，以確保新的轉(zhuǎn)換的正確性。

然而，使用常規(guī)的幾何變換會(huì)在某些場(chǎng)景下存在較大問題。比如，當(dāng)構(gòu)建環(huán)境目標(biāo)時(shí)，一些車輛或行人目標(biāo)由于遮擋而對(duì)自車不可見時(shí)，就會(huì)在圖像變換時(shí)被自動(dòng)忽略。而由于深度學(xué)習(xí)網(wǎng)絡(luò)可以在一段時(shí)間內(nèi)通過對(duì)移動(dòng)目標(biāo)在時(shí)間域上進(jìn)行跟蹤和學(xué)習(xí)。也就是哪怕在某一段短時(shí)間內(nèi)看不到該目標(biāo)，通過歷史學(xué)習(xí)信息，也可模擬出當(dāng)前時(shí)刻該目標(biāo)的運(yùn)動(dòng)狀態(tài)。

此算法架構(gòu)主要包括幾個(gè)模塊。

為了解決這樣的問題，本文介紹另一種適配性更強(qiáng)，適應(yīng)范圍更廣的鳥瞰圖定位構(gòu)建方法。即采用深度學(xué)習(xí)方法從圖像中提取重要信息進(jìn)行透視變換，與經(jīng)典方法相比，降低了相對(duì)于物體的方向和位置變化的敏感度，實(shí)現(xiàn)了更高的準(zhǔn)確性和效率。當(dāng)然，單應(yīng)性變換的方法尚未被新方法完全取代，并且仍在一些算法中被研究使用。

實(shí)際上，這種基于深度學(xué)習(xí)的鳥瞰圖生成方式是需要大量數(shù)據(jù)作為支撐的，因?yàn)橹挥杏?xùn)練的數(shù)據(jù)集夠多，才能真正通過足夠多的泛化模型來提升2D圖像到3D狀態(tài)下的BEV圖層的準(zhǔn)確性。

這里有比較典型的幾種深度學(xué)習(xí)的方法實(shí)現(xiàn)相應(yīng)的BEV制圖功能：

1、基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）實(shí)現(xiàn)BEV構(gòu)圖

考慮到 PV 與 BEV 相比完全位于不同的空間，嘗試生成對(duì)抗網(wǎng)絡(luò) (GAN)、自動(dòng)編碼器 (AE) 以及授權(quán)Transformer和CNN來解決分組進(jìn)行變換問題。這一系列先進(jìn)的神經(jīng)網(wǎng)絡(luò)方法在生成BEV地圖方面可以相當(dāng)高效，因?yàn)榛趯?duì)抗性學(xué)習(xí)來生成BEV地圖，可以確保判別器具備較高精度。當(dāng)然，應(yīng)用幾何學(xué)作為網(wǎng)絡(luò)的附加屬性來改變對(duì)抗神經(jīng)網(wǎng)絡(luò)的一些特征，也可以獲得更好的性能。

2、利用AE、可變AE (VAE)的模型組合進(jìn)行轉(zhuǎn)換

以上架構(gòu)的目的是提供一組有價(jià)值的信息，將圖像通過編碼信息映射到低維空間，這樣可以以較少的信息很好的生成對(duì)應(yīng)BEV地圖表示。

3、利用Transformer生成BEV目標(biāo)映射

有一些研究利用 Transformer（具有交叉注意力）通過構(gòu)建查詢并搜索相應(yīng)的 BEV 圖像來實(shí)現(xiàn)映射目標(biāo)，以便通過注意力機(jī)制獲得有益的特征。

4、利用視角間/幀間變換生成BEV目標(biāo)映射

目前生成BEV的方法有很多種不同的方法，考慮視角間的方法主要是通過利用主流的7V（前視、周視、后視）攝像頭實(shí)現(xiàn)360°覆蓋，最終利用圖像拼接直接生成BEV圖。此外，使用視頻序列圖像中在時(shí)間序列上的幀間信息代替單個(gè)圖像信息的處理，可以充分利用前序幀和后續(xù)幀中的信息獲得更好的準(zhǔn)確性能。

基于深度學(xué)習(xí)的BEV構(gòu)圖模型

本文介紹的方法是利用 PV 圖像以及其中車輛邊界框的位置為自車創(chuàng)建自上而下的環(huán)境表示。這樣的圖像無需采用360°環(huán)繞式攝像頭模組進(jìn)行，而是可以利用單前視2V。；當(dāng)然有條件可以加上測(cè)前視實(shí)現(xiàn)4V。因?yàn)閷?duì)于自動(dòng)駕駛系統(tǒng)來說，除開變道這類特殊場(chǎng)景外，自車通常更關(guān)心自車前方的目標(biāo)信息。然而有個(gè)比較棘手的問題是，如果是非多視角下的場(chǎng)景重構(gòu)，單視角是無法實(shí)現(xiàn)從2D到3D的精確變換的，因?yàn)閳D像坐標(biāo)到世界坐標(biāo)下的P陣沒法完整建立起來。所以對(duì)于BEV重建目標(biāo)來說，如果想通過Mono3D的方式，則需要采用提前注入真值系統(tǒng)的方式實(shí)現(xiàn)對(duì)應(yīng)的場(chǎng)景圖重構(gòu)。原理就是當(dāng)識(shí)別場(chǎng)景后，需要與提前建立的真值系統(tǒng)匹配，從而分析現(xiàn)實(shí)場(chǎng)景下相應(yīng)的真值。

當(dāng)然，真值系統(tǒng)的建立是需我們?nèi)绾螐默F(xiàn)實(shí)環(huán)境中收集大量此類數(shù)據(jù)，特別是因?yàn)樗枰@得相應(yīng)的 PV 圖像的自上而下的表示。這里有必要首先解決可用于自動(dòng)駕駛車輛領(lǐng)域的全面數(shù)據(jù)集收集方法。這種方法可以創(chuàng)建一個(gè)數(shù)據(jù)集，生成帶有車輛邊界框位置信息的PV圖像，以及相應(yīng)的BEV地圖。其次，需要研究這種基于深度學(xué)習(xí)將PV圖像轉(zhuǎn)換為精確的BEV地圖的方法，實(shí)際上是一種端到端深度學(xué)習(xí)架構(gòu)。

如下圖表示本文介紹的這種端到端學(xué)習(xí)架構(gòu)的處理方法。其中輸入處理主要包括圖像采集、輸入圖像分割、目標(biāo)跟蹤幾個(gè)。其過程是負(fù)責(zé)收集輸入，提取其關(guān)鍵特征，并將其轉(zhuǎn)換為不同的特征空間供后續(xù)使用。輸出處理通過區(qū)分橫縱向分割特征模式，最終通過一定的聚合方法論生成最終BEV圖中的邊界框。

用于預(yù)測(cè)鳥瞰圖的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

1、輸入處理：

該輸入處理主要分兩路進(jìn)行數(shù)據(jù)處理。

特征提取分支：采用預(yù)先訓(xùn)練的主干模型來提取關(guān)鍵特征（如提取圖像中ROI之間的位置信息、形狀信息等）。然后將如上這些特征轉(zhuǎn)化為特征向量，并對(duì)特征向量進(jìn)行編碼。由于提取的特征顯著影響最終輸出，因此對(duì)于主干網(wǎng)的選擇將很大程度影響整體系統(tǒng)性能和準(zhǔn)確性。這里的主干網(wǎng)絡(luò)當(dāng)前也有很多不同的選擇，有較多的主流算法模型都可以提供較大的訓(xùn)練效率和靈活性。

邊界繪制分支：通過多個(gè)完全鏈接的密集層，將如上特征提取的信息編碼維特征向量。利用聚合向量的形式從上而下的定位選定的車輛目標(biāo)，建立如上兩個(gè)分支之間的關(guān)系，最終可以增強(qiáng)模型識(shí)別目標(biāo)之間在空間關(guān)系的能力。

2、輸出處理：

針對(duì)前序車輛目標(biāo)邊界框定位其水平和垂直軸位置，兩種軸需要分別關(guān)注圖像在其水平行方向和垂直列方向上的特征值。為了構(gòu)建對(duì)應(yīng)在水平和垂直方向上處理分支，需要利用多個(gè)完全鏈接的密集層，將前序特征輸入到對(duì)應(yīng)的兩個(gè)分支中。由于前視攝像頭觀察到的車輛信息通常是相對(duì)本車垂直放置的，因此對(duì)于垂直方向需要生成的邊界框更多，其對(duì)應(yīng)的垂直值分布的方差也會(huì)更大。

以上水平和垂直位置分布最終通過聚合器腳本生成邊界框。為了比較水平和垂直方向的預(yù)測(cè)值，需要利用均方誤差（MSE）作為損失函數(shù)來進(jìn)行模型優(yōu)化，這樣可以最大限度地減少這種損失。在終極框架中，將ReLU 激活函數(shù)應(yīng)用于除輸出層之外的所有層。而輸出層則利用線性激活來促進(jìn)像素坐標(biāo)中的邊界框預(yù)測(cè)。

Mono3D中的真值數(shù)據(jù)集獲取

對(duì)于自動(dòng)駕駛系統(tǒng)數(shù)據(jù)集的獲取很少有包含街道圖像的數(shù)據(jù)集空間、行人和車輛被公開發(fā)布，因?yàn)檫@些數(shù)據(jù)集多變且難以完整的重現(xiàn)。此外，還有些數(shù)據(jù)集還額外提供一些其他注釋，例如針對(duì)不同對(duì)象的邊界框以及各種類型的環(huán)境和天氣條件下的語義分段地圖作為附加信息。實(shí)際上，沒有特定的真實(shí)數(shù)據(jù)集可以直接解決所有場(chǎng)景挖掘任務(wù)，研究人員需要在使用數(shù)據(jù)集之前構(gòu)建預(yù)處理步驟、增加數(shù)據(jù)丟失的機(jī)會(huì)并減慢該過程。為了全方位泛化生成所有自動(dòng)駕駛使用場(chǎng)景，同時(shí)降低實(shí)車數(shù)據(jù)采集的獲取成本，就需要使用虛擬城市空間模擬器合成了一個(gè)全新的數(shù)據(jù)集。該模擬器復(fù)制了現(xiàn)實(shí)世界的物體和事件，在這種情況下，則可以通過PV圖像很輕松的生成BEV圖像。

由于深度學(xué)習(xí)模型需要大量數(shù)據(jù)，因此需要大量數(shù)據(jù)才能做出更準(zhǔn)確的預(yù)測(cè)。在數(shù)據(jù)采樣研究中，需要使用模擬器的巨大數(shù)據(jù)集來解決上述問題，同時(shí)生成更真實(shí)的圖像。

1、數(shù)據(jù)集模擬器設(shè)置

為了使用模擬器生成的數(shù)據(jù)集，需要在地圖的隨機(jī)生成自車位置作為輸出圖像的起源，并且在數(shù)據(jù)捕獲的每個(gè)epoch重復(fù)此過程，以便結(jié)果數(shù)據(jù)集將涵蓋來自不同分布和環(huán)境的不同記錄。

這些記錄可以是如下一些內(nèi)容：

- 道路信息、車道信息、路口信息；

- 建筑物、道路特征表面(如紋理信息、凹凸信息、坡度信息)等。

- 自定義白天天氣條件。

- 不同的氣候類別，如雨天，晴天和多云。

以上這些屬性將使生成的數(shù)據(jù)集成為一個(gè)廣義集，包含各種各樣的情況，能夠使模擬器盡可能真實(shí)的反應(yīng)現(xiàn)實(shí)環(huán)境情況。在最終數(shù)據(jù)集中的每條記錄中，以結(jié)構(gòu)化的形式存儲(chǔ)有關(guān)自車各種有價(jià)值的信息，如名稱、目標(biāo)id、位置和速度等。

2、傳感器設(shè)置

對(duì)于這類數(shù)據(jù)采集的傳感器需要在自動(dòng)駕駛的車上暗轉(zhuǎn)多個(gè)視覺傳感器實(shí)現(xiàn)對(duì)周邊環(huán)境信息的采集。首先，在車輛中部正前方平行于地面安裝攝像頭一個(gè)用于捕獲原始RGB圖像，該圖像需要覆蓋車輛引擎蓋。其對(duì)應(yīng)視頻圖像的屬性經(jīng)過調(diào)整可生成具有所需縱橫比的 PV 圖像，這些PV圖像包括視場(chǎng)、輸出圖像尺寸以及相對(duì)于自車的相對(duì)位置。需要在智駕系統(tǒng)域控裝置中設(shè)置對(duì)應(yīng)的時(shí)間同步模塊，能夠保證時(shí)間能夠與其他傳感器同步。

此外，安裝的深度相機(jī)傳感器可以提供場(chǎng)景視圖，編碼每個(gè)像素到具有相同屬性和位置的相機(jī)距離。因此 RGB 相機(jī)和深度傳感器的輸出完全匹配。

3、地圖生成

本文介紹的BEV地圖生成方法主要是基于數(shù)據(jù)集的注入后生成的端到端信息，這里需要建立一個(gè)BEV生成管道，該管道需要與PV透視圖在寬高比上進(jìn)行同步，其結(jié)果會(huì)以自車為中心生成自上而下的分段表示。同時(shí)，由于自車的運(yùn)動(dòng)狀態(tài)是實(shí)時(shí)變化的，比如轉(zhuǎn)彎、掉頭、橫縱破都會(huì)對(duì)自車采集的BEV地圖產(chǎn)生不同的結(jié)果。因此，這就要求以自車定位在BEV中心和底部后，生成的BEV圖必須具備能夠旋轉(zhuǎn)視圖的能力。

4、數(shù)據(jù)采集

這里介紹的數(shù)據(jù)集采集是針對(duì) 6 個(gè)不同的圖重復(fù)數(shù)據(jù)采集過程 6 次。且模擬器需要在每個(gè)采集過程中，提供隨機(jī)選擇不同種類的 100 輛環(huán)境目標(biāo)車和惡20量自車，并在不同位置放置對(duì)應(yīng)的車輛。為了盡可能減少碰撞，需要每輛車都具有低階輔助駕駛功能。每輛自車都針對(duì)前面提到不同道路特征、天氣特征、路口信息捕獲 20 個(gè)連續(xù)幀的數(shù)據(jù)。存儲(chǔ)過程需要進(jìn)行一定程度的抽幀，以便降低幀率，確保在存儲(chǔ)限制內(nèi)滿足不同環(huán)境組合情況的泛化能力。

5、數(shù)據(jù)標(biāo)注

對(duì)于采集的原始數(shù)據(jù)集需要使用這里的模擬器工具箱對(duì)PV透視圖和BEV地圖進(jìn)行感興趣目標(biāo)ROI標(biāo)注。標(biāo)注出與自車距離不大于50m的車輛，且對(duì)于潛在風(fēng)險(xiǎn)車輛可能是不可見的部分也會(huì)以邊界框標(biāo)注出來。

在數(shù)據(jù)采集過程的每次迭代中從上述傳感器收集原始數(shù)據(jù)后，作者使用模擬器提供的工具在 PV 和 BEV 中注釋每個(gè)車輛邊界框。輸出僅包含與自我車輛距離等于或小于 50 米的車輛。車輛的邊界框是不可見的車輛 PV，但也發(fā)布了位于上述距離的車輛。存儲(chǔ)每輛車在PV中的左上角和右下角的位置以及它們?cè)贐EV地圖中的對(duì)應(yīng)位置。使用模擬器提供的地圖中的車輛位置來計(jì)算其他車輛相對(duì)于自我車輛的距離。

總結(jié)

為了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)將 RGB 相機(jī)捕獲的透視 (PV) 圖像轉(zhuǎn)換為鳥瞰 (BEV) 地圖，需要大量且多樣化的數(shù)據(jù)集來增強(qiáng)模型在各種條件下的泛化性和性能。從現(xiàn)實(shí)環(huán)境中收集此類數(shù)據(jù)可能具有挑戰(zhàn)性且成本高昂，特別是因?yàn)樗枰獙?duì)獲得的 PV 圖像做自上而下的表示。本文介紹了一種端到端深度學(xué)習(xí)架構(gòu)，旨在將PV圖像轉(zhuǎn)換為精確的BEV地圖。同時(shí)，提出一種使用模擬器創(chuàng)建一個(gè)數(shù)據(jù)集的方法，通過生成帶有車輛邊界框位置信息的PV圖像，以及相應(yīng)的BEV地圖，可以適合特定需求的新數(shù)據(jù)收集，也可以應(yīng)用于現(xiàn)場(chǎng)的類似任務(wù)。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

相機(jī)

相機(jī)

+關(guān)注

關(guān)注
4

文章
1468

瀏覽量
54695
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50433
車載視覺

車載視覺

+關(guān)注

關(guān)注
0

文章
16

瀏覽量
8814
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
790

文章
14321

瀏覽量
170688

原文標(biāo)題：一種基于PV變換和CNN模型生成BEV數(shù)據(jù)的方法

文章出處：【微信號(hào)：阿寶1990，微信公眾號(hào)：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

一種基于PV變換和CNN模型生成BEV數(shù)據(jù)的方法

評(píng)論