一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BEV空間內(nèi)進(jìn)行特征級(jí)融合具有哪些優(yōu)勢(shì)

智能汽車(chē)電子與軟件 ? 來(lái)源:九章智駕 ? 作者:許良 ? 2022-11-03 17:49 ? 次閱讀

BEV空間內(nèi)進(jìn)行特征級(jí)融合具有如下優(yōu)勢(shì):

1.跨攝攝像頭融合和多模融合更易實(shí)現(xiàn)

2.時(shí)序融合更易實(shí)現(xiàn)

3.可“腦補(bǔ)”出遮擋區(qū)域的目標(biāo)

4.更方便端到端做優(yōu)化

在高等級(jí)智能駕駛領(lǐng)域,除了特斯拉和mobileye走的是純視覺(jué)技術(shù)路線外,其他大多數(shù)玩家走的還是多傳感器融合的技術(shù)路線。

多傳感器融合方案,一方面能夠充分利用不同工作原理的傳感器,提升對(duì)不同場(chǎng)景下的整體感知精度,另一方面,也可以在某種傳感器出現(xiàn)失效時(shí),其他傳感器可以作為冗余備份。

目前多傳感器融合方案,主要有后融合(目標(biāo)級(jí)融合)、前融合(數(shù)據(jù)級(jí)融合)和中融合(特征級(jí)融合)三種。

多傳感器融合方案

傳感器后融合(目標(biāo)級(jí)融合)

所謂后融合,是指各傳感器針對(duì)目標(biāo)物體單獨(dú)進(jìn)行深度學(xué)習(xí)模型推理,從而各自輸出帶有傳感器自身屬性的結(jié)果,并在決策層進(jìn)行融合,這也是當(dāng)前的主流方案。

其優(yōu)勢(shì)是不同的傳感器都獨(dú)立進(jìn)行目標(biāo)識(shí)別,解耦性好,且各傳感器可以互為冗余備份。

對(duì)于Tier 1而言,后融合方案便于做標(biāo)準(zhǔn)的模塊化開(kāi)發(fā),把接口封裝好,提供給主機(jī)廠“即插即用”。

對(duì)于主機(jī)廠來(lái)說(shuō),后融合算法比較簡(jiǎn)單,每種傳感器的識(shí)別結(jié)果輸入到融合模塊,融合模塊對(duì)各傳感器在不同場(chǎng)景下的識(shí)別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進(jìn)行決策。

不過(guò)后融合也有缺點(diǎn),最大的問(wèn)題就是,各自傳感器經(jīng)過(guò)目標(biāo)識(shí)別再進(jìn)行融合時(shí),中間損失了很多有效信息,影響了感知精度,而且最終的融合算法,仍然是一種基于規(guī)則的方法,要根據(jù)先驗(yàn)知識(shí)來(lái)設(shè)定傳感器的置信度,局限性很明顯。

ec33f832-5b51-11ed-a3b6-dac502259ad0.png?

目標(biāo)級(jí)融合(后融合)原理示意圖

傳感器前融合(數(shù)據(jù)級(jí)融合)

所謂前融合,是指把各傳感器的數(shù)據(jù)采集后,經(jīng)過(guò)數(shù)據(jù)同步后,對(duì)這些原始數(shù)據(jù)進(jìn)行融合。

ec4128ea-5b51-11ed-a3b6-dac502259ad0.png

多傳感器數(shù)據(jù)級(jí)融合(前融合)原理示意圖

其優(yōu)勢(shì)是可以從整體上來(lái)處理信息,讓數(shù)據(jù)更早做融合,從而讓數(shù)據(jù)更有關(guān)聯(lián)性,比如把激光雷達(dá)的點(diǎn)云數(shù)據(jù)和攝像頭的像素級(jí)數(shù)據(jù)進(jìn)行融合,數(shù)據(jù)的損失也比較少。

不過(guò)其挑戰(zhàn)也很明顯,因?yàn)橐曈X(jué)數(shù)據(jù)和激光雷達(dá)點(diǎn)云數(shù)據(jù)是異構(gòu)數(shù)據(jù),其坐標(biāo)系不同,視覺(jué)數(shù)據(jù)是2D圖像空間,而激光雷達(dá)點(diǎn)云是3D空間,在進(jìn)行融合時(shí),只能在圖像空間里把點(diǎn)云放進(jìn)去,給圖像提供深度信息,或者在點(diǎn)云坐標(biāo)系里,通過(guò)給點(diǎn)云染色或做特征渲染,而讓點(diǎn)云具有更豐富的語(yǔ)義信息。

ec4f6662-5b51-11ed-a3b6-dac502259ad0.gif

相機(jī)和激光雷達(dá)前融合效果示意圖(來(lái)自馭勢(shì)公眾號(hào))

坐標(biāo)系的不同,也導(dǎo)致前融合的效果并不理想,一方面,前融合需要處理的數(shù)據(jù)量較大,對(duì)算力要求較高;另一方面,前融合要想達(dá)到好的效果,對(duì)融合策略要求較高,過(guò)程非常復(fù)雜,所以目前業(yè)內(nèi)應(yīng)用并不多。

為了解決異構(gòu)傳感器坐標(biāo)系不一致的問(wèn)題,開(kāi)發(fā)人員常常會(huì)把視覺(jué)2D圖像轉(zhuǎn)到3D坐標(biāo)系下,這樣就和其他傳感器數(shù)據(jù),如激光雷達(dá)點(diǎn)云數(shù)據(jù),所在的空間保持一致,從而可以在相同坐標(biāo)系下進(jìn)行融合。

將視覺(jué)信息轉(zhuǎn)換到3D坐標(biāo)系,就是今天介紹的重點(diǎn)——BEV。

BEV是鳥(niǎo)瞰圖(Bird’s Eye View)的簡(jiǎn)稱,也被稱為上帝視角,是??一種用于描述感知世界的視角或坐標(biāo)系(3D),BEV也用于代指在計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的一種??端到端的、由神經(jīng)網(wǎng)絡(luò)將??視覺(jué)信息,從圖像空間轉(zhuǎn)換到BEV空間的技術(shù)。

雖然理論上BEV可以應(yīng)用在前、中、后融合過(guò)程中,不過(guò)因?yàn)榍叭诤蠈?shí)現(xiàn)難度大,一般很少將BEV應(yīng)用在前融合,偶爾也會(huì)用在后融合上,更多會(huì)應(yīng)用在介于數(shù)據(jù)級(jí)融合和目標(biāo)級(jí)融合之間的特征級(jí)融合,即中融合上。

傳感器中融合(特征級(jí)融合) 所謂中融合,就是先將各個(gè)傳感器通過(guò)神經(jīng)網(wǎng)絡(luò)模型提取中間層特征(即有效特征),再對(duì)多種傳感器的有效主要特征進(jìn)行融合,從而更有可能得到最佳推理。

對(duì)有效特征在BEV空間進(jìn)行融合,一來(lái)數(shù)據(jù)損失少,二來(lái)算力消耗也較少(相對(duì)于前融合),所以一般在BEV空間進(jìn)行中融合比較多。

為了簡(jiǎn)化描述,如無(wú)特殊說(shuō)明,下文提及的BEV感知,均指“BEV空間內(nèi)的中融合(特征級(jí)融合)。

那么,視角轉(zhuǎn)換到BEV空間,究竟有什么意義呢? 想象一下停車(chē)就好了。停車(chē)挺有難度的,尤其對(duì)于新手司機(jī)來(lái)說(shuō)。駕駛員不僅要注意前方,還要兼顧左右兩個(gè)后視鏡和車(chē)內(nèi)倒車(chē)鏡,根據(jù)經(jīng)驗(yàn)去預(yù)估自車(chē)相對(duì)于周邊障礙物的位置和距離。

而有了車(chē)載360環(huán)視功能,駕駛員能從上帝視角一目了然地看到自車(chē)周邊物體的位置和距離,停車(chē)也就變得簡(jiǎn)單了很多。

具體到智能駕駛系統(tǒng),因?yàn)楦兄㈩A(yù)測(cè)、決策和規(guī)劃等模塊,都是在3D空間內(nèi)進(jìn)行的,而攝像頭看到的圖像信息,只是真實(shí)物理世界在透視視圖(Perspective View)下的投影,從圖像得到的信息,需要經(jīng)過(guò)復(fù)雜的后處理才能使用,信息損失也很多。而將視覺(jué)信息轉(zhuǎn)換到BEV空間,則可以很方便地連接感知與下游的??規(guī)劃控制模塊。

此外,BEV空間內(nèi)的感知任務(wù),在精度上也有優(yōu)勢(shì)。做2D感知時(shí),面對(duì)遠(yuǎn)處的物體,可能幾個(gè)像素的誤差便可能導(dǎo)致幾十米的真實(shí)誤差,而在BEV空間內(nèi)訓(xùn)練模型時(shí),對(duì)遠(yuǎn)處誤差的損失(loss)更加明顯,所以感知結(jié)果也會(huì)更準(zhǔn)確一些。

綜上,這也就是BEV如此重要的原因。

BEV的發(fā)展歷史

在了解BEV的技術(shù)細(xì)節(jié)之前,我們先來(lái)了解下BEV的發(fā)展歷史。

傳統(tǒng)方法的BEV空間轉(zhuǎn)換方法,一般是先在圖像空間對(duì)圖像進(jìn)行特征提取,生成分割結(jié)果,然后通過(guò)IPM(Inverse Perspective Mapping,逆透視變換)函數(shù)轉(zhuǎn)換到BEV空間。

什么是IPM?

在前視攝像頭拍攝的圖像中,由于透視效應(yīng)現(xiàn)象(想象從一個(gè)點(diǎn)去看世界,透視效應(yīng)會(huì)呈現(xiàn)出近大遠(yuǎn)小的觀察結(jié)果)的存在,本來(lái)平行的事物(比如車(chē)道線),在圖像中卻不平行。IPM就是利用相機(jī)成像過(guò)程中的坐標(biāo)系轉(zhuǎn)化關(guān)系,對(duì)其原理進(jìn)行抽象和簡(jiǎn)化,得到真實(shí)世界坐標(biāo)系和圖像坐標(biāo)系之間坐標(biāo)的對(duì)應(yīng)關(guān)系,并進(jìn)行公式化描述,從而消除這種透視效應(yīng),所以叫做逆透視變換。

eca10f76-5b51-11ed-a3b6-dac502259ad0.png?

車(chē)道線的逆透視變換(IPM)

IPM是一種連接圖像空間和BEV空間的簡(jiǎn)單直接的方法,只需要知道相機(jī)內(nèi)外參數(shù)就可以。相機(jī)內(nèi)參數(shù),指的是與相機(jī)自身特性相關(guān)的參數(shù),比如焦距、像素大小等,而相機(jī)外參數(shù)則是相機(jī)在真實(shí)世界坐標(biāo)系中的參數(shù),比如相機(jī)的安裝位置、旋轉(zhuǎn)方向等。

不過(guò),IPM依賴一些預(yù)先的假設(shè),比如地面平直性假設(shè)(地面要是平的),且相機(jī)和地面之間沒(méi)有相對(duì)運(yùn)動(dòng)(車(chē)輛的俯仰角不變)。

很多時(shí)候這個(gè)假設(shè)太嚴(yán)苛了,很難滿足,比如在顛簸道路上,或者在車(chē)輛加速或減速產(chǎn)生俯仰時(shí),系統(tǒng)對(duì)目標(biāo)物的感知結(jié)果波動(dòng)非常大,會(huì)產(chǎn)生“忽近忽遠(yuǎn)”的跳變,平行的車(chē)道線,這時(shí)也會(huì)變成“內(nèi)八”或者“外八”。

于是就有了改進(jìn)方案,那就是將相機(jī)的實(shí)時(shí)位姿考慮進(jìn)來(lái),加上俯仰角的修正補(bǔ)償后,再進(jìn)行空間轉(zhuǎn)換。改進(jìn)后雖然效果有所改善,但是實(shí)時(shí)位姿也很難準(zhǔn)確得到,所以效果并不理想。

這兩年,深度學(xué)習(xí)也開(kāi)始被應(yīng)用于BEV空間轉(zhuǎn)換,且逐漸成為主流方案。 相比于依賴人為規(guī)則,使用神經(jīng)網(wǎng)絡(luò)從2D空間進(jìn)行BEV空間轉(zhuǎn)換,能夠取得更好的感知效果。

具體的流程是,先通過(guò)一個(gè)共享的主干網(wǎng)絡(luò)(Backbone)來(lái)提取每個(gè)相機(jī)的特征(feature),然后再通過(guò)Transformer等將多攝像頭數(shù)據(jù),完成從圖像空間到BEV空間的轉(zhuǎn)換。在BEV空間內(nèi),由于坐標(biāo)系相同,可以很方便地將圖像數(shù)據(jù)和其他傳感器數(shù)據(jù)(如Lidar、Radar等)進(jìn)行融合,還可以進(jìn)行時(shí)序融合形成4D空間,這也是當(dāng)下BEV技術(shù)的大趨勢(shì)。

ecb3d1b0-5b51-11ed-a3b6-dac502259ad0.png

毫末智行用于識(shí)別車(chē)道線的BEV時(shí)空融合感知網(wǎng)絡(luò)

BEV空間內(nèi)中融合的優(yōu)勢(shì)

相比于后融合和前融合,在BEV空間內(nèi)進(jìn)行中融合具有如下優(yōu)勢(shì):

01 跨攝像頭融合和多模融合更易實(shí)現(xiàn)

傳統(tǒng)跨攝像頭融合或者多模融合時(shí),因數(shù)據(jù)空間不同,需要用很多后處理規(guī)則去關(guān)聯(lián)不同傳感器的感知結(jié)果,操作非常復(fù)雜。在BEV空間內(nèi)做融合后,再做目標(biāo)檢測(cè),算法實(shí)現(xiàn)更加簡(jiǎn)單,BEV空間內(nèi)視覺(jué)感知到的物體大小和朝向也都能直接得到表達(dá)。

02 時(shí)序融合更易實(shí)現(xiàn)

在BEV空間時(shí),可以很容易地融合時(shí)序信息,形成4D空間。 在4D空間內(nèi),感知網(wǎng)絡(luò)可以更好地實(shí)現(xiàn)一些感知任務(wù),如測(cè)速等,甚至可以直接輸出運(yùn)動(dòng)預(yù)測(cè)(motion prediction)給到下游的決策和規(guī)控。

03 可“腦補(bǔ)”出被遮擋區(qū)域的目標(biāo)

因?yàn)橐曈X(jué)的透視效應(yīng),2D圖像很容易有遮擋,因而,傳統(tǒng)的2D感知任務(wù)只能感知看得見(jiàn)的目標(biāo),對(duì)于遮擋完全無(wú)能為力,而在BEV空間內(nèi),可以基于先驗(yàn)知識(shí),對(duì)被遮擋的區(qū)域進(jìn)行預(yù)測(cè),從而“腦補(bǔ)”出被遮擋區(qū)域可能存在物體。雖然“腦補(bǔ)”出的物體,有一定“想象”的成分,但這對(duì)于下游的規(guī)控模塊仍有很多好處。

04 更方便端到端做優(yōu)化

傳統(tǒng)做感知任務(wù)時(shí),依次做目標(biāo)識(shí)別、追蹤和運(yùn)動(dòng)預(yù)測(cè),更像是個(gè)“串行系統(tǒng)”,上游的誤差會(huì)傳遞到下游從而造成誤差累積,而在BEV空間內(nèi),感知和運(yùn)動(dòng)預(yù)測(cè)在統(tǒng)一空間內(nèi)完成,因而可以通過(guò)神經(jīng)網(wǎng)絡(luò)直接做端到端優(yōu)化,“并行”出結(jié)果,這樣既可以避免誤差累積,也大大減少了人工邏輯的作用,讓感知網(wǎng)絡(luò)可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)自學(xué)習(xí),從而更好地實(shí)現(xiàn)功能迭代。

隨著特斯拉和毫末智行等紛紛使用BEV空間轉(zhuǎn)換,近期BEV也引起了行業(yè)內(nèi)的高度關(guān)注,不過(guò)當(dāng)前BEV的應(yīng)用實(shí)踐并不太多,業(yè)內(nèi)專(zhuān)家仍有很多疑問(wèn),BEV感知的模型架構(gòu)是什么?如何在BEV空間內(nèi)做目標(biāo)檢測(cè)和模型訓(xùn)練?BEV語(yǔ)義感知地圖是否可以代替高精地圖?當(dāng)前BEV仍有什么挑戰(zhàn)?BEV的技術(shù)壁壘是什么?為什么有的公司可以這么做,而有的公司則不行?

帶著這些問(wèn)題,九章智駕采訪了毫末智行的技術(shù)總監(jiān)潘興、紐勱科技的視覺(jué)專(zhuān)家符張杰、鑒智機(jī)器人研究總監(jiān)朱政以及一些其他行業(yè)專(zhuān)家。

BEV感知需要什么樣的架構(gòu)

雖然每個(gè)公司使用的BEV感知架構(gòu)可能不完全相同,但是大致架構(gòu)類(lèi)似。

第一步,先將攝像頭數(shù)據(jù)輸入到共享的骨干網(wǎng)絡(luò)(Backbone),提取每個(gè)攝像頭的數(shù)據(jù)特征(feature)。

第二步,把所有的攝像頭數(shù)據(jù)(跨攝)進(jìn)行融合,并轉(zhuǎn)換到BEV空間。

第三步,在BEV空間內(nèi),進(jìn)行跨模態(tài)融合,將像素級(jí)的視覺(jué)數(shù)據(jù)和激光雷達(dá)點(diǎn)云進(jìn)行融合。

第四步,進(jìn)行時(shí)序融合,形成4D時(shí)空維度的感知信息。

最后一步,就是多任務(wù)輸出,可以是靜態(tài)語(yǔ)義地圖、動(dòng)態(tài)檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)等,給到下游規(guī)控模塊使用。

ecda06c8-5b51-11ed-a3b6-dac502259ad0.png

BEV感知架構(gòu)

引用自地平線架構(gòu)師劉景初主題為“上帝視角與想象力—自動(dòng)駕駛感知的新范式”的線上分享 值得一提的是,Transformer在CV領(lǐng)域的應(yīng)用自2020年底就開(kāi)始獲得關(guān)注,隨著2021年特斯拉在AI Day上公開(kāi)其在FSD中使用了Transformer算法后,國(guó)內(nèi)多家公司也紛紛開(kāi)始將Transformer應(yīng)用在感知系統(tǒng)中,如毫末智行、地平線、紐勱等。

相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如CNN)的局部感受野,Transformer的注意力機(jī)制,能夠帶來(lái)更好的全局感受野,讓其在進(jìn)行跨攝像頭、跨傳感器以及時(shí)序融合時(shí),可以更好地在空間時(shí)序維度上建模,從而可以提升感知準(zhǔn)確率。

下圖中,南京大學(xué)、上海人工智能實(shí)驗(yàn)室和香港大學(xué)提出的BEVFormer算法架構(gòu)就使用了Transformer,并在nuScenes測(cè)試集上的NDS指標(biāo)上取得了新的當(dāng)前最優(yōu)水平(SOTA)56.9%,提升了9個(gè)點(diǎn)。

ed0f34a6-5b51-11ed-a3b6-dac502259ad0.png?

BEVFormer算法架構(gòu)

BEVFormer經(jīng)過(guò)骨干網(wǎng)絡(luò)提取特征后,經(jīng)過(guò)了6個(gè)編碼層(encoder),每一個(gè)都采用了典型的transformer結(jié)構(gòu)。

具體實(shí)現(xiàn)上,BEVFormer通過(guò)預(yù)先設(shè)置參數(shù)的網(wǎng)格劃分(grid-shaped)的BEV 查詢機(jī)制(BEV queries)來(lái)利用時(shí)空信息。為了聚合空間信息,BEVFormer設(shè)計(jì)了空間交叉注意力機(jī)制(spatial cross-attention,即BEV 查詢機(jī)制從多相機(jī)特征中通過(guò)注意力機(jī)制提取所需的空間特征),讓BEV查詢機(jī)制能從其感興趣的多相機(jī)視角中提取特征,為了聚合時(shí)序信息,BEVFormer提出了時(shí)序自注意力機(jī)制(temporal self-attention,即每一時(shí)刻生成的BEV特征都從上一時(shí)刻的BEV特征獲取所需的時(shí)序信息)來(lái)融合歷史信息。

BEVFormer在通過(guò)Transformer進(jìn)行BEV空間轉(zhuǎn)換時(shí),是通過(guò)預(yù)先設(shè)置參數(shù)的網(wǎng)格劃分(grid-shaped)的BEV 查詢機(jī)制和空間交叉注意力機(jī)制。

預(yù)先設(shè)置了一個(gè)大小為H x W x C的空間,作為BEVFormer的查詢空間,其中H和W是BEV平面的空間尺寸,C為與該平面垂直的高度坐標(biāo),其中網(wǎng)格間隔值s代表了該空間的顆粒度,自車(chē)坐標(biāo)作為原點(diǎn),BEV查詢機(jī)制負(fù)責(zé)不斷查詢,找到這個(gè)空間內(nèi)每個(gè)坐標(biāo)點(diǎn)(x , y)的柱狀3D參考點(diǎn),最終完成全部BEV空間轉(zhuǎn)換。

ed8dd9f0-5b51-11ed-a3b6-dac502259ad0.png

BEVFormer的BEV查詢機(jī)制

BEVFusion在進(jìn)行BEV轉(zhuǎn)換時(shí),雖沒(méi)使用Transformer,不過(guò)也經(jīng)歷了編碼(encoder)和解碼(decoder)兩個(gè)過(guò)程,在解碼過(guò)程中,把圖像信息轉(zhuǎn)化成BEV的3D空間的特征點(diǎn)云,每個(gè)像素都有一個(gè)預(yù)估深度D,N個(gè)輸入相機(jī)會(huì)生成大小為 N x H x W x D 的相機(jī)特征點(diǎn)云,其中(H,W) 是相機(jī)特征圖的大小,D為深度信息。

而轉(zhuǎn)換成的BEV空間的特征點(diǎn)云,以自車(chē)作為坐標(biāo)系原點(diǎn),沿x軸和y軸展開(kāi),以局部網(wǎng)格采樣的方式,如網(wǎng)格間隔(grid)為r,一般通過(guò)池化(pooling)操作來(lái)聚合每個(gè) r × r BEV空間網(wǎng)格內(nèi)的特征,并沿 z 軸(高度方向)展平特征,于是完成了從2D到BEV空間的轉(zhuǎn)換。

edb57564-5b51-11ed-a3b6-dac502259ad0.png?

BEVFusion相機(jī)到BEV空間轉(zhuǎn)換機(jī)制

此外,紐勱提出的對(duì)多相機(jī)配置的BEV語(yǔ)義分割任務(wù)的BEVSegFormer架構(gòu),也用到了Transformer,并在nuScenes驗(yàn)證集的語(yǔ)義分割任務(wù)上取得了當(dāng)前最優(yōu)水平(SOTA)。

edd8ac50-5b51-11ed-a3b6-dac502259ad0.png?

BEVSegFormer的網(wǎng)絡(luò)

幾位行業(yè)內(nèi)專(zhuān)家認(rèn)為,由于Transfromer先天具有更好的全局感受野,因而可以好地提取全局特征,既可以用來(lái)作為骨干網(wǎng)絡(luò),也可以在BEV轉(zhuǎn)換中使用。BEV+Transformer聯(lián)合使用,優(yōu)勢(shì)會(huì)更加明顯,有可能會(huì)成為行業(yè)發(fā)展趨勢(shì)。

BEV感知任務(wù)實(shí)踐

如何在BEV空間內(nèi)做3D目標(biāo)檢測(cè)?

在自動(dòng)駕駛感知中,目標(biāo)檢測(cè)是非常重要的任務(wù)。 所有下游跟蹤、預(yù)測(cè)、規(guī)劃、控制等任務(wù)都需要目標(biāo)檢測(cè)“打好基礎(chǔ)”,而下游任務(wù)都是在3D空間內(nèi)完成的。因此,強(qiáng)大的 3D 檢測(cè)能力是自動(dòng)駕駛安全的保證。

在實(shí)際應(yīng)用中,純視覺(jué)方案面臨從 2D 推測(cè) 3D“少一個(gè)維度” 的挑戰(zhàn)。一般傳統(tǒng)方案做3D檢測(cè)時(shí)(如FCOS3D),先做2D的目標(biāo)檢測(cè),再通過(guò)以激光雷達(dá)測(cè)的真值訓(xùn)練的神經(jīng)網(wǎng)絡(luò)去對(duì)2D目標(biāo)預(yù)測(cè)深度,以此來(lái)得到3D目標(biāo)的檢測(cè)。

在BEV空間內(nèi)可以直接進(jìn)行3D目標(biāo)檢測(cè),省去預(yù)測(cè)深度的過(guò)程,實(shí)現(xiàn)起來(lái)更簡(jiǎn)單。如把2D檢測(cè)算法DETR稍加改造用于做3D目標(biāo)檢測(cè)的DETER3D,算法復(fù)雜度大大降低,也在NuScenes數(shù)據(jù)集上取得了當(dāng)前最優(yōu)水平(SOTA)的檢測(cè)效果。

ee15b19a-5b51-11ed-a3b6-dac502259ad0.png?

DETR3D算法架構(gòu)(其損失函數(shù)的借鑒了DETR的設(shè)計(jì))

注:DETR3D由麻省理工學(xué)院(MIT)和清華大學(xué)、理想汽車(chē)和豐田研究所團(tuán)隊(duì)共同合作提出的,目前代碼已經(jīng)開(kāi)源。

DETR3D論文中的感知結(jié)果顯示,由于在BEV空間里的跨攝像頭的融合效果更好,DETR3D對(duì)于相機(jī)附近超大的、被截?cái)嗄繕?biāo)物(如大貨車(chē))的檢出率有了明顯的提升(在關(guān)鍵檢出指標(biāo)NDS上,F(xiàn)COS3D:0.317,DETR3D:0.356)。

此外,BEV空間內(nèi)的目標(biāo)檢測(cè)更容易做到“不重不漏”。

鑒智機(jī)器人朱政介紹道:“目標(biāo)檢測(cè)最重要是做到‘不重不漏’。在2D圖像空間內(nèi),由于透視效應(yīng),遮擋嚴(yán)重,很容易重合和漏檢;在BEV空間內(nèi),做到不重合很容易,只需要按照物理世界的規(guī)則,把重合的感知目標(biāo)去掉即可;要做到不漏檢,如果單幀圖像下被完全遮擋,那的確沒(méi)辦法——不過(guò),加上時(shí)序信息,即使在某幾幀下被遮擋,只要不是一直被遮擋住,就可以在BEV空間‘腦補(bǔ)’出來(lái)。就像人開(kāi)車(chē)一樣,前幾秒看到旁邊車(chē)道有輛車(chē),??中間有幾秒被大車(chē)擋住了,但我們知道再過(guò)幾秒它還會(huì)出現(xiàn)?!?br />
傳統(tǒng)2D感知任務(wù)和BEV空間如何結(jié)合?

筆者有個(gè)疑問(wèn):在BEV空間內(nèi)檢測(cè)有這么多好處,那是不是所有的感知任務(wù)都可以在BEV空間內(nèi)完成,傳統(tǒng)的那些2D檢測(cè)和語(yǔ)義分割等感知任務(wù)還有“用武之地”嗎? 目前看下來(lái),2D感知任務(wù)并不會(huì)完全被“棄用”,還是會(huì)與BEV空間內(nèi)的檢測(cè)任務(wù)結(jié)合進(jìn)行使用。

鑒智機(jī)器人科學(xué)家朱政認(rèn)為,一般的檢測(cè)任務(wù),如動(dòng)態(tài)車(chē)輛、行人和靜態(tài)車(chē)道線等,當(dāng)然更適合在BEV空間內(nèi)做,但也有些是在BEV空間內(nèi)做不了或者更合適在2D空間內(nèi)做的感知任務(wù),比如紅綠燈檢測(cè)。

紐勱也認(rèn)為,傳統(tǒng)的2D檢測(cè)和圖像分割任務(wù),其實(shí)是可以作為輔助來(lái)提升BEV感知任務(wù)的性能,可以根據(jù)下游的不同需求,來(lái)做不同的安排。

那么,2D感知的結(jié)果怎么對(duì)應(yīng)到 BEV空間呢? 對(duì)于這個(gè)問(wèn)題,地平線架構(gòu)師劉景初在線上分享中提到,其實(shí)關(guān)鍵是要找到2D檢測(cè)結(jié)果在BEV空間的映射關(guān)系,且這些映射關(guān)系要在不同的場(chǎng)景下表現(xiàn)得足夠魯棒,這是比較難的,需要很多后處理規(guī)則。

如何處理“腦補(bǔ)”出來(lái)的預(yù)測(cè)結(jié)果?

在BEV空間做目標(biāo)檢測(cè)時(shí),對(duì)于被遮擋區(qū)域,感知模型會(huì)根據(jù)先驗(yàn)知識(shí),“腦補(bǔ)”出被遮擋部分的目標(biāo)。這種“腦補(bǔ)”的功能,無(wú)疑是非常令人驚喜的,地平線的架構(gòu)師劉景柱在一次線上分享中,認(rèn)為這種想象力是“一種感知范式的轉(zhuǎn)變”。

那么對(duì)于“腦補(bǔ)”出的感知結(jié)果,到底如何使用才能最大化發(fā)揮其作用呢?

業(yè)內(nèi)專(zhuān)家普遍認(rèn)為,對(duì)于神經(jīng)網(wǎng)絡(luò)所“想象”出來(lái)的感知結(jié)果,應(yīng)該和實(shí)際看到的感知結(jié)果做好區(qū)分,比如可以讓感知結(jié)果輸出時(shí)帶一個(gè)“置信度”的標(biāo)簽,告訴下游這個(gè)結(jié)果到底是實(shí)際看到,還是“腦補(bǔ)”出來(lái)的。

對(duì)于下游而言,對(duì)不同置信度的結(jié)果的“可信賴度”是不同的,使用的時(shí)候也會(huì)做好甄別,比如對(duì)低置信度的感知結(jié)果使用時(shí)會(huì)做一些限制。

劉景初在線上分享時(shí)提到,對(duì)于低置信度的感知結(jié)果,只能用一些比較粗糙的信息,比如車(chē)道線是不能用的,但是如果前面有個(gè)路口,能看到人行橫道,那么大概率兩邊會(huì)有延伸出去的道路,這個(gè)感知結(jié)果就是可以用的。

毫末智行的潘興也認(rèn)為,復(fù)雜拓?fù)浣Y(jié)構(gòu)道路環(huán)境下,“腦補(bǔ)”出的車(chē)道線準(zhǔn)確度很一般,“經(jīng)常出錯(cuò),比如會(huì)在小路口時(shí)“腦補(bǔ)”將車(chē)道線延長(zhǎng),或者將待轉(zhuǎn)區(qū)的線“腦補(bǔ)”成了車(chē)道線”,對(duì)于這類(lèi)識(shí)別結(jié)果,毫末的選擇是不使用,甚至直接選擇不輸出這些“腦補(bǔ)”的車(chē)道線感知結(jié)果。

鑒智機(jī)器人的朱政認(rèn)為,“腦補(bǔ)”出的結(jié)果,可以作為隱變量或者放在隱空間存儲(chǔ)起來(lái),交給模型自行判斷使用,而不去加太多人為規(guī)則去約束。

時(shí)序融合有什么用處? 在BEV空間內(nèi),進(jìn)行時(shí)序融合后形成的4D空間,除了上述提到的可以實(shí)現(xiàn)對(duì)暫時(shí)被遮擋的物體有更好的跟蹤效果外,還可以更方便地對(duì)運(yùn)動(dòng)物體進(jìn)行測(cè)速和運(yùn)動(dòng)預(yù)測(cè)。

測(cè)速

除了像毫米波雷達(dá)這種自帶測(cè)速功能的傳感器外,其他傳感器基于某一時(shí)刻的信息去做測(cè)速是很困難的,而融入了時(shí)序信息后,視覺(jué)就可以實(shí)現(xiàn)穩(wěn)定地測(cè)速。

在2D圖像空間內(nèi),一般采用光流法(Optical Flow)進(jìn)行測(cè)速。

光流法,是在視頻流中,利用上一幀代表同一目標(biāo)物的像素點(diǎn)到下一幀的移動(dòng)量,從而計(jì)算出目標(biāo)物的運(yùn)動(dòng)速度的方法。

根據(jù)進(jìn)行光流估計(jì)時(shí)圖像的選取點(diǎn)是稀疏還是稠密,可以將光流估計(jì)分為稀疏光流(Sparse Optical Flow)和稠密光流(Dense Optical Flow),如下左圖的稀疏光流為選取了明顯的特征點(diǎn)進(jìn)行光流估計(jì),右圖為連續(xù)幀稠密光流示意圖。

稠密光流描述圖像中每個(gè)像素向下一幀運(yùn)動(dòng)的方向和速度,為了便于識(shí)別,用不同的顏色和亮度表示光流的大小和方向,如黃色代表向下運(yùn)動(dòng),紫色代表向上運(yùn)動(dòng),速度越快顏色越深。

ee393d7c-5b51-11ed-a3b6-dac502259ad0.png ?

稀疏光流(左圖)和稠密光流(右圖 )

在BEV空間內(nèi),因?yàn)槟軌蛑苯荧@取到目標(biāo)物體每幀下的具體位置信息,再加上前后幀的時(shí)間戳信息,就可以很容易求出目標(biāo)物體的速度,“可以把根據(jù)位置信息得到的速度,再融合毫米波雷達(dá)提供的速度,這樣結(jié)果會(huì)更準(zhǔn)確,”一位行業(yè)內(nèi)專(zhuān)家介紹道。

毫末智行潘興認(rèn)為,也可以在模型訓(xùn)練時(shí),把速度信息直接標(biāo)注上去,讓車(chē)端模型根據(jù)前后幀的信息自行推理出來(lái),“有了4D信息后,速度的真值也比較容易獲取,訓(xùn)練起來(lái)更容易一些”,潘興說(shuō)道。

運(yùn)動(dòng)預(yù)測(cè)

自動(dòng)駕駛系統(tǒng)需要與道路上的交通參與者進(jìn)行互動(dòng),并預(yù)測(cè)他們未來(lái)的行為,以便能正確做好自車(chē)的規(guī)劃控制。

云端有了4D時(shí)空信息,就像掌握了預(yù)知未來(lái)的“超能力”一樣,可以準(zhǔn)確地知道接下來(lái)每個(gè)目標(biāo)物的運(yùn)動(dòng)軌跡,而用這些信息去訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以讓模型根據(jù)過(guò)往的歷史信息去預(yù)測(cè)目標(biāo)物接下來(lái)的運(yùn)動(dòng)軌跡。

傳統(tǒng)算法會(huì)先做感知,再做運(yùn)動(dòng)預(yù)測(cè),中間會(huì)人為增加很多規(guī)則來(lái)處理感知結(jié)果,這樣一方面會(huì)增加很多人工邏輯,增加了后續(xù)調(diào)優(yōu)的難度,另一方面處理時(shí)也損失了很多有效信息。而神經(jīng)網(wǎng)絡(luò)則直接從感知傳遞到運(yùn)動(dòng)預(yù)測(cè),全部在BEV空間內(nèi)完成,減少信息損失的同時(shí),還可以端到端做優(yōu)化,減少了人工邏輯,大大提升數(shù)據(jù)迭代的效率。

此前也已經(jīng)有一些端到端感知聯(lián)合預(yù)測(cè)的實(shí)踐。

英國(guó)的自動(dòng)駕駛創(chuàng)業(yè)公司W(wǎng)ayve和劍橋大學(xué)合作提出的FIERY網(wǎng)絡(luò),也是基于純視覺(jué)的方法,通過(guò)端到端的方式,通過(guò)攝像頭輸入,直接在BEV空間預(yù)測(cè)每個(gè)目標(biāo)的運(yùn)動(dòng)軌跡(motion trajectory),并給出了具體軌跡的概率。

下圖是FIERY BEV網(wǎng)絡(luò)運(yùn)動(dòng)預(yù)測(cè)的示意圖,上面兩行為相機(jī)輸入,最下面一行為BEV空間下的目標(biāo)物的預(yù)測(cè)軌跡。

ef7bb0d4-5b51-11ed-a3b6-dac502259ad0.gif?

FIERYBEV網(wǎng)絡(luò)運(yùn)動(dòng)預(yù)測(cè)的示意圖

下圖為鑒智機(jī)器人和清華大學(xué)團(tuán)隊(duì)合作提出的BEVerse,以周視攝像頭的視頻流作為輸入,就是在BEV空間內(nèi)完成的多任務(wù)模型感知任務(wù),除了動(dòng)態(tài)感知和局部語(yǔ)義地圖外,還進(jìn)行了運(yùn)動(dòng)預(yù)測(cè)。

efb9b58c-5b51-11ed-a3b6-dac502259ad0.png?

BEVerse的多任務(wù)模型架構(gòu)

在網(wǎng)格劃分時(shí),如何權(quán)衡大小、遠(yuǎn)近目標(biāo)檢測(cè)的矛盾?

本質(zhì)上,從2D圖像到BEV空間的轉(zhuǎn)化就是尋找一種映射關(guān)系,將2D圖像的每個(gè)像素投射到3D空間,使圖像的稠密語(yǔ)義信息在BEV空間得以完整保留。

一般在BEV轉(zhuǎn)化時(shí),都會(huì)使用網(wǎng)格劃分機(jī)制。

具體轉(zhuǎn)換過(guò)程,上文已經(jīng)詳細(xì)描述了,雖然轉(zhuǎn)換過(guò)程的原理不難,但轉(zhuǎn)化過(guò)程(如池化時(shí))卻非常消耗算力,主要是因?yàn)橄鄼C(jī)的特征點(diǎn)云密度非常大,比如200萬(wàn)像素的相機(jī),每幀會(huì)生成200萬(wàn)個(gè)點(diǎn)特征點(diǎn)云,比激光雷達(dá)的點(diǎn)云密度要大得多。

所以,為了提高轉(zhuǎn)換效率和節(jié)省算力,一般會(huì)限制網(wǎng)格的數(shù)量,這就需要預(yù)先設(shè)置好網(wǎng)格參數(shù),主要是網(wǎng)格間隔(grid)和x/y軸的范圍(range)

這就帶來(lái)了一個(gè)挑戰(zhàn),那就是如何在網(wǎng)格間隔參數(shù)設(shè)置時(shí)兼顧近處和遠(yuǎn)處、大目標(biāo)和小目標(biāo)。

網(wǎng)格間隔參數(shù)設(shè)置得大,BEV空間內(nèi)的特征顆粒度就大,雖然計(jì)算運(yùn)行速度比較快,但細(xì)節(jié)不是很豐富,網(wǎng)格參數(shù)小的話,顆粒度小,雖然細(xì)節(jié)豐富,但計(jì)算量大。

因?yàn)檐?chē)端算力的限制,要想感知距離足夠遠(yuǎn),網(wǎng)格就不能設(shè)置得特別小,而網(wǎng)格大的話,就可能損失很多細(xì)節(jié),小目標(biāo)就可能會(huì)遺漏,這就需要采取折中的方案,也需要對(duì)網(wǎng)絡(luò)做一些精細(xì)化的設(shè)計(jì),使用一些人工規(guī)則或者加一些訓(xùn)練技巧。

紐勱的符張杰介紹:“可以對(duì)遠(yuǎn)處目標(biāo)或者小目標(biāo)加以更大的損失權(quán)重,這樣網(wǎng)絡(luò)就會(huì)更加關(guān)注遠(yuǎn)處目標(biāo)或小目標(biāo),也可以利用多尺度的特征來(lái)解決這個(gè)問(wèn)題?!? 在BEV空間的多頭感知任務(wù)中,不同的任務(wù)對(duì)于網(wǎng)格采樣顆粒度和范圍的需求不同,可以根據(jù)具體的任務(wù)來(lái)設(shè)置網(wǎng)格和范圍參數(shù),這個(gè)思想在紐勱的BEVSegFormer和鑒智機(jī)器人和清華大學(xué)團(tuán)隊(duì)共同提出的BEVerse網(wǎng)絡(luò)架構(gòu)中都有體現(xiàn)。

在BEVerse中的多頭任務(wù)模型中,在語(yǔ)義地圖感知任務(wù)中,由于車(chē)道線一般比較細(xì),需把采樣網(wǎng)格設(shè)置和x/y軸范圍設(shè)置得比較?。▁軸范圍為[-30m,30m],y軸為[-15m,15m],間隔為0.15m),而在3D目標(biāo)檢測(cè)任務(wù)中,網(wǎng)格和范圍可以設(shè)置地稍大一些(x軸和y軸范圍均為[-51.2m,51.2m],間隔為0.8m)。

鑒智機(jī)器人的朱政則提到,可以根據(jù)不同場(chǎng)景的需求,對(duì)不同的范圍(x/y軸)進(jìn)行采樣,他說(shuō)道:“要考慮功能對(duì)于感知范圍的需求,比如某些功能只在高速公路上開(kāi)啟,那么對(duì)遠(yuǎn)處的目標(biāo)就更關(guān)注一些;如果只在城區(qū)開(kāi)啟時(shí),因?yàn)檐?chē)速低,關(guān)注的范圍就不需要那么遠(yuǎn),這樣可以節(jié)省部分算力?!?br />
BEV空間內(nèi)的模型訓(xùn)練和優(yōu)化

既然在BEV空間內(nèi)做目標(biāo)檢測(cè)有這么多好處,那么如何訓(xùn)練BEV空間內(nèi)的模型呢?

如何在BEV空間訓(xùn)練算法模型?

車(chē)端BEV網(wǎng)絡(luò)的訓(xùn)練方式,還是采用傳統(tǒng)的有監(jiān)督學(xué)習(xí),不過(guò)區(qū)別在于,和傳統(tǒng)2D感知任務(wù)在2D圖像空間內(nèi)完成標(biāo)注不同,其所需要的真值需要在BEV空間內(nèi)完成標(biāo)注。

據(jù)業(yè)內(nèi)專(zhuān)家反饋,BEV訓(xùn)練最大的挑戰(zhàn)是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需要的真值(Ground Truth)的生成上。

訓(xùn)練所需的真值數(shù)據(jù),是從車(chē)端的影子模式下回傳的視頻流數(shù)據(jù)中,通過(guò)數(shù)據(jù)挖掘篩選出有價(jià)值的corner case數(shù)據(jù)。這部分?jǐn)?shù)據(jù)再進(jìn)入云端真值系統(tǒng)。

云端真值系統(tǒng)的作用,先是進(jìn)行三維重建,轉(zhuǎn)換到BEV空間,再做時(shí)序融合,形成4D空間數(shù)據(jù),再進(jìn)行自動(dòng)標(biāo)注。

最后經(jīng)過(guò)人工質(zhì)檢(QA)后就形成了所需要的真值。

這樣4D空間的真值數(shù)據(jù)就可以用來(lái)訓(xùn)練車(chē)端的BEV感知模型了,訓(xùn)練完成后再繼續(xù)部署到車(chē)端,這樣不斷迭代來(lái)形成閉環(huán)。

具體流程可以參考下圖。

efe77cf6-5b51-11ed-a3b6-dac502259ad0.png?

BEV感知模型的訓(xùn)練鏈路

值得一提的是,上述的鏈路,尤其是車(chē)端影子模式+云端真值系統(tǒng)相結(jié)合的方式進(jìn)行模型迭代形成數(shù)據(jù)閉環(huán),更像是個(gè)“理想鏈路”。受限于實(shí)現(xiàn)技術(shù)難度和合規(guī)性,目前真正能夠?qū)崿F(xiàn)完整閉環(huán)的玩家,可以說(shuō)是少之又少。 當(dāng)前更普遍的還是自建采集車(chē)隊(duì),用激光雷達(dá)+視覺(jué)的真值車(chē)去采集數(shù)據(jù),做聯(lián)合4D標(biāo)注來(lái)進(jìn)行模型訓(xùn)練和迭代,并部署到車(chē)端。

如何提升BEV感知精度?

對(duì)于感知任務(wù)而言,精度是下游非常關(guān)心的。

由于視覺(jué)先天在測(cè)距方面存在不足,在BEV空間內(nèi)提升感知精度就成為了至關(guān)重要的,而這又和模型訓(xùn)練密不可分。

根據(jù)業(yè)內(nèi)專(zhuān)家的實(shí)踐經(jīng)驗(yàn),要想提高車(chē)端BEV感知模型的精度,一般從這三方面入手:

01 優(yōu)化云端三維重建和標(biāo)注模型

有監(jiān)督學(xué)習(xí)模式下,訓(xùn)練數(shù)據(jù)真值的精度決定了所訓(xùn)練模型的精度上限。對(duì)于BEV感知模型而言,云端真值生成系統(tǒng)就是“老師”,要想提升車(chē)端BEV感知模型這位“學(xué)生”的水平,提升負(fù)責(zé)三維重建和自動(dòng)標(biāo)注的云端真值系統(tǒng)這位“老師”的水平是很重要的。

云端“老師”的三維重建功能,也是要經(jīng)過(guò)數(shù)據(jù)進(jìn)行訓(xùn)練的,為了讓訓(xùn)練“老師”的數(shù)據(jù)有足夠高的精度,一般會(huì)使用帶激光雷達(dá)的真值車(chē)采集得到用于訓(xùn)練數(shù)據(jù)的真值。地平線的做法是,為了獲取更好的重建效果,會(huì)使用真值車(chē)從不同的行駛方向采集同一個(gè)地點(diǎn)的數(shù)據(jù)。

除了提升用于訓(xùn)練“老師”的數(shù)據(jù)精度外,業(yè)內(nèi)公司在使用云端真值系統(tǒng)進(jìn)行離線感知任務(wù)時(shí),會(huì)不惜算力做一些感知融合處理,如融合其他傳感器數(shù)據(jù)(激光雷達(dá)、毫米波雷達(dá)等)和時(shí)序信息,從而獲得完整的BEV空間的4D重建場(chǎng)景,以此作為真值來(lái)訓(xùn)練車(chē)端的網(wǎng)絡(luò)。

如果車(chē)端回傳的數(shù)據(jù)中有激光點(diǎn)云,數(shù)據(jù)精度會(huì)更高,效果也更好,如果沒(méi)有激光點(diǎn)云,??也可以依賴視覺(jué)進(jìn)行三維重建。據(jù)了解,基于視覺(jué)數(shù)據(jù)進(jìn)行云端三維重建的數(shù)據(jù)精度,也是可以滿足車(chē)端模型訓(xùn)練要求的。而且,由于當(dāng)前激光雷達(dá)上車(chē)較少且位置差異較大,目前業(yè)內(nèi)還是以視覺(jué)數(shù)據(jù)為主進(jìn)行三維重建。

在BEV空間下標(biāo)注時(shí),為了提升標(biāo)注效率和標(biāo)注精度,也會(huì)先用云端真值系統(tǒng)自動(dòng)標(biāo)注做預(yù)處理,完成后再人工進(jìn)行校驗(yàn),使真值的精度達(dá)到近似人類(lèi)駕駛員能達(dá)到的精度。

02 增加訓(xùn)練數(shù)據(jù)量

影子模式下,車(chē)端會(huì)設(shè)置很多觸發(fā)器(trigger)的策略,采集有價(jià)值的數(shù)據(jù)回傳到云端。 在云端進(jìn)行數(shù)據(jù)挖掘后,找到有價(jià)值的corner case,然后重新去做真值生成,并通過(guò)數(shù)據(jù)驅(qū)動(dòng)對(duì)車(chē)端網(wǎng)絡(luò)進(jìn)行訓(xùn)練迭代。

毫無(wú)疑問(wèn),訓(xùn)練數(shù)據(jù)所覆蓋的場(chǎng)景越多,車(chē)端模型的泛化能力越強(qiáng),感知精度也越高。相比于訓(xùn)練數(shù)據(jù)的數(shù)量,更重要的是數(shù)據(jù)的質(zhì)量,也就是數(shù)據(jù)需要覆蓋更多的極端場(chǎng)景,如不同的城市道路、不同的光照條件等。

除了車(chē)端影子模式獲取數(shù)據(jù)和自建采集車(chē)隊(duì)外,還有一種更高效地獲取數(shù)據(jù)的方法,那就是去年特斯拉AI Day提出來(lái)的通過(guò)仿真獲取數(shù)據(jù)。

f00b3376-5b51-11ed-a3b6-dac502259ad0.png?

特斯拉AI Day中的仿真介紹

03 優(yōu)化車(chē)端網(wǎng)絡(luò)架構(gòu)

除了上述兩點(diǎn)外,設(shè)計(jì)車(chē)端模型架構(gòu)也是非常重要的,架構(gòu)的好壞也直接決定了網(wǎng)絡(luò)的效率和功能水平。 不過(guò)受訪的多位專(zhuān)家也提到,對(duì)于BEV感知而言,并不需要一味地提升感知精度,最主要的評(píng)價(jià)指標(biāo)還是看能否滿足下游的需求。

其實(shí)感知精度的要求可以不用那么高,就像人開(kāi)車(chē)一樣,對(duì)于近處的物體精度高一點(diǎn)就可以,對(duì)于遠(yuǎn)處的物體來(lái)說(shuō),過(guò)于追求精度反而是沒(méi)有必要的。

一位專(zhuān)注于做視覺(jué)的從業(yè)者說(shuō):“BEV空間內(nèi)的視覺(jué)算法精度在相當(dāng)一段范圍內(nèi)精度還是非常準(zhǔn)的,??基本可以控制在百分之幾的誤差。??人開(kāi)車(chē)的時(shí)候也是如此,前面200米左右有個(gè)東西,??它的精確距離是200米還是220米,其實(shí)區(qū)別并不大?!?br />
BEV語(yǔ)義地圖有啥用?

在當(dāng)前高等級(jí)智能駕駛系統(tǒng)中,高精地圖所提供的語(yǔ)義信息,包括道路拓?fù)浣Y(jié)構(gòu)、車(chē)道線、限速要求等,能夠讓智能駕駛系統(tǒng)更好地理解現(xiàn)實(shí)世界的行車(chē)規(guī)則,也讓很多人認(rèn)為高精地圖是通往高等級(jí)智能駕駛的道路上不可或缺的一部分。

不過(guò)當(dāng)前大部分的高精地圖,都是使用采集車(chē)得到的以點(diǎn)云為主的數(shù)據(jù)進(jìn)行標(biāo)注得來(lái),地圖的構(gòu)建和維護(hù)成本都很高。

而HDMapNet、BEVSegFormer、BEVerse等方法,可以基于多攝像頭信息,將BEV空間內(nèi)的車(chē)道線、路沿、斑馬線等靜態(tài)目標(biāo)物,在線生成局部語(yǔ)義地圖供下游規(guī)控任務(wù)使用,大大降低了語(yǔ)義地圖的構(gòu)建和維護(hù)成本,從而可能會(huì)給行業(yè)帶來(lái)地圖構(gòu)建和更新的新范式。

f032ecae-5b51-11ed-a3b6-dac502259ad0.png

HDMapNet實(shí)時(shí)構(gòu)建局部語(yǔ)義地圖的網(wǎng)絡(luò)模型

當(dāng)前高速NOA的主流方案,還是依賴高精地圖,不過(guò)當(dāng)功能拓展到城區(qū)NOA時(shí),目前城市道路尚無(wú)高精地圖覆蓋。

諸多業(yè)內(nèi)專(zhuān)家認(rèn)為BEV在線構(gòu)建的語(yǔ)義地圖可以一定程度上代替高精地圖的作用,在城市NOA中發(fā)揮重要作用。

追勢(shì)科技發(fā)布的城市記憶領(lǐng)航功能,也是利用了“單車(chē)多次”的記憶模式,利用車(chē)端傳感器(激光雷達(dá)非必要)來(lái)實(shí)現(xiàn)特定通勤路線的語(yǔ)義地圖的構(gòu)建和更新,從而可以實(shí)現(xiàn)上下班這種特定路線的點(diǎn)對(duì)點(diǎn)領(lǐng)航輔助功能。

f0b80c86-5b51-11ed-a3b6-dac502259ad0.png?

追勢(shì)科技城市記憶領(lǐng)航功能算法架構(gòu)

雖然在理論上,方案可行性沒(méi)有大問(wèn)題,不過(guò)在實(shí)際落地中也有不少挑戰(zhàn)。

最大的挑戰(zhàn)是精度,相比于高精地圖,BEV語(yǔ)義地圖的精度是略有不足的,而傳統(tǒng)智能駕駛算法架構(gòu)中,下游的規(guī)控任務(wù)都依賴高精地圖提供精確的drive line,當(dāng)面對(duì)上游給個(gè)“不那么精確”或者“大方向上正確”的語(yǔ)義地圖時(shí),要保證通過(guò)率,下游的規(guī)控邏輯也需要相應(yīng)地調(diào)整。

不過(guò),并不是說(shuō)地圖就完全不需要了,地圖畢竟是超視距傳感器,對(duì)于提前預(yù)知下個(gè)路口的道路拓?fù)浣Y(jié)構(gòu)還是很有幫助的。追勢(shì)科技的城市記憶領(lǐng)航輔助中,也只有當(dāng)特定路線的語(yǔ)義地圖成熟、完整時(shí),才可以啟用記憶領(lǐng)航功能。

只是可能以后地圖的精度不需要像現(xiàn)在的高精地圖一樣那么高了,有專(zhuān)家表示“可能未來(lái)導(dǎo)航地圖上加一些語(yǔ)義信息就可以滿足要求了”

BEV模型和數(shù)據(jù)的通用性

不同的量產(chǎn)車(chē)型中,攝像頭的數(shù)量、安裝位置和具體參數(shù)存在較大的差異,使用傳統(tǒng)后融合策略時(shí),這些定制化的傳感器適配帶來(lái)了巨大的工作量。

那么,在BEV空間進(jìn)行中融合時(shí),是否會(huì)有差異呢?

一方面,在適配不同車(chē)型時(shí),是否和傳統(tǒng)的后融合有差異呢? 另一方面,從不同量產(chǎn)車(chē)型回傳回來(lái)的數(shù)據(jù),是否能夠用于持續(xù)迭代統(tǒng)一的BEV感知模型呢?

如何適配不同車(chē)型 ??

由于傳統(tǒng)后融合太依賴人工后處理規(guī)則,在傳感器適配時(shí),有諸多的無(wú)比痛苦的定制化工作,可能安裝位置或者視角稍微調(diào)整一下,就需要花大量的時(shí)間適配。

與后融合方案相比,BEV感知模型由于少了很多人工規(guī)則,通用能力要出色得多,雖然也需要做一些適配,但是整體工作量還是要少地多。

“換一個(gè)新車(chē)型,相機(jī)安裝位置變了,這時(shí)候需要把相機(jī)重新標(biāo)定一下,再采集數(shù)據(jù)訓(xùn)練一下,”一位行業(yè)專(zhuān)家說(shuō)道。

為了提升BEV模型的泛化能力,一般可以通過(guò)預(yù)先設(shè)置??結(jié)構(gòu)化參數(shù)來(lái)適配不同車(chē)型(比如安裝高度、安裝位置、角度等),這樣就可以在模型訓(xùn)練時(shí)排除相機(jī)內(nèi)外參的影響。

不過(guò)也有一些模型,如BEVerse等,嘗試把相機(jī)的內(nèi)外參作為信號(hào)輸入,直接給到模型進(jìn)行訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)自己去學(xué)著利用這些信息做適配,這樣適配會(huì)更加方便,不過(guò)這也對(duì)BEV網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)提出了更高的要求。

回傳數(shù)據(jù)的通用性

業(yè)內(nèi)專(zhuān)家普遍認(rèn)為,不同車(chē)型上的攝像頭雖然可能位置、數(shù)量不同,但回傳回來(lái)的數(shù)據(jù)(如圖像、視頻流)轉(zhuǎn)換到BEV空間后,都可以很方便地用于訓(xùn)練BEV模型。

只是考慮到位置差異,在使用車(chē)端攝像頭數(shù)據(jù)時(shí),需要對(duì)多攝像頭的重合部分做一下處理。

其實(shí)環(huán)視攝像頭的視野重合部分并不多,前向多個(gè)不同F(xiàn)OV的攝像頭會(huì)有較多重合部分。

要處理這種重合部分,可以采用拼接技術(shù)。每一張圖像都有自己的特征點(diǎn),數(shù)據(jù)采集后,先根據(jù)圖像的特征點(diǎn),對(duì)特征點(diǎn)相似的圖像進(jìn)行特征匹配(圖像匹配),從而找到鄰接圖并將相鄰的圖像拼接在一起(圖像拼接),然后就對(duì)特征相同的不同分辨率的圖像進(jìn)行融合(圖像融合)。完成圖像融合后,只需要把相鄰幀圖進(jìn)行拼接成視頻(視頻融合),整個(gè)過(guò)程就完成了。

具體過(guò)程如下圖所示。

f0e9db80-5b51-11ed-a3b6-dac502259ad0.png

拼接流程

圖像匹配過(guò)程中很關(guān)鍵的環(huán)節(jié)是圖像特征點(diǎn)的獲取和匹配。這可以通過(guò)SIFT、SURF等方法來(lái)實(shí)現(xiàn),不過(guò)為了提升計(jì)算效率,業(yè)內(nèi)一般通過(guò)降采樣(類(lèi)似于降低分辨率)的方式來(lái)進(jìn)行特征檢測(cè)。

在圖像融合時(shí),一般可用泊松算法、直接平均算法和加權(quán)算法等方法,直接平均算法業(yè)內(nèi)用得更多一些。

除了上述的圖像拼接外,為了消除不同車(chē)型的差異,業(yè)內(nèi)還用到一種叫“虛擬相機(jī)”的方法來(lái)共享訓(xùn)練數(shù)據(jù),“就是將圖像投影到一個(gè)標(biāo)準(zhǔn)的視角上(訓(xùn)練時(shí)用的視角),投影后的相機(jī)就叫虛擬相機(jī),這樣就能保證回傳數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的視角相同了,”一位行業(yè)專(zhuān)家介紹道。

除了上述提到的視角問(wèn)題外,一位行業(yè)專(zhuān)家也提到ISP( Image Signal Process, 圖像信號(hào)處理)的處理也可能會(huì)影響數(shù)據(jù)的通用性。不同攝像頭的ISP不同,對(duì)Raw data的處理方式也不同,雖然可以通過(guò)技術(shù)手段來(lái)解決(如通過(guò)圖像預(yù)處理統(tǒng)一到同一個(gè)色彩空間下),但也可能會(huì)影響到感知結(jié)果,“就像人帶著墨鏡看世界一樣,看一般物體可能不受影響,看紅綠燈就可能會(huì)受到一些影響”,這位專(zhuān)家解釋道。

BEV技術(shù)的局限性與挑戰(zhàn)

BEV解決不了視覺(jué)的“先天缺陷” ??在傳統(tǒng)的2D檢測(cè)時(shí),檢測(cè)、分類(lèi)和跟蹤任務(wù),都是依賴有監(jiān)督學(xué)習(xí)的訓(xùn)練,也就是說(shuō)感知網(wǎng)絡(luò)只能識(shí)別出之前“見(jiàn)過(guò)”的物體,對(duì)于之前沒(méi)“見(jiàn)過(guò)”的物體(即訓(xùn)練數(shù)據(jù)集里沒(méi)有的),是識(shí)別不出來(lái)的,從而會(huì)出現(xiàn)“不認(rèn)識(shí)就看不見(jiàn)”的現(xiàn)象,這也被認(rèn)為是視覺(jué)的“先天缺陷”。比如少見(jiàn)的異形物體,如披薩盒,高速上奔跑的野生動(dòng)物等,這種情況可能出現(xiàn)的概率并不高,但是一旦出現(xiàn)可能是致命的。

那么這個(gè)問(wèn)題,在轉(zhuǎn)換到BEV空間后,可以解決嗎?

業(yè)內(nèi)專(zhuān)家給的答案很一致:不能。

BEV模型沒(méi)有訓(xùn)練過(guò)的物體,在BEV空間內(nèi),可能是“不存在”的。

不過(guò)仍然有其他辦法來(lái)彌補(bǔ)這個(gè)缺陷,具體如下:

01 深度(Depth)估計(jì)

當(dāng)前在2D感知方案中應(yīng)用比較廣泛的是底層視覺(jué)感知(low level vision)中的深度估計(jì)。

深度估計(jì)一般是通過(guò)激光雷達(dá)的稀疏點(diǎn)云提供的真值進(jìn)行訓(xùn)練,從而利用深度學(xué)習(xí)直接預(yù)測(cè)出稠密的深度值。通過(guò)預(yù)測(cè)深度就可以一定程度上解決異形物體問(wèn)題。

如下圖所示的右側(cè)的拉了樹(shù)木的大車(chē),如果使用普通的車(chē)輛檢測(cè),因?yàn)檫@種訓(xùn)練樣本極少,可能會(huì)漏檢,而采用深度估計(jì),至少可以知道該處有物體,可以及時(shí)采取措施,避免安全事故。

f113edbc-5b51-11ed-a3b6-dac502259ad0.png?

單目深度估計(jì)

引自地平線蘇治中主題為“面向規(guī)?;慨a(chǎn)的自動(dòng)駕駛感知研發(fā)與實(shí)踐”的線上分享

在BEV空間中,可以把底層視覺(jué)靜態(tài)感知到的深度預(yù)估,轉(zhuǎn)化為路面上的高度信息。下圖所示為一幀所感知到的結(jié)果,藍(lán)色表示路面,高度比較低,紅色表示凸起,紅色越深表示高度越高,也能看到一些地面上的凸起物體,可以根據(jù)識(shí)別出來(lái)的物體類(lèi)別進(jìn)行后續(xù)的決策規(guī)劃,如果是無(wú)法識(shí)別的異形物體,那么最安全的方式就是避開(kāi)它。

f13e56ec-5b51-11ed-a3b6-dac502259ad0.png

BEV空間中的底層視覺(jué)感知

引自地平線架構(gòu)師劉景初主題為“上帝視角與想象力——自動(dòng)駕駛感知的新范式”的線上分享

鑒智機(jī)器人推出的視覺(jué)雷達(dá)也是采用類(lèi)似的原理,通過(guò)前向雙目相機(jī)和環(huán)視相機(jī)產(chǎn)生深度信息生成稠密點(diǎn)云,并在BEV空間內(nèi)進(jìn)行目標(biāo)檢測(cè)。

f16fefd6-5b51-11ed-a3b6-dac502259ad0.png?

鑒智機(jī)器人提出的視覺(jué)雷達(dá)算法架構(gòu)

02 數(shù)據(jù)驅(qū)動(dòng)

當(dāng)然,底層視覺(jué)感知的深度估計(jì)也不是萬(wàn)能的,如果遇到一個(gè)沒(méi)訓(xùn)練過(guò)的數(shù)據(jù),可能在特征提取時(shí)就忽略了,所以,要解決這個(gè)問(wèn)題的另一種方法就是數(shù)據(jù)驅(qū)動(dòng)。

數(shù)據(jù)驅(qū)動(dòng)依賴數(shù)據(jù)閉環(huán)工具鏈,各家也都開(kāi)發(fā)了工具鏈系統(tǒng),比如毫末智行的LUCAS、地平線的AIDI等。

03 多傳感器冗余

在純視覺(jué)不能保證百分之百安全的情況下,采用多傳感器冗余的方案成為了眾多主機(jī)廠的選擇,尤其是激光雷達(dá),是對(duì)視覺(jué)非常好的補(bǔ)充。車(chē)端裝了激光雷達(dá)之后,由于有更高精度的數(shù)據(jù),能給視覺(jué)提供更好的真值數(shù)據(jù),也能更好地訓(xùn)練視覺(jué)算法。

就像均勝電子郭繼舜在一次線上分享時(shí)提到的,在不能保證完全安全的情況下,系統(tǒng)設(shè)計(jì)時(shí)考慮傳感器冗余、硬件堆料等是非常必要的,也是“系統(tǒng)設(shè)計(jì)的正義”。

BEV感知的挑戰(zhàn)

總體而言,BEV是個(gè)全新的感知范式,向上下游(如定位和預(yù)測(cè))都有很大的拓展空間,業(yè)內(nèi)很多企業(yè)也都在積極探索實(shí)踐中,但在實(shí)踐中還有很多的挑戰(zhàn)需要克服。

01 數(shù)據(jù)問(wèn)題

上文也提到了,BEV感知中最具備挑戰(zhàn)的還是如何獲取更多維度的數(shù)據(jù),以及產(chǎn)生更高質(zhì)量的真值。加上Transformer本身的特性,為更好地發(fā)揮優(yōu)勢(shì),其對(duì)數(shù)據(jù)量的要求也比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)大得多,這就越發(fā)加劇了模型對(duì)數(shù)據(jù)的“饑渴”程度。

要應(yīng)對(duì)這個(gè)挑戰(zhàn),一方面依賴車(chē)端影子模式持續(xù)不斷地采集數(shù)據(jù),另一方面也依賴云端系統(tǒng)去做數(shù)據(jù)挖掘和真值生成,這需要持續(xù)不斷地去優(yōu)化云端真值系統(tǒng)的算法。

此外,為了減少標(biāo)注工作量,提升訓(xùn)練效率,自監(jiān)督學(xué)習(xí)也開(kāi)始被引入到云端系統(tǒng)中。 和有監(jiān)督學(xué)習(xí)不同,自監(jiān)督學(xué)習(xí)的真值信息不是人工標(biāo)注的,而是算法自動(dòng)構(gòu)造監(jiān)督信息(真值),來(lái)進(jìn)行監(jiān)督學(xué)習(xí)或訓(xùn)練。當(dāng)前自監(jiān)督學(xué)習(xí)已經(jīng)被應(yīng)用在數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注和神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練中。

02 算力消耗問(wèn)題

上文也提到過(guò),由于使用Transfomer進(jìn)行BEV空間轉(zhuǎn)化非常消耗算力,對(duì)車(chē)端有限算力提出了挑戰(zhàn)。 目前主要有兩個(gè)優(yōu)化的方向:

2.1模型輕量化

圖像處理中,使用Transformer的計(jì)算復(fù)雜度與圖像尺寸的平方成正比,這會(huì)導(dǎo)致,在圖像很大的時(shí)候,計(jì)算量過(guò)于龐大。

如何在盡量不影響感知精度的前提下,降低Transformer的計(jì)算復(fù)雜度,節(jié)省車(chē)端算力,成了學(xué)術(shù)界和工業(yè)界普遍關(guān)注的問(wèn)題。

為了解決這個(gè)問(wèn)題,可以借鑒使用傳統(tǒng)CNN中的模型壓縮技巧來(lái)降低計(jì)算復(fù)雜度,比如:

剪枝:深度學(xué)習(xí)模型可以看作是一個(gè)復(fù)雜樹(shù)狀結(jié)構(gòu),如果能減去一些對(duì)結(jié)果沒(méi)什么影響的旁枝,就可以實(shí)現(xiàn)模型的減小。

量化:深度學(xué)習(xí)模型由大量的浮點(diǎn)型(float)權(quán)重參數(shù)組成,如果能用低精度類(lèi)型(如int8)替代原有的高精度類(lèi)型(如float32)的權(quán)重參數(shù),那么模型體積就會(huì)大大壓縮,低位的浮點(diǎn)計(jì)算速度會(huì)遠(yuǎn)遠(yuǎn)高于高位浮點(diǎn)計(jì)算速度,這也是最容易實(shí)現(xiàn)的壓縮方式。

此外,學(xué)術(shù)界也有一些最新的成果,可以供業(yè)界參考。 使用移動(dòng)窗口操作(Shifted windowscheme)、具有層級(jí)設(shè)計(jì)的(hierarchicalarchitecture)的SwinTransformer,可以把計(jì)算復(fù)雜度大幅度降低到具有輸入圖像大小線性計(jì)算的復(fù)雜度,且在各種圖像任務(wù)上也都有很好的性能,因而SwinTransformer可以被當(dāng)做骨干網(wǎng)絡(luò)來(lái)使用。

借鑒了DCN(Deformable Convolutional Networks,可變形卷積網(wǎng)絡(luò))的思想,Deformable DETR將DETR中的注意力機(jī)制替換成可變形注意力機(jī)制(與全局(global)&密集(dense)的注意力機(jī)制不同,可變形注意力機(jī)制能夠聚焦于特征相關(guān)區(qū)域并捕獲信息,從而實(shí)現(xiàn)局部(local)&稀疏(sparse)的高效注意力機(jī)制),使DETR范式的檢測(cè)器更加高效,收斂速度也大大加快,并且給了業(yè)界啟發(fā),可以將可變形注意力泛化,形成了Deformable Transformer。

2.2多任務(wù)模型

除了上述模型壓縮技巧外,還有一個(gè)常用的技巧,就是共享權(quán)重,有點(diǎn)像提取公因數(shù),假設(shè)模型的每一層都有公用的公因數(shù),是否可以提取出來(lái)做一次運(yùn)算,而不是每一層都算一次,如共享骨干網(wǎng)絡(luò)等,這就是應(yīng)用普遍的多任務(wù)模型(Multi-Task learning)。

其中最出名的多任務(wù)模型,莫過(guò)于特斯拉的HydraNet,在一個(gè)模型中同時(shí)實(shí)現(xiàn)了目標(biāo)檢測(cè)、紅綠燈檢測(cè)和車(chē)道線檢測(cè)三個(gè)任務(wù)。

使用多任務(wù)模型最明顯的優(yōu)勢(shì),就是因?yàn)楣蚕硖卣魈崛〉木W(wǎng)絡(luò)參數(shù),避免了大量的重復(fù)計(jì)算,效率大大提升。

除此外,多任務(wù)模型還有個(gè)額外好處,就是有時(shí)可以加速網(wǎng)絡(luò)的訓(xùn)練過(guò)程。因?yàn)楣蚕砭W(wǎng)絡(luò)的感知任務(wù)是強(qiáng)相關(guān)的,比如車(chē)道線檢測(cè)和動(dòng)態(tài)目標(biāo)檢測(cè),在訓(xùn)練其中一個(gè)任務(wù)時(shí),共享網(wǎng)絡(luò)的特征提取能力也加強(qiáng)了,對(duì)于另外的任務(wù)的性能提升也是有幫助的。

那有沒(méi)有可能在訓(xùn)練多任務(wù)模型的時(shí)候出現(xiàn)不同的任務(wù)“相互傷害”“此消彼長(zhǎng)”的現(xiàn)象呢?

據(jù)地平線蘇治中的線上分享中提到的,這種情況是有可能的,不過(guò)也有技巧辦法可以解決。比如某個(gè)任務(wù)對(duì)其他任務(wù)傷害很大,就可以降低這個(gè)任務(wù)的學(xué)習(xí)速率(learning rate),降低它的權(quán)重,如果實(shí)在無(wú)法兼容,還可以單獨(dú)再新建一個(gè)模型去訓(xùn)練這個(gè)任務(wù)。

比如BEVerse,就是在BEV空間內(nèi)完成的多任務(wù)模型感知任務(wù),完成了3D目標(biāo)檢測(cè)、局部語(yǔ)義地圖和運(yùn)動(dòng)預(yù)測(cè)這三個(gè)任務(wù),且每個(gè)模塊都達(dá)到了當(dāng)前最優(yōu)水平( SOTA)。

3. BEV算法更復(fù)雜、門(mén)檻更高

相比于傳統(tǒng)2D圖像檢測(cè),BEV感知算法會(huì)復(fù)雜得多,尤其是前文提到的云端的3D重建、4D空間的標(biāo)注、真值生成和模型訓(xùn)練,都是之前2D感知任務(wù)中所沒(méi)有的,相應(yīng)地難度和門(mén)檻自然也要高一些。

不過(guò),朱政也提到,由于BEV感知進(jìn)入大家的視野還不太算太久,各家還在摸索中,有些算法還沒(méi)那么成熟,等到后續(xù)量產(chǎn)實(shí)踐多起來(lái)了,開(kāi)源的工具也慢慢多起來(lái)了,門(mén)檻也會(huì)慢慢降低,“就像四五年前其實(shí)2D感知也沒(méi)那么好做,不過(guò)現(xiàn)在成熟多了,有很多開(kāi)源的算法,工具鏈也很成熟了,門(mén)檻就顯得沒(méi)那么高了,”朱政說(shuō)道。

未盡之語(yǔ)

隨著如BEV和Transformer等諸多視覺(jué)算法的進(jìn)展,視覺(jué)能力的上限也大大提升。

諸多業(yè)內(nèi)專(zhuān)家也提到,即使量產(chǎn)車(chē)輛裝了激光雷達(dá),在云端進(jìn)行數(shù)據(jù)處理時(shí),還是會(huì)以視覺(jué)為主,“畢竟,相比激光雷達(dá)先天的缺點(diǎn)(如點(diǎn)云稀疏、缺少語(yǔ)義信息等),視覺(jué)的優(yōu)勢(shì)非常明顯,加上攝像頭出貨量更大,產(chǎn)業(yè)鏈更加成熟,后續(xù)升級(jí)也更加方便,比如可以很容易從800萬(wàn)像素升級(jí)到1600萬(wàn)像素,甚至現(xiàn)在手機(jī)攝像頭的像素已經(jīng)過(guò)億了”,一位專(zhuān)家告訴九章智駕。

之前采訪一家進(jìn)軍L2前裝量產(chǎn)市場(chǎng)的L4公司的CTO時(shí),對(duì)方也提到,過(guò)去L4以激光雷達(dá)點(diǎn)云為主、視覺(jué)為輔的方案是有其歷史原因的,因?yàn)槟菚r(shí)基于深度學(xué)習(xí)的視覺(jué)算法還不成熟,能支持深度學(xué)習(xí)的大算力平臺(tái)也不成熟,不過(guò)目前,視覺(jué)在L4方案中占的分量會(huì)越來(lái)越重,甚至未來(lái)有可能超過(guò)激光雷達(dá)。

隨著圖像轉(zhuǎn)化到BEV空間后,也可以直接借鑒激光雷達(dá)、毫米波雷達(dá)領(lǐng)域的研究方法和進(jìn)展。如果未來(lái)進(jìn)一步繞過(guò)ISP,直接將RAW DATA輸入到感知模型中,可進(jìn)一步提升視覺(jué)在極限條件下(極暗和極亮)的感知能力,可以想象,未來(lái)視覺(jué)能力會(huì)有更大的發(fā)展,讓我們拭目以待。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4797

    瀏覽量

    102404
  • 多傳感器
    +關(guān)注

    關(guān)注

    0

    文章

    81

    瀏覽量

    15549
  • IPM
    IPM
    +關(guān)注

    關(guān)注

    5

    文章

    170

    瀏覽量

    39304

原文標(biāo)題:一文讀懂BEV空間內(nèi)的特征級(jí)融合

文章出處:【微信號(hào):智能汽車(chē)電子與軟件,微信公眾號(hào):智能汽車(chē)電子與軟件】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SMA接口:如何在有限空間內(nèi)實(shí)現(xiàn)卓越射頻連接

    SMA 接口通過(guò)精巧的尺寸設(shè)計(jì)、優(yōu)化的信號(hào)傳輸結(jié)構(gòu)以及優(yōu)質(zhì)的材料與工藝,成功在有限空間內(nèi)實(shí)現(xiàn)了卓越的射頻連接。而在這背后,德索精密工業(yè)憑借其專(zhuān)業(yè)的技術(shù)實(shí)力與嚴(yán)謹(jǐn)?shù)纳a(chǎn)態(tài)度,為 SMA 接口的卓越性
    的頭像 發(fā)表于 03-21 10:48 ?301次閱讀
    SMA接口:如何在有限<b class='flag-5'>空間內(nèi)</b>實(shí)現(xiàn)卓越射頻連接

    BEVFusion —面向自動(dòng)駕駛的多任務(wù)多傳感器高效融合框架技術(shù)詳解

    ? ?統(tǒng)一BEV表示 將多模態(tài)特征映射到共享的鳥(niǎo)瞰圖(BEV空間,保留幾何結(jié)構(gòu)(激光雷達(dá)優(yōu)勢(shì))和語(yǔ)義密度(攝像頭
    的頭像 發(fā)表于 02-26 20:33 ?3505次閱讀
    BEVFusion —面向自動(dòng)駕駛的多任務(wù)多傳感器高效<b class='flag-5'>融合</b>框架技術(shù)詳解

    云服務(wù)器對(duì)比空間有什么優(yōu)勢(shì)和劣勢(shì)?

    云服務(wù)器相比空間,優(yōu)勢(shì)在于提供更高管理權(quán)限、靈活可擴(kuò)展的資源配置、卓越性能及更強(qiáng)安全性,適合有特定需求和技術(shù)背景的用戶。然而,云服務(wù)器成本較高,技術(shù)門(mén)檻也相對(duì)較高,且依賴穩(wěn)定互聯(lián)網(wǎng)連接。相比之下
    的頭像 發(fā)表于 02-21 10:42 ?212次閱讀

    SiP藍(lán)牙芯片在項(xiàng)目開(kāi)發(fā)及應(yīng)用中具有什么優(yōu)勢(shì)?

    昇潤(rùn)科技推出的BLE藍(lán)牙SiP芯片是一種通過(guò)先進(jìn)封裝技術(shù)將多個(gè)功能組件集成到單一封裝中的解決方案,在市場(chǎng)應(yīng)用中,其設(shè)計(jì)、性能在不同應(yīng)用場(chǎng)景中都具有一定優(yōu)勢(shì),高集成度使得外圍電路設(shè)計(jì)更簡(jiǎn)單;小體積使其
    發(fā)表于 02-19 14:53

    LTC2245和國(guó)產(chǎn)模數(shù)轉(zhuǎn)換器SC2245特征以及應(yīng)用優(yōu)勢(shì)分享

    LTC2245和國(guó)產(chǎn)模數(shù)轉(zhuǎn)換器SC2245特征以及應(yīng)用優(yōu)勢(shì)分享
    的頭像 發(fā)表于 01-20 10:04 ?400次閱讀
    LTC2245和國(guó)產(chǎn)模數(shù)轉(zhuǎn)換器SC2245<b class='flag-5'>特征</b>以及應(yīng)用<b class='flag-5'>優(yōu)勢(shì)</b>分享

    受限空間NCM811鋰離子電池?zé)崾Э芈蛹昂圹E特征研究

    自主設(shè)計(jì)的密閉箱體模擬高鎳鋰離子電池受限空間內(nèi)熱蔓延特性,貼合鋰離子電池實(shí)際工作情況。2.本文研究對(duì)象選取的是市場(chǎng)占有率越
    的頭像 發(fā)表于 12-30 10:27 ?663次閱讀
    受限<b class='flag-5'>空間</b>NCM811鋰離子電池?zé)崾Э芈蛹昂圹E<b class='flag-5'>特征</b>研究

    探討智慧校園的特征優(yōu)勢(shì)

    智慧校園是利用信息技術(shù)和物聯(lián)網(wǎng)技術(shù)等智能化手段,對(duì)校園內(nèi)的設(shè)施、資源和管理進(jìn)行數(shù)字化、智能化改造與整合,以提升教學(xué)、科研、管理和服務(wù)水平的現(xiàn)代化校園。智慧校園具有一系列特征優(yōu)勢(shì),以下
    的頭像 發(fā)表于 12-10 15:48 ?407次閱讀

    淺析基于自動(dòng)駕駛的4D-bev標(biāo)注技術(shù)

    4D-bev標(biāo)注技術(shù)是指在3D空間中以時(shí)間作為第四個(gè)維度進(jìn)行標(biāo)注的過(guò)程。4D-bev通常在地場(chǎng)景較為復(fù)雜的自動(dòng)駕駛場(chǎng)景中使用,其可以通過(guò)精準(zhǔn)地跟蹤和記錄動(dòng)態(tài)對(duì)象的運(yùn)動(dòng)軌跡、姿勢(shì)變化以及
    的頭像 發(fā)表于 12-06 15:01 ?2471次閱讀
    淺析基于自動(dòng)駕駛的4D-<b class='flag-5'>bev</b>標(biāo)注技術(shù)

    如何對(duì)電磁頻譜特征進(jìn)行分析

    智慧華盛恒輝如何對(duì)電磁頻譜特征進(jìn)行分析 一、引言 電磁頻譜特征分析對(duì)于了解敵方的通信、雷達(dá)、電子對(duì)抗等系統(tǒng)的運(yùn)行狀態(tài)和性能至關(guān)重要。通過(guò)深入分析敵方的電磁頻譜特征,可以揭示其作戰(zhàn)意圖、
    的頭像 發(fā)表于 11-27 16:51 ?457次閱讀

    如何對(duì)電磁頻譜系統(tǒng)特征進(jìn)行分析

    智慧華盛恒輝如何對(duì)電磁頻譜系統(tǒng)特征進(jìn)行分析? 一、引言 電磁頻譜特征分析對(duì)于了解敵方的通信、雷達(dá)、電子對(duì)抗等系統(tǒng)的運(yùn)行狀態(tài)和性能至關(guān)重要。通過(guò)深入分析敵方的電磁頻譜特征,可以揭示其作戰(zhàn)
    的頭像 發(fā)表于 11-27 15:06 ?386次閱讀

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    在很多車(chē)企的自動(dòng)駕駛介紹中,都會(huì)聽(tīng)到一個(gè)關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個(gè)啥?為什么很多車(chē)企在自動(dòng)駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)?其實(shí)“BEV
    的頭像 發(fā)表于 11-07 11:19 ?1048次閱讀
    自動(dòng)駕駛中一直說(shuō)的<b class='flag-5'>BEV</b>+Transformer到底是個(gè)啥?

    FPGA在圖像處理領(lǐng)域的優(yōu)勢(shì)有哪些?

    FPGA(Field Programmable Gate Array,現(xiàn)場(chǎng)可編程門(mén)陣列)在圖像處理領(lǐng)域具有顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面: 一、高并行處理能力 FPGA內(nèi)部擁有大量的邏輯
    發(fā)表于 10-09 14:36

    5G+藍(lán)牙融合定位的優(yōu)勢(shì)及應(yīng)用場(chǎng)景

    隨著科技的不斷進(jìn)步,物聯(lián)網(wǎng)技術(shù)迅速發(fā)展,5G融合定位成為趨勢(shì)。本文將探討5G+藍(lán)牙融合定位的優(yōu)勢(shì),并介紹其應(yīng)用場(chǎng)景。 首先,我們需要了解什么是5G和藍(lán)牙融合定位技術(shù)。5G作為第五代移動(dòng)
    的頭像 發(fā)表于 09-09 11:00 ?861次閱讀

    毫米波雷達(dá)具有哪些特點(diǎn)和優(yōu)勢(shì)

    毫米波雷達(dá)是一種利用毫米波段電磁波進(jìn)行探測(cè)和測(cè)量的雷達(dá)系統(tǒng)。它具有許多特點(diǎn)和優(yōu)勢(shì),使其在許多領(lǐng)域得到廣泛應(yīng)用。以下是毫米波雷達(dá)的一些主要特點(diǎn)和優(yōu)勢(shì): 高分辨率:毫米波雷達(dá)
    的頭像 發(fā)表于 08-16 10:04 ?2665次閱讀

    bnc彎公頭有哪些優(yōu)勢(shì)和特點(diǎn)

    設(shè)計(jì),這種設(shè)計(jì)使得在有限的空間內(nèi)能夠更靈活地布線,避免了直線連接器可能帶來(lái)的空間浪費(fèi)和布線難題。在設(shè)備密集或空間受限的環(huán)境中,如服務(wù)器機(jī)房、監(jiān)控中心等,BNC彎公頭能
    的頭像 發(fā)表于 08-14 09:05 ?632次閱讀
    bnc彎公頭有哪些<b class='flag-5'>優(yōu)勢(shì)</b>和特點(diǎn)