自動駕駛中的視覺感知是車輛在不同交通條件下安全、可持續(xù)地行駛的關(guān)鍵部分。然而,在大雨和霧霾等惡劣天氣下,視覺感知性能受到多種降級效應(yīng)的極大影響。最近,基于深度學(xué)習(xí)的感知方法已經(jīng)解決了多種降級效應(yīng)以反映真實(shí)世界的惡劣天氣情況,但由于其在移動設(shè)備上部署的高計(jì)算成本,同時(shí),圖像增強(qiáng)與視覺感知之間的相關(guān)性差,仍然有許多邊界效應(yīng)無法解決。 ?
?
? ? 為了解決在低內(nèi)存和準(zhǔn)確性方面提高惡劣天氣下車道和 2D 目標(biāo)檢測以及深度估計(jì)的性能。我們提出了一個(gè)被惡劣天氣損壞的圖像作為輸入,引入高級視覺任務(wù)驅(qū)動為助力的圖像增強(qiáng)網(wǎng)絡(luò),也就是一種新穎的任務(wù)驅(qū)動圖像增強(qiáng)框架,該框架通過探索視覺感知與增強(qiáng)之間的相互影響,從而在惡劣天氣條件下實(shí)現(xiàn)安全可靠的自動駕駛。具體來說,首先,通過引入了一種新穎的低內(nèi)存網(wǎng)絡(luò)來減少密集塊的大部分層連接,以減少內(nèi)存和計(jì)算成本,同時(shí)保持高性能。其次,通過引入了一種新的任務(wù)驅(qū)動訓(xùn)練策略,以穩(wěn)健地指導(dǎo)適用于高質(zhì)量圖像恢復(fù)和高精度感知的高級任務(wù)模型?;诙说蕉藢W(xué)習(xí)策略,這里的模型旨在在任何惡劣天氣情況下具有感知和硬件友好的特性。 ?
惡劣環(huán)境條件下的圖像識別算法概述
? 當(dāng)在自動駕駛中經(jīng)常遇到的惡劣天氣條件下進(jìn)行高級視覺任務(wù)時(shí),圖像增強(qiáng)通常作為一個(gè)獨(dú)立的預(yù)處理階段工作,有可能與特定任務(wù)的目標(biāo)相關(guān)性變差的情況。造成這類問題的原因主要是因?yàn)橐曈X增強(qiáng)工作主要關(guān)注人類感知質(zhì)量,這一過程會因視覺偽影模式或噪聲擾動而變得有害。 ? 最近,已經(jīng)研究了基于深度學(xué)習(xí)的高級視覺模型的局限性,這類算法是通過圖像增強(qiáng)方法作為獨(dú)立的預(yù)處理階段來應(yīng)對惡劣天氣條件下其處理效率低下的問題。為了克服高級視覺模型的脆弱性,通過使用端到端學(xué)習(xí)方案或者分析自動駕駛場景中的語義分割網(wǎng)絡(luò)來解決圖像識別和分級的各種因素。 ? 比如,有一些研究已被提議用于恢復(fù)降雨效應(yīng),包括雨痕或雪花,比如,設(shè)計(jì)一個(gè)多尺度堆疊密集連接的 CNN,用于檢測和去除單個(gè)雪花圖像中的雪花。此外,包括非局部先驗(yàn)或圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)提出了一些不依賴物理散射模型的去霧方法。
實(shí)際上,現(xiàn)有的圖像去霧方法并沒有給基于評估指標(biāo)分析的圖像分類性能帶來太多好處。也有學(xué)者研究了一種聯(lián)合去霧和去雨的 CNN 網(wǎng)絡(luò),結(jié)合來自單個(gè)圖像的全局上下文經(jīng)典大氣散射模型的方法。這種混合一體化模型可以在一定程度上解決了上述普遍惡劣天氣增強(qiáng)的問題。此外,也有一些算法專注于生成對抗網(wǎng)絡(luò)依賴于僅處理特定退化類型的任務(wù)特定編碼器。然而,它們并非針對所有惡劣天氣條件進(jìn)行設(shè)計(jì)和訓(xùn)練,因此可能無法保證在惡劣天氣下建立安全的自動駕駛。 ? 盡管如上這些一體式方法在惡劣天氣圖像增強(qiáng)方面取得了令人印象深刻的性能,但它們中的大多數(shù)僅適用于一種特定類型的感知任務(wù),例如目標(biāo)檢測或語義分割,而沒有研究各種不同環(huán)境場景下的高級感知任務(wù)。此外,現(xiàn)有的一些方法都是針對在自動駕駛車輛中的嵌入設(shè)備而言,其計(jì)算效率太低,也不適合快速推理。 ?
自動駕駛中的單感知源提升方案
? 1、高級視覺處理圖像網(wǎng)絡(luò)原理 ? 在這里,我們在說明所提出的方法之前介紹問題的基礎(chǔ)設(shè)置。如下圖表示了特征身份提取網(wǎng)絡(luò) (FIE) 中的詳細(xì)結(jié)構(gòu)。其中,隨機(jī)投影顯示了從每個(gè)網(wǎng)絡(luò)的最后一個(gè)展平表示到 128 維潛在特征空間的連接。 ?
? 如上圖所示,假設(shè)我們有原始圖像 IGT 和相應(yīng)的惡劣天氣圖像 IX。我們定義兩個(gè)圖像具有相同的高級任務(wù)標(biāo)簽 YGT 。惡劣天氣輸入圖像IX 首先被送入圖像增強(qiáng)網(wǎng)絡(luò) Een 并輸出恢復(fù)圖像 Ipred,而圖像增強(qiáng)網(wǎng)絡(luò) Een 在最終輸出之前的最后一層表示 為flasten。 ? 隨后,恢復(fù)圖像Ipred通過高層感知網(wǎng)絡(luò)Eht前饋,輸出高層感知結(jié)果Ypred與最后一層卷積層flastht。每個(gè)網(wǎng)絡(luò)的參數(shù)表示為 qen 和qht,為每個(gè)任務(wù)預(yù)先訓(xùn)練,其中 qht 在優(yōu)化所提出的方法時(shí)被凍結(jié)。請注意,這里沒有明確定義高級任務(wù)的詳細(xì)網(wǎng)絡(luò),建議適用于任意高級任務(wù)基線。最后,上面提到的兩個(gè)網(wǎng)絡(luò)的最后一層表示為flasten 和 flastht,分別被送入具有可學(xué)習(xí)參數(shù) f 的特征身份提取網(wǎng)絡(luò)中。 ? 如下將總體說明本文的增強(qiáng)網(wǎng)絡(luò)的整體框架: ?
? 如上的感知處理框架包括一個(gè)低記憶增強(qiáng)網(wǎng)絡(luò)、一個(gè)特定于任務(wù)的高級感知網(wǎng)絡(luò)和一個(gè)特征身份提取網(wǎng)絡(luò)。我們將所有網(wǎng)絡(luò)連接到一個(gè)管道中,并以端到端的方式進(jìn)行訓(xùn)練。 ? 接下來將具體講解如何利用本文的增強(qiáng)網(wǎng)絡(luò)框架進(jìn)行相應(yīng)的的算法設(shè)計(jì)。 ? 這里的增強(qiáng)網(wǎng)絡(luò)架構(gòu)受到稠密學(xué)習(xí)網(wǎng)絡(luò) DenseNet特征編碼網(wǎng)絡(luò)的啟發(fā)。特征編碼網(wǎng)絡(luò)具有一種用于邊緣高分辨率應(yīng)用的有效結(jié)構(gòu),并且通過利用基于 HarDNet的輕量級塊來降低級聯(lián)成本,從而優(yōu)于現(xiàn)有的圖像增強(qiáng)方法。我們的增強(qiáng)網(wǎng)絡(luò)可以分為兩個(gè)部分:用于低內(nèi)存計(jì)算成本的諧波密集塊(HBlock)和具有特征融合高級感知任務(wù)的特征標(biāo)識提取模塊(FIE)。 ?
1)?圖像輸入稠密網(wǎng)絡(luò)
盡管標(biāo)準(zhǔn)的稠密網(wǎng)絡(luò)DenseNet 可以從傳播的所有層傳遞梯度,但它會導(dǎo)致大量內(nèi)存使用和沉重的計(jì)算成本。 ? 為了學(xué)習(xí)恢復(fù)信息,這里用深度 L 層對 HBlock 進(jìn)行建模。為了解決這些問題,深度為 L 的 HBlock 的輸出是通過與第 L 層和之前所有奇數(shù)層的連接獲得的。一旦 HBlock 完成,算法就將從 2 到 L-2 的所有偶數(shù)層的輸出刪除。最后,為了調(diào)整維度,我們在每個(gè)塊的最后一層設(shè)置了 32 個(gè)通道。每層L有一個(gè)輸出通道寬度k,其通道數(shù)按k×1:6n計(jì)算,其中n為第l層除以整數(shù)商除以2m時(shí)的最大值。 ? 此外,在每第 4 個(gè)卷積層之前使用一個(gè)瓶頸層以進(jìn)一步加快參數(shù)效率,并將其輸出通道設(shè)置為: ? 其中 cin 和 cout 分別是輸入和輸出通道。為此,我們提出了兩個(gè)版本的網(wǎng)絡(luò),每個(gè)版本由 71 層(5 個(gè) HBlock)和 33 層(3 個(gè) HBlock)組成。除最后一層外,每個(gè)卷積層之后都使用批量歸一化。之后,將 ReLU 用作激活函數(shù)。最后,為了實(shí)現(xiàn)更高質(zhì)量的恢復(fù),引入了遞歸增強(qiáng)結(jié)構(gòu),共3個(gè)階段,在最后階段逐步完善感知質(zhì)量的優(yōu)化。
? 2)特征身份提取模塊
? 特征身份提取模塊FIE通過在一個(gè)統(tǒng)一的框架中表示圖像增強(qiáng)和視覺感知之間的相互影響來將它們聯(lián)系起來。這種設(shè)計(jì)用于關(guān)聯(lián)來自圖像增強(qiáng)和高級視覺感知特征的信息。FIE 基于 3 層 CNN,它在使用隨機(jī)投影而不是密集的特征身份提取模塊FIE 的最后一層,這樣整體展平輸出后可以恰好分配出 128 維的潛在特征,如上圖所示。隨機(jī)投影可以進(jìn)行無限制的特征身份比較FIE ,且最終層輸出維度不同。 ?
3)學(xué)習(xí)網(wǎng)絡(luò)損失函數(shù)定義
? 為了學(xué)習(xí)所提出的網(wǎng)絡(luò),我們通過三階段進(jìn)一步整合了圖像增強(qiáng)網(wǎng)絡(luò)和高級網(wǎng)絡(luò)。我們的培訓(xùn)策略分為三個(gè)部分:即圖像增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)、高級視覺損失計(jì)算、特征識別學(xué)習(xí); ?
① 圖像恢復(fù)損失Recovery Loss: ? 圖像損失恢復(fù)實(shí)際上是需要對惡劣天氣下的圖像恢復(fù)到與原始圖像盡量逼近的效果,其原理就是構(gòu)建合理的損失逼近代價(jià)函數(shù)。當(dāng)代價(jià)函數(shù)逐漸逼近0,且趨于穩(wěn)定狀態(tài)時(shí),就認(rèn)為此時(shí)惡劣天氣圖已經(jīng)完成了對原始圖像的恢復(fù)。 ? 現(xiàn)有的最先進(jìn)的方法采用基于MSE(均方誤差)的像素?fù)p失來訓(xùn)練增強(qiáng)網(wǎng)絡(luò)。然而,MSE 優(yōu)化通常會產(chǎn)生模糊的視覺信息,從而導(dǎo)致內(nèi)容過于平滑且圖像識別結(jié)果也不會如預(yù)期那樣好。為了防止這種情況,可以采用相對優(yōu)質(zhì)的懲罰函數(shù)(如Charbonnier,主要因?yàn)樵摵瘮?shù)對異常值更加穩(wěn)健)來對惡劣天氣分布的逐次逼近進(jìn)行估計(jì)。 ? 如下公式對恢復(fù)損失進(jìn)行了相應(yīng)的示意:
? ? 其中 e 是懲罰系數(shù),根據(jù)經(jīng)驗(yàn)設(shè)置為 5×10?3,該值的設(shè)置主要是在增強(qiáng)網(wǎng)絡(luò)和高級感知之間提供豐富的連接。
? ② 特征身份損失High Level Task Loss: ? 特征身份可以利用歐幾里得距離計(jì)算圖像對的身份信息比對來獲取,這種距離計(jì)算方式比標(biāo)準(zhǔn)的每像素?fù)p失可以更好的生成高質(zhì)量樣本。這種樣本的生成主要用于超分辨率、翻譯和圖像恢復(fù)。即使涉及圖像生成以外的識別任務(wù),身份信息對于穩(wěn)定優(yōu)化仍然是必不可少的。為了在訓(xùn)練過程中給出相關(guān)信息,我們建議使用特征身份損失與超球面空間中的身份直接相關(guān),定義為:
? 其中和
分別是從 (FIE) 中提取的輸入圖像
和恢復(fù)圖像
的身份特征。FIE(·) V 是映射到超球面的身份表示。 ?
? ③ 高層任務(wù)損失函數(shù)Feature Identity Loss: ? 我們使用來自預(yù)先訓(xùn)練的高級視覺任務(wù)網(wǎng)絡(luò)所生成的高級任務(wù)損失 LHT 來為增強(qiáng)網(wǎng)絡(luò)提供連接性,從而增強(qiáng)其感知效能。默認(rèn)情況下,用于高級任務(wù)的感知網(wǎng)絡(luò)在由原始無雜質(zhì)圖像組成的基準(zhǔn)上進(jìn)行預(yù)訓(xùn)練,在完成深度學(xué)習(xí)后凍結(jié)對應(yīng)的感知框架。這個(gè)感知框架可以保證即使我們的增強(qiáng)網(wǎng)絡(luò)被替換為另一個(gè)模型,也可以在不額外調(diào)整目標(biāo)函數(shù)系數(shù)和重新訓(xùn)練感知網(wǎng)絡(luò)的情況下替換它。這種方式可以在應(yīng)對所有惡劣天氣的同時(shí)運(yùn)行各種高級別任務(wù)的研究,在普適性上也更進(jìn)了一步。為了傳達(dá)更強(qiáng)大的感知友好屬性,可以在接下來的步驟中描述特征標(biāo)識損失。
? ④ 目標(biāo)函數(shù)Target Function: ? 基于上述介紹,結(jié)合上述三類過程函數(shù)損失可以定義對應(yīng)的目標(biāo)函數(shù),并基于階段方式優(yōu)化總目標(biāo)函數(shù)。優(yōu)化的過程就是通過不斷的訓(xùn)練逐步減小目標(biāo)函數(shù)并取得最小值。當(dāng)優(yōu)化過程中逐漸發(fā)現(xiàn)一定時(shí)間內(nèi),目標(biāo)函數(shù)區(qū)域穩(wěn)定,且無法繼續(xù)減小時(shí),則認(rèn)為此時(shí)損失圖像已經(jīng)恢復(fù)到和原始圖像差不多的質(zhì)量。停止訓(xùn)練,輸出對應(yīng)的圖像。 ? 以下函數(shù)進(jìn)行模型訓(xùn)練:
? ? 其中 a 和 b 分別是和
的權(quán)衡系數(shù),qen 和 f 是從頭開始使用 N 個(gè)樣本學(xué)習(xí)的參數(shù)。 ?
自動駕駛中的多感知源提升方案
? 以上介紹了利用提升識別單感知源圖像本身處理能力的算法模型,然而應(yīng)用于自動駕駛系統(tǒng)而言,同一場景下的圖像感知往往不可能來自于同一個(gè)感知源。比如典型的配置就包括了5R5V、5R11V、5R12V1L等幾種典型的傳感配置。對于以數(shù)據(jù)驅(qū)動一體化為導(dǎo)向的視覺融合毫米波和激光雷達(dá)的鳥瞰圖BEV而言,其3D場景重構(gòu)在感知處理提升上也是行業(yè)內(nèi)比較受到大家推崇的一種高階感知算法。 ? 如下圖表示了一種典型的BEV處理簡化圖模型。 ?
? 多V感知提升原理說明如下: ? 1)各自傳感器經(jīng)過各自識別再進(jìn)行融合時(shí),中間損失了很多有效信息,影響了感知精度,而多相機(jī)BEV能夠有效避免類似的信息丟失; ? 2)傳統(tǒng)的融合算法,仍然是一種基于規(guī)則的方法,要根據(jù)先驗(yàn)知識來設(shè)定傳感器的置信度,局限性很明顯,容易顧此失彼 ;而BEV融合能夠解放大量手工邏輯(包括重疊區(qū)域),同時(shí)在資源使用率上也明顯更加友好; ? 3)多相機(jī)BEV有利于各困難case的精度提升。車輛運(yùn)動過程中,某個(gè)視角的有可能會存在遮擋、光照問題,但其實(shí)視角此時(shí)正好處于正常狀態(tài),多視覺融合雷達(dá)的 BEV感知可以很好的處理這種特殊case; ? 4)類似的,多視覺融合雷達(dá)的BEV感知也能夠提升基礎(chǔ)感知數(shù)據(jù)中的車道線屬性精度。
? 總結(jié)
自動駕駛感知處理過程中,從感知本身而言,需要首先考慮對各獨(dú)立傳感器的感知圖像處理。本文重點(diǎn)說明了多種惡劣天氣和環(huán)境條件下自動駕駛的圖像增強(qiáng)和高級視覺處理邏輯。主要可以從三方面入手解決問題:首先,利用一個(gè)通用的多重惡劣天氣去除框架,促使高級視覺任務(wù)能夠在不退化和重新訓(xùn)練的情況下提高現(xiàn)有模型的魯棒性。其次,開發(fā)了一個(gè)任務(wù)驅(qū)動的增強(qiáng)網(wǎng)絡(luò),以減少內(nèi)存和計(jì)算成本,這對于車載端自動駕駛的實(shí)時(shí)資源利用而言是一個(gè)很大的福音。此外,引入一種新穎的訓(xùn)練策略,可以最大限度地減少圖像增強(qiáng)的不利影響,同時(shí)以端到端和任務(wù)驅(qū)動的方式提高感知處理任務(wù)的效能。 ? 此外,考慮自動駕駛中傳感器配置的多樣性,當(dāng)前比較典型的方法還是利用多V結(jié)合多雷達(dá)的方式實(shí)現(xiàn)各方BEV的融合策略。對于從單V模型中實(shí)在無法解決的極端場景可以進(jìn)一步促進(jìn)其識別處理性能的提升。 ?
編輯:黃飛
?
評論