538prom精品视频任你爽,美女视频国产精品

? 論文地址：

https://arxiv.org/abs/2503.14945

?項(xiàng)目主頁：

https://yanhaowu.github.io/UMGen/

概述

端到端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求，而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而，現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài)，忽略了其他關(guān)鍵模態(tài)的建模，如地圖信息、智能交通參與者等，從而限制了其在真實(shí)駕駛場景中的適用性。

為此，我們提出了一種多模態(tài)駕駛場景生成框架——UMGen，該框架能夠全面預(yù)測和生成駕駛場景中的核心元素，包括自車運(yùn)動、靜態(tài)環(huán)境、智能交通參與者以及圖像信息。具體而言，UMGen將場景生成建模為Next-Scene Prediction任務(wù)，利用幀間并行自回歸與幀內(nèi)多模態(tài)自回歸技術(shù)，使得一個(gè)統(tǒng)一模型即可生成以自車為中心、模態(tài)協(xié)同一致的駕駛場景序列。UMGen生成的每個(gè)場景均包含自車、地圖、交通參與者、圖像等多種模態(tài)信息，并可靈活擴(kuò)展至更多模態(tài)，以適應(yīng)不同應(yīng)用需求。

UMGen不僅能夠靈活生成多樣化的駕駛場景，還支持基于用戶設(shè)定生成特定駕駛情境，例如控制自車執(zhí)行左轉(zhuǎn)、右轉(zhuǎn)，或模擬他車cut-in等復(fù)雜交互行為。憑借這一交互式生成能力，UMGen可為自動駕駛系統(tǒng)的訓(xùn)練提供稀缺樣本，從而提升模型的泛化能力。同時(shí)，它還可用于構(gòu)建閉環(huán)仿真環(huán)境，對端到端自動駕駛系統(tǒng)進(jìn)行全面測試與優(yōu)化，甚至支持自博弈式訓(xùn)練，進(jìn)一步增強(qiáng)系統(tǒng)的智能決策能力。

UMGen生成的多模態(tài)場景，視頻中的每一個(gè)模態(tài)（自車動作，地圖，交通參與者，圖像）都由模型自行想象生成

方法

Pipeline of UMGen

UMGen從給定的初始場景序列開始，逐場景、自回歸地生成多模態(tài)駕駛場景。我們首先根據(jù)歷史信息預(yù)測自車要采取的動作，然后根據(jù)這一動作預(yù)測觀察到的地圖變化，以及其他交通參與者的行動，最后將這些信息映射到圖像中。為實(shí)現(xiàn)這一目標(biāo)，我們將每個(gè)時(shí)刻的場景元素（包括自車動作、地圖、交通參與者以及攝像頭圖像）轉(zhuǎn)換為有序的token序列，從而將生成任務(wù)轉(zhuǎn)化為Next-token Prediction任務(wù)。一個(gè)很直觀的想法是將來自不同幀、不同模態(tài)的token直接拼接在一起，然后使用一個(gè)decoder-only的transformer進(jìn)行預(yù)測。但是這樣做，token數(shù)量會隨著場景長度的增加而迅速增加，使得算力需求變得無法接受。

為了解決這一問題，我們提出了一種兩階段序列預(yù)測方法，將整體任務(wù)劃分為幀間預(yù)測和幀內(nèi)預(yù)測兩個(gè)階段。在幀間預(yù)測階段，我們設(shè)計(jì)了時(shí)序自回歸模塊 (TAR) ，該模塊通過因果注意力機(jī)制對幀間的時(shí)序演化進(jìn)行建模，確保每個(gè)token僅依賴于其歷史狀態(tài)，從而捕捉時(shí)間維度上的動態(tài)變化。在幀內(nèi)預(yù)測階段，我們引入了有序自回歸模塊 (OAR) ，該模塊通過指定幀內(nèi)模態(tài)生成的順序（自車動作→地圖元素→交通參與者→攝像頭圖像，如下視頻所示），建立場景內(nèi)不同模態(tài)之間的關(guān)聯(lián)，從而保證模態(tài)間的一致性。TAR和OAR模塊協(xié)同工作，不僅有效捕捉了跨模態(tài)的時(shí)序依賴關(guān)系，還顯著降低了計(jì)算復(fù)雜度，為高效生成多模態(tài)駕駛場景提供了技術(shù)保障。同時(shí)，為了增強(qiáng)自車動作與地圖變化之間的模態(tài)一致性，我們還提出了AMA模塊，根據(jù)自車動作計(jì)算affine transformation矩陣對地圖特征進(jìn)行變換，充分利用地圖這種靜態(tài)元素的時(shí)序先驗(yàn)提升預(yù)測精度。

UMGen生成過程可視化

實(shí)驗(yàn)及可視化

UMGen在nuPlan數(shù)據(jù)集上進(jìn)行訓(xùn)練，并通過可視化和定量實(shí)驗(yàn)證明其具備自由幻想多模態(tài)駕駛場景的能力，以及按照用戶需求生成特定駕駛場景的能力。此外，我們還展示了UMGen在閉環(huán)仿真中的應(yīng)用潛力：通過將自定義的自車動作注入U(xiǎn)MGen中替換生成的自車動作，UMGen實(shí)時(shí)生成了相對應(yīng)的下一時(shí)刻場景。

以下對部分實(shí)驗(yàn)結(jié)果進(jìn)行展示。

自由幻想生成駕駛場景序列

由UMGen自主推理生成場景，用戶不對UMGen提供任何額外的控制信號。

A. 生成長時(shí)序多模態(tài)駕駛場景

B. 生成多樣駕駛場景

自車受控下的場景生成

用戶控制自車動作以生成指定行為模式下的多模態(tài)場景。

A. 在路口控制自車直行或者右轉(zhuǎn)

B. 控制自車停車等待或者變道超車

用戶指定的場景生成

在此模式下，用戶可通過控制指定交通參與者的動作以創(chuàng)造場景。

在該場景中，通過設(shè)定黑色汽車的橫向速度，我們創(chuàng)造了一個(gè)"他車突然變道插入"的危險(xiǎn)場景，并控制自車剎車或者變道完成規(guī)避。

利用Diffusion Model進(jìn)一步提升圖像

質(zhì)量

受到近期Diffusion模型的啟發(fā)，我們訓(xùn)練了一個(gè)基于transformer的Diffusion模型。通過將UMGen生成的token作為condition，我們實(shí)現(xiàn)了更高質(zhì)量的圖像生成。

小圖為原始生成圖像，大圖為Diffusion模型生成圖像

總結(jié)

UMGen在統(tǒng)一框架內(nèi)實(shí)現(xiàn)了多模態(tài)駕駛場景的生成，每個(gè)場景包含自車動作、地圖、交通參與者以及對應(yīng)的圖像信息。其交互式生成的能力，展現(xiàn)了廣泛的應(yīng)用潛力，如作為閉環(huán)仿真器的核心組件以及corner case數(shù)據(jù)生成器等。在未來的研究中，將更多模態(tài)數(shù)據(jù)（如激光雷達(dá)點(diǎn)云）納入生成框架中，將是一個(gè)值得探索的方向，這有望進(jìn)一步提升場景生成的豐富性和實(shí)用性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴