一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種多模態(tài)駕駛場景生成框架UMGen介紹

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-03-24 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

? 論文地址:

https://arxiv.org/abs/2503.14945

?項(xiàng)目主頁:

https://yanhaowu.github.io/UMGen/

概述

端到端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實(shí)駕駛場景中的適用性。

為此,我們提出了一種多模態(tài)駕駛場景生成框架——UMGen,該框架能夠全面預(yù)測和生成駕駛場景中的核心元素,包括自車運(yùn)動、靜態(tài)環(huán)境、智能交通參與者以及圖像信息。具體而言,UMGen將場景生成建模為Next-Scene Prediction任務(wù),利用幀間并行自回歸與幀內(nèi)多模態(tài)自回歸技術(shù),使得一個(gè)統(tǒng)一模型即可生成以自車為中心、模態(tài)協(xié)同一致的駕駛場景序列。UMGen生成的每個(gè)場景均包含自車、地圖、交通參與者、圖像等多種模態(tài)信息,并可靈活擴(kuò)展至更多模態(tài),以適應(yīng)不同應(yīng)用需求。

UMGen不僅能夠靈活生成多樣化的駕駛場景,還支持基于用戶設(shè)定生成特定駕駛情境,例如控制自車執(zhí)行左轉(zhuǎn)、右轉(zhuǎn),或模擬他車cut-in等復(fù)雜交互行為。憑借這一交互式生成能力,UMGen可為自動駕駛系統(tǒng)的訓(xùn)練提供稀缺樣本,從而提升模型的泛化能力。同時(shí),它還可用于構(gòu)建閉環(huán)仿真環(huán)境,對端到端自動駕駛系統(tǒng)進(jìn)行全面測試與優(yōu)化,甚至支持自博弈式訓(xùn)練,進(jìn)一步增強(qiáng)系統(tǒng)的智能決策能力。

UMGen生成的多模態(tài)場景,視頻中的每一個(gè)模態(tài)(自車動作,地圖,交通參與者,圖像)都由模型自行想象生成

方法

7b2334ba-057b-11f0-9310-92fbcf53809c.png

Pipeline of UMGen

UMGen從給定的初始場景序列開始,逐場景、自回歸地生成多模態(tài)駕駛場景。我們首先根據(jù)歷史信息預(yù)測自車要采取的動作,然后根據(jù)這一動作預(yù)測觀察到的地圖變化,以及其他交通參與者的行動,最后將這些信息映射到圖像中。為實(shí)現(xiàn)這一目標(biāo),我們將每個(gè)時(shí)刻的場景元素(包括自車動作、地圖、交通參與者以及攝像頭圖像)轉(zhuǎn)換為有序的token序列,從而將生成任務(wù)轉(zhuǎn)化為Next-token Prediction任務(wù)。一個(gè)很直觀的想法是將來自不同幀、不同模態(tài)的token直接拼接在一起,然后使用一個(gè)decoder-only的transformer進(jìn)行預(yù)測。但是這樣做,token數(shù)量會隨著場景長度的增加而迅速增加,使得算力需求變得無法接受。

為了解決這一問題,我們提出了一種兩階段序列預(yù)測方法,將整體任務(wù)劃分為幀間預(yù)測和幀內(nèi)預(yù)測兩個(gè)階段。在幀間預(yù)測階段,我們設(shè)計(jì)了時(shí)序自回歸模塊 (TAR) ,該模塊通過因果注意力機(jī)制對幀間的時(shí)序演化進(jìn)行建模,確保每個(gè)token僅依賴于其歷史狀態(tài),從而捕捉時(shí)間維度上的動態(tài)變化。在幀內(nèi)預(yù)測階段,我們引入了有序自回歸模塊 (OAR) ,該模塊通過指定幀內(nèi)模態(tài)生成的順序(自車動作→地圖元素→交通參與者→攝像頭圖像,如下視頻所示),建立場景內(nèi)不同模態(tài)之間的關(guān)聯(lián),從而保證模態(tài)間的一致性。TAR和OAR模塊協(xié)同工作,不僅有效捕捉了跨模態(tài)的時(shí)序依賴關(guān)系,還顯著降低了計(jì)算復(fù)雜度,為高效生成多模態(tài)駕駛場景提供了技術(shù)保障。同時(shí),為了增強(qiáng)自車動作與地圖變化之間的模態(tài)一致性,我們還提出了AMA模塊,根據(jù)自車動作計(jì)算affine transformation矩陣對地圖特征進(jìn)行變換,充分利用地圖這種靜態(tài)元素的時(shí)序先驗(yàn)提升預(yù)測精度。

UMGen生成過程可視化

實(shí)驗(yàn)及可視化

UMGen在nuPlan數(shù)據(jù)集上進(jìn)行訓(xùn)練,并通過可視化和定量實(shí)驗(yàn)證明其具備自由幻想多模態(tài)駕駛場景的能力,以及按照用戶需求生成特定駕駛場景的能力。此外,我們還展示了UMGen在閉環(huán)仿真中的應(yīng)用潛力:通過將自定義的自車動作注入U(xiǎn)MGen中替換生成的自車動作,UMGen實(shí)時(shí)生成了相對應(yīng)的下一時(shí)刻場景。

以下對部分實(shí)驗(yàn)結(jié)果進(jìn)行展示。

自由幻想生成駕駛場景序列

由UMGen自主推理生成場景,用戶不對UMGen提供任何額外的控制信號。

A. 生成長時(shí)序多模態(tài)駕駛場景

B. 生成多樣駕駛場景

自車受控下的場景生成

用戶控制自車動作以生成指定行為模式下的多模態(tài)場景。

A. 在路口控制自車直行或者右轉(zhuǎn)

B. 控制自車停車等待或者變道超車

用戶指定的場景生成

在此模式下,用戶可通過控制指定交通參與者的動作以創(chuàng)造場景。

在該場景中,通過設(shè)定黑色汽車的橫向速度,我們創(chuàng)造了一個(gè)"他車突然變道插入"的危險(xiǎn)場景,并控制自車剎車或者變道完成規(guī)避。

利用Diffusion Model進(jìn)一步提升圖像

質(zhì)量

受到近期Diffusion模型的啟發(fā),我們訓(xùn)練了一個(gè)基于transformer的Diffusion模型。通過將UMGen生成的token作為condition,我們實(shí)現(xiàn)了更高質(zhì)量的圖像生成。

小圖為原始生成圖像,大圖為Diffusion模型生成圖像

總結(jié)

UMGen在統(tǒng)一框架內(nèi)實(shí)現(xiàn)了多模態(tài)駕駛場景的生成,每個(gè)場景包含自車動作、地圖、交通參與者以及對應(yīng)的圖像信息。其交互式生成的能力,展現(xiàn)了廣泛的應(yīng)用潛力, 如作為閉環(huán)仿真器的核心組件以及corner case數(shù)據(jù)生成器等。在未來的研究中,將更多模態(tài)數(shù)據(jù)(如激光雷達(dá)點(diǎn)云)納入生成框架中,將是一個(gè)值得探索的方向,這有望進(jìn)一步提升場景生成的豐富性和實(shí)用性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50361
  • 自動駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14305

    瀏覽量

    170508

原文標(biāo)題:CVPR 2025 | UMGen:多模態(tài)駕駛場景生成統(tǒng)一框架

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于模態(tài)語義SLAM框架

    本文提出了個(gè)魯棒且快速的模態(tài)語義 SLAM 框架,旨在解決復(fù)雜和動態(tài)環(huán)境中的 SLAM 問題。具體來說,將僅幾何聚類和視覺語義信息相結(jié)合,以減少由于小尺度對象、遮擋和運(yùn)動模糊導(dǎo)致的
    的頭像 發(fā)表于 08-31 09:39 ?2148次閱讀

    松靈新品丨全球首款模態(tài)?ROS開發(fā)平臺LIMO來了,將聯(lián)合古月居打造精品課程 精選資料分享

    地形通過性和場景的適應(yīng)性直是無人駕駛、機(jī)器人等場景化所需要突破的難題。通過多
    發(fā)表于 08-30 08:39

    一種基于圖像平移的目標(biāo)檢測框架

    集。本文提出了一種基于圖像平移的目標(biāo)檢測框架,以解決在不利條件下目標(biāo)檢測精度下降的問題。我們提出利...
    發(fā)表于 08-31 07:43

    介紹一種嵌入式框架模板的構(gòu)建方案

    介紹一種嵌入式框架模板的構(gòu)建方案
    發(fā)表于 02-22 06:25

    一種尺度視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝冰

    一種尺度視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝冰
    發(fā)表于 03-15 09:27 ?0次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學(xué)和面部表情等
    發(fā)表于 12-18 14:47 ?0次下載

    模態(tài)生物特征識別系統(tǒng)框架

    針對模態(tài)生物特征識別系統(tǒng)并行融合模式中使用方便性和使用效率方面的問題,在現(xiàn)有序列化模態(tài)生物特征識別系統(tǒng)的基礎(chǔ)上,提出了一種結(jié)合并行融合和
    發(fā)表于 01-02 18:47 ?0次下載
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>生物特征識別系統(tǒng)<b class='flag-5'>框架</b>

    一種無監(jiān)督下利用模態(tài)文檔結(jié)構(gòu)信息幫助圖片-句子匹配的采樣方法

    Approach for Image-Sentence Matching UsingDocument-Level Structural Information,提出了一種無監(jiān)督設(shè)定下,更有效地利用模態(tài)文檔
    的頭像 發(fā)表于 12-26 10:26 ?2419次閱讀
    <b class='flag-5'>一種</b>無監(jiān)督下利用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>文檔結(jié)構(gòu)信息幫助圖片-句子匹配的采樣方法

    任意文本、視覺、音頻混合生成模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    CoDi )模型,讓一種模型統(tǒng)多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)生成,還
    的頭像 發(fā)表于 12-03 20:20 ?859次閱讀
    任意文本、視覺、音頻混合<b class='flag-5'>生成</b>,<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    大模型+模態(tài)的3實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將
    的頭像 發(fā)表于 12-13 13:55 ?2519次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3<b class='flag-5'>種</b>實(shí)現(xiàn)方法

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能
    的頭像 發(fā)表于 12-15 14:28 ?1.2w次閱讀

    OneLLM:對齊所有模態(tài)框架!

    OneLLM 是第個(gè)在單個(gè)模型中集成八不同模態(tài)的MLLM。通過統(tǒng)框架和漸進(jìn)式
    的頭像 發(fā)表于 01-04 11:27 ?1480次閱讀
    OneLLM:對齊所有<b class='flag-5'>模態(tài)</b>的<b class='flag-5'>框架</b>!

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?5907次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    字節(jié)跳動發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢在于其強(qiáng)大的視頻生成能力。用戶只需提供
    的頭像 發(fā)表于 02-07 17:50 ?785次閱讀

    端到端自動駕駛模態(tài)軌跡生成方法GoalFlow解析

    自動駕駛軌跡規(guī)劃往往采用直接回歸軌跡的方法,這種方式雖在測試中能取得不錯(cuò)的性能,可直接輸出當(dāng)前場景下最有可能的軌跡或控制,但它難以對自動駕駛場景中常見的
    的頭像 發(fā)表于 03-18 17:59 ?619次閱讀
    端到端自動<b class='flag-5'>駕駛</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>軌跡<b class='flag-5'>生成</b>方法GoalFlow解析