一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

詳解RAD端到端強化學習后訓練范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-02-25 14:06 ? 次閱讀

RAD

端到端智駕強化學習后訓練范式

受限于算力和數(shù)據(jù),大語言模型預訓練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現(xiàn)了強大的推理能力,掀起新一輪技術革新。當下主流的端到端智駕模型采用模仿學習訓練范式,即從大量的人類駕駛數(shù)據(jù)中擬合類人的駕駛策略。與大語言模型預訓練范式相對應,模仿學習的 scaling law 也將觸及瓶頸,其上限是人類的駕駛水平,難以實現(xiàn)遠超人類的高階自動駕駛。此外,模仿學習天然存在因果混淆和開環(huán)閉環(huán)差異性兩方面的局限性,其下限(安全性和穩(wěn)定性)也難以保證。

我們提出端到端強化學習后訓練范式 RAD(ReinforcedAutonomous Driving),基于 3DGS 技術構建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,基于安全性相關的獎勵函數(shù),通過強化學習微調(diào)引導模型建模物理世界的因果關系。強化學習和模仿學習天然地互補,在模仿學習scalinglaw 的基礎上,強化學習scaling law 將進一步拓展端到端智駕模型的能力邊界。

項目主頁:https://hgao-cv.github.io/RAD 論文地址:https://arxiv.org/pdf/2502.13144

概述

受限于算力和數(shù)據(jù),大語言模型預訓練的scaling law已經(jīng)趨近于極限。DeepSeek R1 / OpenAI o1 通過強化學習后訓練涌現(xiàn)了強大的推理能力,掀起新一輪技術革新。當下主流的端到端智駕模型采用模仿學習訓練范式,即從大量的人類駕駛數(shù)據(jù)中擬合類人的駕駛策略。與大語言模型預訓練范式相對應,模仿學習的scaling law也將觸及瓶頸,其上限是人類的駕駛水平,難以實現(xiàn)遠超人類的高階自動駕駛。此外,模仿學習天然存在因果混淆和開環(huán)閉環(huán)差異性兩方面的局限性,其下限(安全性和穩(wěn)定性)也難以保證。我們提出端到端強化學習后訓練范式RAD(Reinforced Autonomous Driving),基于3DGS技術構建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,基于安全性相關的獎勵函數(shù),通過強化學習微調(diào)引導模型建模物理世界的因果關系。強化學習和模仿學習天然地互補,在模仿學習scaling law的基礎上,強化學習scaling law將進一步拓展端到端智駕模型的能力邊界。

模仿學習的局限性:因果混淆與開環(huán)閉環(huán)差異

2fefd110-f298-11ef-9310-92fbcf53809c.png

因果混淆(causal confusion)是模仿學習訓練范式的一大痛點。模仿學習的本質(zhì)是使神經(jīng)網(wǎng)絡模仿人類駕駛員的駕駛策略,其優(yōu)化目標是最小化預測軌跡與專家軌跡之間的差異。模仿學習建模的是環(huán)境信息和規(guī)劃軌跡之間的相關性而非因果關系,容易造成因果混淆的問題。特別是對于端到端自動駕駛而言,輸入的環(huán)境信息尤為豐富,很難從高維度信息中找出導致規(guī)劃結(jié)果的真實原因,容易導致捷徑學習(shortcut learning),例如,從歷史軌跡外推未來軌跡。此外,由于訓練集主要由常見的駕駛行為主導,在僅使用模仿學習訓練的情況下,導致對駕駛的安全性不夠敏感。

另外,開環(huán)訓練和閉環(huán)部署之間的差距,也是模仿學習訓練范式難以忽視的問題。模仿學習是基于良好的分布內(nèi)駕駛數(shù)據(jù)以開環(huán)方式進行訓練,但真實世界的駕駛系統(tǒng)是一個閉環(huán)系統(tǒng),開環(huán)與閉環(huán)間存在極大的差異。在閉環(huán)中,單步的微小軌跡誤差會隨時間累積,導致駕駛系統(tǒng)進入一個偏離訓練集分布的場景。僅經(jīng)過開環(huán)訓練的駕駛策略在面對訓練集分布外的場景時往往會失效。

RAD訓練范式

RAD基于3DGS技術構建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,充分地探索狀態(tài)空間,學習應對各種復雜和罕見的分布外場景,基于安全性相關的獎勵函數(shù),通過強化學習微調(diào)讓模型對安全性保持敏感,并建模物理世界的因果關系。

(1)三階段訓練架構

336f7f66-f298-11ef-9310-92fbcf53809c.png

RAD 采用三階段訓練范式。在感知預訓練階段,通過監(jiān)督學習的方式,訓練模型識別駕駛場景的關鍵元素,建立對周圍環(huán)境的準確認知;規(guī)劃預訓練階段,利用大規(guī)模的真實世界駕駛示范數(shù)據(jù),通過模仿學習來初始化動作的概率分布,避免強化學習訓練的冷啟動問題;在強化后訓練階段,強化學習和模仿學習協(xié)同對策略進行微調(diào)。強化學習主要負責引導策略建模物理世界的因果關系和適應分布外的場景;模仿學習作為正則,約束與人類駕駛行為相似性。

337cd9ae-f298-11ef-9310-92fbcf53809c.png

(2)安全導向的獎勵函數(shù)設計

為了確保自動駕駛汽車在行駛過程中的安全性,RAD 設計了專門的獎勵機制。這個機制主要關注四個方面:碰撞動態(tài)障礙物、碰撞靜態(tài)障礙物、與專家軌跡的位置偏差和航向偏差。一旦出現(xiàn)不安全的駕駛行為,比如碰撞或者偏離專家軌跡,就會觸發(fā)相應的懲罰獎勵。通過這種方式,引導策略有效地應對關鍵安全事件,讓自動駕駛汽車在訓練過程中逐漸學會如何避免危險,更好地理解現(xiàn)實世界中的因果關系。

(3)策略優(yōu)化與輔助目標設計

為了提高訓練效率和效果,RAD將動作解耦為橫向動作和縱向動作,在 0.5 秒的短時間范圍內(nèi)構建動作空間,有效降低了動作空間的維度,加快了訓練的收斂速度。此外,在策略優(yōu)化方面,RAD 使用廣義優(yōu)勢估計(GAE)來傳播獎勵,優(yōu)化前面步驟的動作分布??紤]到動作空間的解耦,將獎勵和價值函數(shù)也進行解耦,分別計算橫向和縱向的優(yōu)勢估計,并根據(jù)近端策略優(yōu)化(PPO)來微調(diào)策略。

同時,針對強化學習中常見的稀疏獎勵問題,RAD 引入了輔助目標。這些輔助目標基于動態(tài)碰撞、靜態(tài)碰撞、位置偏差和航向偏差等多種獎勵源設計,能夠?qū)εf策略選擇的動作進行評估,并通過調(diào)整動作概率分布來懲罰不良行為。例如,當前方存在潛在碰撞風險時,系統(tǒng)會降低加速動作的概率,并提升減速或制動的概率;當車輛偏離預定軌跡向左偏移時,則增加向右修正方向的動作概率,以減少軌跡偏差。通過這種方式,RAD 為整個動作分布提供密集的指導信息,確保策略能夠更快學會安全合理的駕駛行為,從而加速訓練的收斂。

閉環(huán)驗證

RAD 通過基于大規(guī)模 3DGS 的強化學習訓練,學習到了更有效的駕駛策略。在相同的閉環(huán)評估基準測試中,RAD 的碰撞率相較于傳統(tǒng)的模仿學習策略降低了 3 倍。這一結(jié)果表明,RAD 能在復雜的交通狀況下有效避免與動靜態(tài)障礙物的碰撞,做出更加安全、合理的決策。例如,在遇到突然闖入道路的行人或車輛時,RAD 能夠迅速做出準確反應,及時調(diào)整車速和行駛方向,避免碰撞事故的發(fā)生,而模仿學習策略則可能難以應對這種突發(fā)情況。 我們提供了一系列典型場景的閉環(huán)結(jié)果,以直觀展示 RAD 與模仿學習策略在實際駕駛場景中的關鍵差異:

場景1:繞行;右轉(zhuǎn)

場景2:U形掉頭

場景3:跟車蠕行

場景4:無保護左轉(zhuǎn)

場景5:擁擠路口通行

場景6:無保護左轉(zhuǎn)

場景7:繞行;窄道通行

場景8:無保護左轉(zhuǎn)

場景9:跟車行駛

后續(xù)工作

RAD作為創(chuàng)新的端到端自動駕駛后訓練范式,具有廣闊的應用前景和潛力。目前RAD仍存在一些局限性。例如,其他交通參與者的行為是基于場景回放,缺乏交互性的響應;在非剛性物體的渲染、欠觀測視角和低光照場景等方面,3DGS的效果還有提升的空間。在后續(xù)工作中,我們將進一步提升3DGS孿生數(shù)字世界的真實性和交互性,并繼續(xù)探索強化學習scaling law的上限。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3464

    瀏覽量

    49821
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11472
  • 地平線
    +關注

    關注

    0

    文章

    384

    瀏覽量

    15328
  • 算力
    +關注

    關注

    1

    文章

    1103

    瀏覽量

    15355

原文標題:開發(fā)者說|RAD:基于3DGS孿生數(shù)字世界的端到端強化學習后訓練范式

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)高級的認知任務。
    發(fā)表于 07-01 10:29 ?1776次閱讀
    什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b>算法應用分析

    反向強化學習的思路

    強化學習的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強化學習實戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現(xiàn):1、卷積神經(jīng)網(wǎng)絡CNN2、循環(huán)神經(jīng)網(wǎng)絡RNN3、強化學習DRL4、對抗性生成
    發(fā)表于 01-10 13:42

    將深度學習強化學習相結(jié)合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發(fā)的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統(tǒng)從環(huán)境行為映射的學習,以使獎勵信號(強化信號)函數(shù)值最大,強化學習不同于連接主義學習
    發(fā)表于 05-30 06:53 ?1486次閱讀

    基于強化學習的MADDPG算法原理及實現(xiàn)

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    如何構建強化學習模型來訓練無人車算法

    本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法,可以為初學者提供快速入門的經(jīng)驗。
    的頭像 發(fā)表于 11-12 14:47 ?5036次閱讀

    研究人員開源RAD以改進及強化智能學習算法

    加州大學伯克利分校的一組研究人員本周開放了使用增強數(shù)據(jù)進行強化學習(RAD)的資源。
    發(fā)表于 05-11 23:09 ?1468次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監(jiān)督學習、無監(jiān)督學習并列的第三種學習
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b>算法及研究綜述

    模型化深度強化學習應用研究綜述

    深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類受到了廣泛關注。DRL以種試錯機制與環(huán)境進行交互,并通過最大化累積獎賞最終得到最優(yōu)策略。強化學習可分為無模型
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于強化學習的虛擬場景角色乒乓球訓練

    基于強化學習的虛擬場景角色乒乓球訓練
    發(fā)表于 06-27 11:34 ?62次下載

    《自動化學報》—多Agent深度強化學習綜述

    突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經(jīng)成為實現(xiàn)人工智能頗有前景的學習范式.然而,深度
    發(fā)表于 01-18 10:08 ?1818次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent深度<b class='flag-5'>強化學習</b>綜述

    ICLR 2023 Spotlight|節(jié)省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

    大模型時代,模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學習可通過稀疏神經(jīng)網(wǎng)絡實現(xiàn)模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏網(wǎng)絡進行訓練嗎?本文提出了一種強化學習專用稀
    的頭像 發(fā)表于 06-11 21:40 ?852次閱讀
    ICLR 2023 Spotlight|節(jié)省95%<b class='flag-5'>訓練</b>開銷,清華黃隆波團隊提出<b class='flag-5'>強化學習</b>專用稀疏<b class='flag-5'>訓練</b>框架RLx2

    什么是強化學習

    強化學習是機器學習的方式之一,它與監(jiān)督學習、無監(jiān)督學習并列,是三種機器學習訓練方法之一。 在圍棋
    的頭像 發(fā)表于 10-30 11:36 ?4610次閱讀
    什么是<b class='flag-5'>強化學習</b>

    InfiniBand網(wǎng)絡解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數(shù)據(jù)傳輸網(wǎng)絡。InfiniBand(IB)網(wǎng)絡作為高性能計算和AI模型訓練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)
    的頭像 發(fā)表于 10-23 11:26 ?940次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡解決LLM<b class='flag-5'>訓練</b>瓶頸