一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文帶你厘清自動駕駛端到端架構差異

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-05-08 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術飛速發(fā)展,智能駕駛系統(tǒng)的設計思路也經歷了從傳統(tǒng)模塊化架構到端到端大模型轉變。傳統(tǒng)模塊化架構將感知、預測、規(guī)劃和控制等子任務拆分開,分別由不同模塊完成;而端到端大模型則嘗試直接將傳感器輸入映射到車輛控制指令上,實現(xiàn)聯(lián)合優(yōu)化。雖同為端到端,在各車企在設計時卻提出了模塊化端到端、雙系統(tǒng)端到端、單模型端到端等各種技術架構,這些端到端架構到底有何區(qū)別,相較于基于模塊化的架構,他們又有何優(yōu)勢?

wKgZO2gcA8iAN4ijAAAQo00DEvw306.jpg

傳統(tǒng)模塊化系統(tǒng)架構與決策機制

在聊端到端大模型前,我們還是要先了解下基于模塊化的自動駕駛架構,到底是如何實現(xiàn)智駕的?;谀K化的自動駕駛架構通常采用模塊化的流水線結構,將環(huán)境感知、行為決策和運動控制等功能串聯(lián)起來。在感知階段,系統(tǒng)通過攝像頭、雷達、激光雷達等傳感器進行目標檢測、分割和跟蹤;在決策規(guī)劃階段,基于感知結果和高精度地圖進行路徑規(guī)劃與行為決策;最后在控制階段生成具體的加減速、轉向等控制指令。

wKgZPGgcA8iAcwtNAACk0ywrDfs441.jpg

自動駕駛系統(tǒng)架構

基于模塊化的自動駕駛架構優(yōu)勢在于各部分職責明確,可利用豐富的先驗知識和規(guī)則進行設計,且易于逐一調試和驗證。這一技術方案會先利用地圖和規(guī)則規(guī)劃期望路徑,再基于動態(tài)窗口法或采樣優(yōu)化等技術生成軌跡,最后由PID或模型預測控制算法輸出執(zhí)行指令,以實現(xiàn)高速NOA等功能。但這一技術對環(huán)境建模和規(guī)則依賴較強,在應對復雜多變的交通場景和長尾異常情況時容易出現(xiàn)性能瓶頸。

wKgZO2gcA8mAanDDAAAR42n7O-I219.jpg

端到端系統(tǒng)架構與決策機制

與模塊化方法不同,端到端(End-to-End, E2E)架構是將傳感器數(shù)據直接映射到車輛操控輸出,從而實現(xiàn)聯(lián)合優(yōu)化。其實端到端概念并不是近幾年才出現(xiàn)的,如1989年的ALVINN和2016年的NVIDIA DAVE-2等,使用前置攝像頭圖像輸入,通過神經網絡直接輸出轉向角,以驗證了端到端架構的可行性。

wKgZO2gcA8mAIFFNAABhkapnESw025.jpg

端到端架構

近年來,隨著大規(guī)模數(shù)據集和深度學習技術的發(fā)展,端到端自動駕駛方法不斷涌現(xiàn)。典型的端到端決策機制包括基于模仿學習(將駕駛員操作作為監(jiān)督信號)以及強化學習(以安全舒適為目標優(yōu)化獎勵)等策略,驅動模型直接學習從傳感器到規(guī)劃軌跡或控制命令的映射。端到端系統(tǒng)可以簡化結構,將感知、預測和規(guī)劃任務合并到一個聯(lián)合可訓練的模型中,從而能對駕駛性能進行直接優(yōu)化。

端到端架構看似極具優(yōu)勢,但由于缺乏明確的中間輸出,端到端系統(tǒng)往往被視為“黑箱”,難以解釋其決策過程,且在極端或罕見場景下的可靠性尚未充分驗證。此外,端到端模型需要海量多樣化的訓練數(shù)據和強大的計算資源,訓練優(yōu)化難度較大。為了兼顧性能與安全,有些方法在端到端架構中仍保留了一定的模塊化結構(如使用語義分割或目標檢測作為中間表示)。近年來,還出現(xiàn)了將視覺數(shù)據與語言模型(如大規(guī)模視覺語言模型)結合的嘗試,以提升對場景語義和因果關系的理解能力,但這也進一步增加了系統(tǒng)復雜度和實時性的挑戰(zhàn)。智駕最前沿曾簡單圖解了模塊化架構到端到端大模型,以故事的方式將這兩個技術給大家厘清楚了(相關閱讀:自動駕駛中基于規(guī)則的決策和端到端大模型有何區(qū)別?)。

wKgZPGgcA8qAdjJ-AAASG3BOmsQ866.jpg

三種端到端架構詳細解析

3.1 模塊化端到端架構

模塊化端到端架構(Modular End-to-End)將整體規(guī)劃任務分解為可微分的子模塊,但在訓練和推理時聯(lián)合優(yōu)化以最終規(guī)劃目標為準。該架構既保留了模塊化結構的可解釋性,又能享受端到端訓練的優(yōu)勢。近年來已有不少研究和工業(yè)解決方案采用類似思路,如Wayve等公司訓練多任務神經網絡實現(xiàn)端到端規(guī)劃,并在CARLA等仿真平臺上取得優(yōu)異成績。特斯拉最新的FSD V12方案也采用了這種模塊化端到端理念,使用鳥瞰(BEV)空間的占據網格(Occupancy Grid)網絡進行路徑規(guī)劃。特斯拉將多目攝像頭的特征映射到俯視圖空間,通過端到端學習得到占據概率圖,然后從中生成安全可行的行駛軌跡。該方法弱化了對高精度地圖的依賴,使車輛能更靈活地應對多傳感器融合后的環(huán)境感知。簡單理解,模塊化端到端架構在設計上仍保留了感知、預測、規(guī)劃等模塊,只是各模塊參數(shù)可以聯(lián)合訓練,因此能夠在一定程度上兼顧模型的可解釋性和任務級優(yōu)化性能。

3.2 雙系統(tǒng)端到端架構(端到端+視覺語言模型)

雙系統(tǒng)端到端架構在單一的端到端模型之外,增加了一個視覺語言輔助系統(tǒng),以提升對復雜場景的理解和推理能力。這一架構采用了“快慢雙系統(tǒng)”理念,快速系統(tǒng)(Fast System)采用端到端學習處理即時的軌跡規(guī)劃與控制,慢速系統(tǒng)(Slow System)則借助大規(guī)模視覺語言模型(VLM)進行高層次的語義推理和決策支持,雙系統(tǒng)相互協(xié)同,保障了智駕系統(tǒng)的安全性。

理想汽車的最新研發(fā)方案就采用了這一思路,一個端到端神經網絡負責實時駕駛控制,另一個視覺語言模型則對當前場景進行語義化解析,提供補充信息和決策建議。長安汽車的“天樞”大模型架構也采用了“大腦小腦”結構,其中“大腦”部分即是基于大模型的慢速系統(tǒng),用于復雜推理,而“小腦”則負責具體規(guī)劃和控制。雙系統(tǒng)架構的決策機制通常是端到端模型快速生成初步路徑,而視覺語言模型則分析環(huán)境上下文(如交通標志含義、行人意圖等),在必要時修正或豐富規(guī)劃結果。但這種方案需要同時運行兩個大模型,占用大量算力,而且模型間的協(xié)同效率和一致性需要專門設計和優(yōu)化。

wKgZO2gcA8qAIukDAABNjbCCC7Y542.jpg

3.3 單模型端到端架構

單模型端到端架構(One Model E2E)旨在用一個統(tǒng)一的多模態(tài)大模型完成所有自動駕駛任務,包括感知、預測與規(guī)劃。這一思路受到大規(guī)模語言模型和視覺語言模型的啟發(fā),力圖構建一個“駕駛領域的通用基礎模型”。近期行業(yè)內就有相關嘗試,比如DriveMM是一種全新的大規(guī)模多模態(tài)模型,可以處理圖像和多視角視頻等多種輸入,并執(zhí)行感知、預測和規(guī)劃等廣泛的駕駛任務。該模型先在各類視覺和語言數(shù)據上進行預訓練,再利用駕駛數(shù)據集微調,在多個公開數(shù)據集上實現(xiàn)了全任務的最先進性能。

在決策機制上,單模型架構可以將駕駛問題轉化為類似語言問答或生成的形式,由模型直接給出安全規(guī)劃或控制輸出,甚至可以通過自然語言交互進行意圖控制。這種“全能型”模型的優(yōu)勢在于統(tǒng)一了數(shù)據表示和優(yōu)化目標,可挖掘跨任務協(xié)同效應;但代價是模型規(guī)模巨大,對算力和數(shù)據的需求極高,而且目前缺乏實車部署的成熟方案。除了DriveMM之外,還有如DriveGPT4等嘗試將駕駛任務映射為文本問題,利用大型語言模型直接生成軌跡或控制指令。這些單模型方法代表著未來自動駕駛大模型的發(fā)展方向,但在安全可控性和實時性上仍需突破。

wKgZPGgcA8uAeRKtAAASAJELks8317.jpg

模塊化與端到端方案的優(yōu)劣勢分析

4.1 系統(tǒng)復雜度

模塊化架構涉及眾多專業(yè)模塊,系統(tǒng)設計和集成相對復雜,需要人工調試和維護多個組件(感知、定位、規(guī)劃、控制等)。相比之下,純粹的單模型端到端方案將整體流程壓縮為一個網絡,減少了傳統(tǒng)模塊的數(shù)量,從架構上更加簡潔。但模塊化端到端架構需要設計多個可微分的子網絡,并管理它們之間的數(shù)據流;雙系統(tǒng)架構則需同步運行兩個大模型,協(xié)調“快速端到端模型”和“慢速語言模型”的輸出,反而增添了額外的子模塊或并行網絡,系統(tǒng)層次稍顯復雜。總體來看,純粹的單一大模型在系統(tǒng)構成上最為簡單,但模型本身規(guī)模龐大;傳統(tǒng)模塊化則模塊眾多但各自相對簡單。

4.2 訓練與優(yōu)化難度

模塊化方案可分別針對各個子任務訓練(如目標檢測、車道線分割、軌跡規(guī)劃),每個模塊使用結構化標注數(shù)據,通過監(jiān)督學習容易收斂。但這也需要針對每個模塊收集和標注大量數(shù)據。端到端模型則需要更大規(guī)模的駕駛數(shù)據(包括傳感器輸入與人類駕駛輸出)來進行聯(lián)合訓練。由于決策輸出高度依賴真實駕駛表現(xiàn),端到端系統(tǒng)往往需要大量路測和仿真數(shù)據來覆蓋各類場景。雙系統(tǒng)架構在此基礎上還需準備適配視覺語言模型的數(shù)據集以及專門的對話或問答訓練。單一大模型的訓練難度最高,它不僅需要融合多模態(tài)(視覺、地圖、語言等)數(shù)據,還要在單一模型中學習多任務,因此訓練過程極其復雜,對算力和數(shù)據的需求遠超其他方案。總的來說,端到端方案在優(yōu)化時缺少顯式的中間監(jiān)督信號,容易陷入收斂困難或性能不穩(wěn)定的問題,需要更多的探索和調參。

4.3 決策透明性

模塊化系統(tǒng)的一個重要優(yōu)勢是可解釋性強,每個模塊有明確的功能邊界,設計者可以查看感知輸出、中間地圖和規(guī)劃軌跡等結果,清楚地定位問題所在。相比之下,全端到端模型由于決策過程高度融合,往往是“黑箱”式的,難以直接解釋為何做出某個操控決策。不過端到端范式并不一定完全封閉黑箱,采用模塊化端到端策略的系統(tǒng)可以保留如目標檢測或語義分割等中間輸出,使得系統(tǒng)仍然可以獲得部分透明度。如特斯拉的BEV占據圖在一定程度上提供了環(huán)境語義信息,而Wayve等系統(tǒng)也會輸出熱力圖供可視化。

雙系統(tǒng)架構引入的視覺語言模型本質上也作為輔助推理,但這種模型自身通常缺乏明確的決策解釋性。單模型架構盡管功能最強大,但幾乎沒有可見中間層供審查,其決策過程難以監(jiān)督或理解,反而需要依賴后續(xù)的解釋性AI技術去分析網絡關注區(qū)域。因此,就透明性而言,傳統(tǒng)模塊化和模塊化端到端方案較優(yōu);而純端到端或大規(guī)模大模型系統(tǒng)的決策往往更不透明。

4.4 靈活性

在功能拓展和算法迭代方面,模塊化架構具有較好的靈活性,當需要應對新場景或添加新功能時,可以針對性地替換或升級某個模塊(如換用更好的感知算法或優(yōu)化規(guī)劃策略),而無需重訓整個系統(tǒng)。

端到端方案則不易插入外部知識或規(guī)則,任何改變往往要通過重新訓練網絡來實現(xiàn)。雙系統(tǒng)架構在這方面介于兩者之間,雖然端到端模型需要重訓,但通過語義模塊(VLM)可以靈活地添加解釋層面能力,如通過修改提示詞或微調語言模型來適應新需求。單模型架構的拓展性最弱,因為其內部結構緊耦合,任何微調都會影響整個模型性能。此外,外部策略調整(如應急接管邏輯)也更難融入端到端模型。綜合來看,模塊化設計在靈活性上占優(yōu),而高度集成的端到端模型需要付出更大代價才能適應變化。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 端到端
    +關注

    關注

    0

    文章

    35

    瀏覽量

    10705
  • 自動駕駛
    +關注

    關注

    789

    文章

    14320

    瀏覽量

    170627
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    Nullmax 在段式核心技術上的深厚積累與創(chuàng)新實力,尤其在
    的頭像 發(fā)表于 07-05 15:40 ?428次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>最新研究成果入選ICCV 2025

    為什么自動駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術落地,(End-to-End)大模型也成為行業(yè)研究與應用的熱門方向。相較于傳統(tǒng)自動駕駛
    的頭像 發(fā)表于 07-04 16:50 ?214次閱讀
    為什么<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    數(shù)據標注方案在自動駕駛領域的應用優(yōu)勢

    10-20TB,其中需要標注的數(shù)據占比超過60%。在這樣的背景下,數(shù)據標注方案應運而生,正在重塑自動駕駛的數(shù)據生產范式。
    的頭像 發(fā)表于 06-23 17:27 ?287次閱讀

    自動駕駛中基于規(guī)則的決策和大模型有何區(qū)別?

    自動駕駛架構的選擇上,也經歷了從感知、決策控制、執(zhí)行的三段式架構到現(xiàn)在火熱的大模型,尤其
    的頭像 發(fā)表于 04-13 09:38 ?2911次閱讀
    <b class='flag-5'>自動駕駛</b>中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有何區(qū)別?

    東風汽車推出自動駕駛開源數(shù)據集

    近日,智能網聯(lián)汽車智駕數(shù)據空間構建研討會暨中汽協(xié)會智能網聯(lián)汽車分會、數(shù)據分會2024年度會議在上海舉辦。會上,東風汽車發(fā)布行業(yè)規(guī)模最大、涵蓋125萬組高質量數(shù)據的自動駕駛開源數(shù)據
    的頭像 發(fā)表于 04-01 14:54 ?628次閱讀

    動量感知規(guī)劃的自動駕駛框架MomAD解析

    自動駕駛框架實現(xiàn)了感知與規(guī)劃的無縫集成,但通常依賴于次性軌跡預測,這可能導致控制不穩(wěn)定,并且對單頓感知中的遮擋問題較為敏感。為解決這
    的頭像 發(fā)表于 03-18 09:31 ?944次閱讀
    動量感知規(guī)劃的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>框架MomAD解析

    DiffusionDrive首次在自動駕駛中引入擴散模型

    ? ? 近年來,自動駕駛成為研究熱點,其核心在于從傳感器數(shù)據直接學習駕駛決策。然而,駕駛
    的頭像 發(fā)表于 03-08 13:59 ?886次閱讀
    DiffusionDrive首次在<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>中引入擴散模型

    自動駕駛技術研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入202
    的頭像 發(fā)表于 12-19 13:07 ?891次閱讀

    自動泊車的應用

    與城市環(huán)境的復雜性和高速公路駕駛的風險相比,停車場景的特點是低速、空間有限和高可控性。這些特點為在車輛中逐步部署自動駕駛能力提供了可行
    的頭像 發(fā)表于 12-18 11:38 ?970次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在<b class='flag-5'>自動</b>泊車的應用

    爆火的如何加速智駕落地?

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0551,獲取本文參考報告:《智能汽車技術研究報告》pdf下載方式。 “
    的頭像 發(fā)表于 11-26 13:17 ?1157次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    從車企實踐看自動駕駛解決方案

    中的重要性日益凸顯,這也促使眾多汽車制造商加快了智能化技術的研發(fā)和工程投入,未能跟上智能化步伐的汽車品牌可能會逐漸失去市場競爭力,自動駕駛技術的發(fā)展已然進入關鍵階段,其中概念的提
    的頭像 發(fā)表于 11-19 10:55 ?1127次閱讀
    從車企實踐看<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>解決方案

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然
    的頭像 發(fā)表于 11-07 15:15 ?708次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>

    Waymo利用谷歌Gemini大模型,研發(fā)端自動駕駛系統(tǒng)

    邁新步,為其機器人出租車業(yè)務引入了種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓練模型——“多模態(tài)自動駕駛模型”(E
    的頭像 發(fā)表于 10-31 16:55 ?1722次閱讀

    Mobileye自動駕駛解決方案的深度解析

    強大的技術優(yōu)勢。 Mobileye的解決方案概述 1.1 什么是
    的頭像 發(fā)表于 10-17 09:35 ?837次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>解決方案的深度解析

    實現(xiàn)自動駕駛,唯有

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1519次閱讀
    實現(xiàn)<b class='flag-5'>自動駕駛</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?