制服丝袜成人激情无码视频,国产欧美日本高清视频不卡

本文通過調研國內外無人駕駛車輛行為決策系統(tǒng)的研究現(xiàn)狀，對行為決策系統(tǒng)進行分類，基于國內外行為決策系統(tǒng)研究實例，對基于規(guī)則和基于學習算法的不同行為決策系統(tǒng)的實現(xiàn)方式、適用條件及優(yōu)缺點進行比較，分析了現(xiàn)階段無人車行為決策系統(tǒng)的研究水平、技術難點和發(fā)展趨勢，為無人駕駛車輛行為決策系統(tǒng)的設計提供參考。

本文來自 2018 年 8 月 3 日出版的《汽車技術》，作者是同濟大學汽車學院熊璐教授、余卓平教授、康宇宸、張培志、朱辰宇。

1. 無人車系統(tǒng)架構

無人駕駛車輛是可以自主行駛的車輛，其系統(tǒng)結構核心在于「智能」，不僅具備加減速、轉向等常規(guī)的汽車功能，還集成了環(huán)境感知、行為決策、路徑規(guī)劃、車輛控制等系統(tǒng)功能，能夠綜合環(huán)境及自車信息，實現(xiàn)類似人類駕駛的行為。

圖 1 典型無人駕駛車輛系統(tǒng)架構

典型的無人駕駛車輛系統(tǒng)架構如圖 1 所示，總體分為環(huán)境感知、決策規(guī)劃和運動控制三大部分。

環(huán)境感知系統(tǒng)的主要目的是獲取并處理環(huán)境信息，利用多傳感器目標檢測與融合等技術，獲取周圍環(huán)境態(tài)勢，為系統(tǒng)其他部分提供周圍環(huán)境的關鍵信息。感知層將處理后的信息發(fā)送給決策層。

決策規(guī)劃系統(tǒng)綜合環(huán)境及自車信息，使無人車產(chǎn)生安全、合理的駕駛行為，指導運動控制系統(tǒng)對車輛進行控制 [1]。行為決策系統(tǒng)是狹義的決策系統(tǒng)，其根據(jù)感知層輸出的信息合理決策出當前車輛的行為，并根據(jù)不同的行為確定軌跡規(guī)劃的約束條件，指導軌跡規(guī)劃模塊規(guī)劃出合適的路徑、車速等信息，發(fā)送給控制層。

運動控制系統(tǒng)接收決策規(guī)劃層的指令并控制車輛響應，保證控制精度，對目標車速、路徑等進行跟蹤 [2]。

2. 無人車行為決策系統(tǒng)概述

2.1 設計準則

無人車行為決策系統(tǒng)的目標是使無人車像熟練的駕駛員一樣產(chǎn)生安全、合理的駕駛行為。其設計準則可總結為：良好的系統(tǒng)實時性；安全性最高優(yōu)先級（車輛具備防碰撞、緊急避障、故障檢測等功能）；合理的行車效率優(yōu)先級；結合用戶需求的決策能力（用戶對全局路徑變更、安全和效率優(yōu)先級變更等）；乘員舒適性（車輛轉向穩(wěn)定性、平順性等）。

對于適用于城市道路和高速公路工況的行為決策系統(tǒng)，設計準則還包括 [2]：右側車道通行優(yōu)先；保持車道優(yōu)先；速度限制；交通標志及交通信號燈限制等。

2.2 輸入與輸出

無人車行為決策系統(tǒng)的上層是感知層，其上層輸入包括：

a.局部環(huán)境信息，其基于相機、雷達等車載傳感器，通過多傳感器目標檢測 [3-4] 與融合等技術 [5]，融合處理各傳感器數(shù)據(jù)，獲取車輛周邊環(huán)境態(tài)勢，輸出關鍵環(huán)境信息，交由決策系統(tǒng)處理。

b.自車定位信息，其基于 GPS/慣性導航系統(tǒng)、高精度地圖定位 [6]、即時定位與地圖構建（Simultaneous Localization And Mapping，SLAM）[7-8] 等方法，主要功能是對車輛進行高精度定位。

c.地理地圖信息和任務信息，包括先驗全局路徑、道路高精地圖、交通標志信息等。

廣義的決策系統(tǒng)的輸出是運動控制信息。本文討論狹義的行為決策系統(tǒng)，其下層是運動規(guī)劃模塊，行為決策系統(tǒng)的輸出包括當前車輛行為、車輛運動局部目標點與目標車速等。

2.3 系統(tǒng)分類

無人車行為決策系統(tǒng)主要有基于規(guī)則和基于學習算法兩大類。

基于規(guī)則的行為決策，即將無人駕駛車輛的行為進行劃分，根據(jù)行駛規(guī)則、知識、經(jīng)驗、交通法規(guī)等建立行為規(guī)則庫，根據(jù)不同的環(huán)境信息劃分車輛狀態(tài)，按照規(guī)則邏輯確定車輛行為的方法。其代表方法為有限狀態(tài)機法 [9-10]，代表應用有智能先鋒II [11]、紅旗 CA7460、Boss [12]、Junior [13]、Odin [14]、Talos [15]、Bertha [16] 等。

基于學習算法的行為決策，即通過對環(huán)境樣本進行自主學習，由數(shù)據(jù)驅動建立行為規(guī)則庫，利用不同的學習方法與網(wǎng)絡結構，根據(jù)不同的環(huán)境信息直接進行行為匹配，輸出決策行為的方法，以深度學習的相關方法及決策樹等各類機器學習方法 [17-18] 為代表。代表應用有英偉達（NVIDIA）[19]、Intel [20]、Comma.ai [21]、Mobileye [22]、百度、Waymo、特斯拉等。

3. 基于規(guī)則的無人車行為決策系統(tǒng)

3.1 有限狀態(tài)機法

基于規(guī)則的行為決策方法中最具代表性的是有限狀態(tài)機法，其因邏輯清晰、實用性強等特點得到廣泛應用。有限狀態(tài)機是一種離散輸入、輸出系統(tǒng)的數(shù)學模型。它由有限個狀態(tài)組成，當前狀態(tài)接收事件，并產(chǎn)生相應的動作，引起狀態(tài)的轉移。狀態(tài)、事件、轉移、動作是有限狀態(tài)機的四大要素 [23-24]。

有限狀態(tài)機的核心在于狀態(tài)分解。根據(jù)狀態(tài)分解的連接邏輯，將其分為串聯(lián)式、并聯(lián)式、混聯(lián)式 3 種體系架構。

串聯(lián)式結構的有限狀態(tài)機系統(tǒng)，其子狀態(tài)按照串聯(lián)結構連接，狀態(tài)轉移大多為單向，不構成環(huán)路。并聯(lián)式結構中各子狀態(tài)輸入、輸出呈現(xiàn)多節(jié)點連接結構，根據(jù)不同輸入信息，可直接進入不同子狀態(tài)進行處理并提供輸出 [25]。如果一個有限狀態(tài)機系統(tǒng)下的子狀態(tài)中既存在串聯(lián)遞階，又存在并聯(lián)連接，則稱這個系統(tǒng)具有混聯(lián)結構。

3.2 基于有限狀態(tài)機的行為決策系統(tǒng)

有限狀態(tài)機法是經(jīng)典的決策方法，因其實用性與穩(wěn)定性在無人車決策系統(tǒng)中廣泛應用，目前已比較成熟，美國國防高級研究計劃局（Defense Advanced Research Projects Agency，DARPA）城市挑戰(zhàn)賽中各隊使用的決策系統(tǒng)為其典型代表。

3.2.1 串聯(lián)結構

圖 2 Talos 無人車的行為決策系統(tǒng)

麻省理工大學的 Talos [15] 無人車如圖 2 所示，其行為決策系統(tǒng)總體采用串聯(lián)結構。該無人車以越野工況挑戰(zhàn)賽為任務目標，根據(jù)邏輯層級構建決策系統(tǒng)。其系統(tǒng)分為定位與導航、障礙物檢測、車道線檢測、路標識別、可行駛區(qū)域地圖構建、運動規(guī)劃、運動控制等模塊，其中導航模塊負責制定決策任務。

串聯(lián)式結構的優(yōu)點是邏輯明確、規(guī)劃推理能力強、問題求解精度高。其缺點在于對復雜問題的適應性差，某子狀態(tài)故障時，會導致整個決策鏈的癱瘓。串聯(lián)結構適用于某一工況的具體處理，擅長任務的層級推理與細分解決。

3.2.2 并聯(lián)結構

圖 3 Junior 無人車的行為決策系統(tǒng)

斯坦福大學與大眾公司研發(fā)的 Junior 無人車 [13] 行為決策系統(tǒng)結構如圖 3 所示，其具備典型的并聯(lián)結構。該系統(tǒng)分為初始化、前向行駛、停止標志前等待、路口通過、U 形彎等 13 個子狀態(tài)，各個子狀態(tài)相互獨立。

Junior 決策系統(tǒng)是并聯(lián)劃分子系統(tǒng)最多的系統(tǒng)之一，但在實際場景測試中，依然存在其有限狀態(tài)機沒有覆蓋的工況，且對真實場景的辨識準確率較差。這說明單純地應用并聯(lián)式場景行為細分并不能提高場景遍歷的深度，相反容易降低場景辨識準確率。

圖 4 Bertha 無人車的行為決策系統(tǒng)

梅賽德斯奔馳公司研發(fā)的 Bertha 無人車 [16] 行為決策系統(tǒng)如圖 4 所示。該系統(tǒng)分為路徑規(guī)劃、目標分析、交通信號燈管理、放棄管理 4 個獨立并行的子狀態(tài)模塊。其中，放棄管理模塊通過換擋操縱桿信號進行無人和有人駕駛的切換。

圖 5 紅旗 CA7460 的行為決策系統(tǒng)

國防科學技術大學研發(fā)的紅旗 CA7460 [2] 行為決策系統(tǒng)如圖 5 所示，其具備典型的并聯(lián)結構。該系統(tǒng)適用于高速公路工況，其決策系統(tǒng)劃分為自由追蹤行車道、自由追蹤超車道、由行車道換入超車道、由超車道換入行車道等模式。

紅旗 CA7460 對車輛行駛的安全性指標和效率指標進行了衡量，根據(jù)交通狀況和安全性指標選出滿足條件的候選行為，再根據(jù)效率指標決策出最優(yōu)行為。

卡爾斯魯厄工業(yè)大學的 AnnieWAY 無人車團隊 [26] 建立了并行層次狀態(tài)機，構建決策系統(tǒng)應對環(huán)境中出現(xiàn)的各類情況。布倫瑞克工業(yè)大學提出的移動導航分布式體系結構，包含一系列駕駛行為（跟隨道路點、車道保持、避障、行駛在停車區(qū)等），通過投票機制決策駕駛行為并應用于 Caroline 號無人車 [27-28] 上。

并聯(lián)式結構將每一種工況單獨劃分成模塊進行處理，整個系統(tǒng)可快速、靈活地對輸入進行響應。但在復雜工況下，由于遍歷狀態(tài)較多導致的算法機構龐大，以及狀態(tài)間的劃分與狀態(tài)沖突的解決是難點。并聯(lián)結構適用于場景較復雜的工況。

相較于串聯(lián)結構，并聯(lián)結構的優(yōu)點是具備場景遍歷廣度優(yōu)勢，易于實現(xiàn)復雜的功能組合，具有較好的模塊性與拓展性，缺點是系統(tǒng)不具備時序性，缺乏場景遍歷的深度，決策易忽略細微環(huán)境變化，狀態(tài)劃分灰色地帶難以處理，從而導致決策錯誤。

3.2.3 混聯(lián)結構

串、并聯(lián)結構具備各自的局限性，混聯(lián)式結構可較好地結合兩者優(yōu)點，層級式混聯(lián)結構是比較典型的方法。

圖 6 Boss 無人車的行為決策系統(tǒng)

卡耐基梅隆大學與福特公司研發(fā)的 Boss 無人車 [12] 行為決策系統(tǒng)如圖 6 所示，其具備典型的層級式混聯(lián)結構。系統(tǒng)頂層基于場景行為劃分，底層基于自車行為劃分。3 個頂層行為及其底層行為分別為：車道保持（車道選擇、場景實時報告、距離保持器、行為發(fā)生器等）、路口處理（優(yōu)先級估計、轉移管理等）和指定位姿。

圖 7 Odin 無人車行為決策系統(tǒng)

弗吉尼亞理工大學研發(fā)的 Odin 無人車 [14] 行為決策系統(tǒng)如圖 7 所示，該系統(tǒng)引入決策仲裁機制，其決策系統(tǒng)劃分為車道保持、超車、匯入交通流、U 型彎、擁堵再規(guī)劃等模塊。每個子決策模塊輸出的結果均交由決策融合器進行決策仲裁。各模塊具備不同優(yōu)先級，優(yōu)先級低的模塊必須讓步于優(yōu)先級高的模塊。

圖 8 智能駕駛 Ⅱ 號行為決策系統(tǒng)

中國科學技術大學研發(fā)的智能駕駛 Ⅱ 號 [11] 行為決策系統(tǒng)如圖 8 所示，其具備典型的混聯(lián)結構。該系統(tǒng)進行了專家算法和機器學習算法的融合，頂層決策系統(tǒng)采用并聯(lián)式有限狀態(tài)機，分為跟車巡航、十字路口、U 形彎、自主泊車等模塊。底層采用學習算法（ID3 決策樹法），用以得出車輛的具體目標狀態(tài)及目標動作。

這種層級處理的思想還衍生出各種具體的應用方法：

康奈爾大學的 Skynet 號無人車 [29] 通過結合交通規(guī)則和周圍環(huán)境，建立了 3 層規(guī)劃系統(tǒng)，劃分駕駛行為、規(guī)劃策略與底層操作控制，實現(xiàn)對車輛行為的決策處理；

清華大學的 THMR-V 無人車 [30] 采用分層式的體系結構，將系統(tǒng)分為協(xié)調級和執(zhí)行級，通過協(xié)調級對環(huán)境和車輛狀態(tài)進行局部規(guī)劃，最高時速可達百公里；

佛羅里達大學的 Knight Rider 號無人車 [31] 包含人工智能模塊，建立了層次結構駕駛員模型，將駕駛任務分為戰(zhàn)略、戰(zhàn)術和操作層級，通過戰(zhàn)略層設定次級目標來生成序列最優(yōu)戰(zhàn)術，并經(jīng)過操作層輸出控制信號；

來自賓州大學的 Little Ben 號無人車研發(fā)團隊 [32] 建立了簡單的規(guī)則對比賽給定的任務文件進行駕駛行為的劃分，結合路網(wǎng)信息確定車輛行為，以此作為車輛的上層決策系統(tǒng)。

4. 基于學習算法的無人車行為決策系統(tǒng)

近年來，人工智能技術迅猛發(fā)展，學習算法越來越多地運用于無人駕駛車輛環(huán)境感知與決策系統(tǒng) [33]。

基于學習算法的無人車行為決策系統(tǒng)研究目前已取得顯著成果，根據(jù)原理不同主要可分為深度學習相關的決策方法 [34-35] 與基于決策樹等機器學習理論的決策方法。NVIDIA 端到端卷積神經(jīng)網(wǎng)絡決策系統(tǒng) [19] 與中國科學技術大學應用的 ID3決策樹法 [11] 是其典型案例。

4.1 深度學習方法

深度學習方法因其在建?，F(xiàn)實問題上極強的靈活性，近年來被許多專家、學者應用于無人車決策系統(tǒng)。NVIDIA 研發(fā)的無人駕駛車輛系統(tǒng)架構是一種典型架構，其采用端到端卷積神經(jīng)網(wǎng)絡進行決策處理，使決策系統(tǒng)大幅簡化。系統(tǒng)直接輸入由相機獲得的各幀圖像，經(jīng)由神經(jīng)網(wǎng)絡決策后直接輸出車輛目標轉向盤轉角。

圖 9 NVIDIA 無人車決策系統(tǒng)訓練模型

該系統(tǒng)使用 NVIDIA DevBox 作處理器，用 Torch 7 作為系統(tǒng)框架進行訓練，工作時每秒處理 30幀數(shù)據(jù)，其訓練系統(tǒng)框架如圖 9所示。圖像輸入到卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，CNN）計算轉向控制命令，將預測的轉向控制命令與理想的控制命令相比較，然后調整 CNN 模型的權值使得預測值盡可能接近理想值。權值調整由機器學習庫 Torch 7 的反向傳播算法完成。訓練完成后，模型可以利用中心的單個攝像機數(shù)據(jù)生成轉向控制命令。

圖 10 NVIDIA 與 Mobileye 決策架構

其深度學習系統(tǒng)網(wǎng)絡結構如圖 10a 所示，共 9層，包括 1 個歸一化層、5 個卷積層和 3 個全連接層。輸入圖像被映射到 YUV 顏色空間，然后傳入網(wǎng)絡。

仿真結果表明，其神經(jīng)網(wǎng)絡能完整地學習保持車道駕駛的任務，而不需要人工將任務分解為車道檢測、語義識別、路徑規(guī)劃和車輛控制等。CNN 模型可以從稀疏的訓練信號（只有轉向控制命令）中學到有意義的道路特征，100 h 以內的少量訓練數(shù)據(jù)就足以完成在各種條件下操控車輛的訓練。

百度端到端系統(tǒng)實現(xiàn)了對車輛的縱向和橫向控制：

縱向控制采用堆疊卷積長短期記憶（Long Short Term Memory，LSTM）深度學習模型，提取幀序列圖像中的時空特征信息，實現(xiàn)特征到縱向控制指令的映射；

橫向控制采用 CNN 深度學習模型，從單幅前視相機的圖像直接計算出橫向控制的曲率。

模型主要關注視覺特征的提取、時序規(guī)律的發(fā)現(xiàn)、行為的映射等方面。

其中，縱向控制被看作時空序列預測問題，輸入單元為最近 5 幀圖像（圖像采集頻率是每秒 8幀），每幀圖像均縮放為 80 像素 × 80 像素的 RGB 格式。LSTM 模型的第 1 層有 64 個通道，其內核大小為 5 像素 × 5像素，后續(xù)層擁有更多的通道和更小的內核，最后一個卷積層為 2 個完全連通的層。輸出單元是線性單元，損失函數(shù)是 MSE，優(yōu)化器是 rmsprop。橫向控制由 1 個預處理層、5 個卷積層和 2 個全連接層組成。輸入為 320 像素 × 320 像素的 RGB格式圖像。

圖 11 Intel 決策網(wǎng)絡架構

Intel [20] 利用已有控制數(shù)據(jù)訓練網(wǎng)絡，完成端到端的自動駕駛，如圖 11 所示。其在網(wǎng)絡中考慮了方向性的控制指令（直行、左轉、右轉），使得網(wǎng)絡可以在車道保持的同時完成轉彎等操作。圖 11 為 2 種不同的結合控制指令的結構：一種作為網(wǎng)絡的輸入，另一種將指令分為 3 個不同的輸出層，根據(jù)控制指令選擇不同的輸出。

Comma.ai [21] 利用 CNN，并且?guī)缀踔挥?CNN來構造決策系統(tǒng)。該系統(tǒng)將圖像導入網(wǎng)絡，通過網(wǎng)絡輸出命令調整轉向盤和車速，從而使車輛保持在車道內。根據(jù) Comma.ai 公布的數(shù)據(jù)，該公司目前已經(jīng)累計行駛約1.35×10^6 km，累計行駛時間為 22000 h，累計用戶 1909 人。

美國伍斯特理工學院 [36] 提出了一種自動駕駛汽車的端到端學習方法，能夠直接從前視攝像機拍攝的圖像幀中產(chǎn)生適當?shù)霓D向盤轉角。主要使用卷積神經(jīng)網(wǎng)絡將特征級的圖像數(shù)據(jù)作為輸入，駕駛員的轉向盤轉角作為輸出進行訓練和學習，使用 Comma.ai 公布的數(shù)據(jù)集進行訓練和評估。試驗結果表明，該模型能夠實現(xiàn)相對精確的轉向控制，很好地完成了車道保持動作。

Mobileye [22] 把增強學習應用在高級駕駛策略的學習上，感知及控制等模塊則被獨立出來處理，其系統(tǒng)結構如圖 10b 所示。相對于端到端學***提高了決策過程的可解釋性和可操作性，很好地適配了傳統(tǒng)機器人學中感知-決策-控制的系統(tǒng)架構。

Drive.ai 獲準在美國加州公共道路上測試無人駕駛汽車，其在感知和決策上都使用深度學習，但避免整體系統(tǒng)的端到端，而是將系統(tǒng)按模塊分解，再分別應用深度學習，同時結合規(guī)則、知識確保系統(tǒng)的安全性。

Waymo 通過模擬駕駛及道路測試獲取了大量的數(shù)據(jù)對其行為決策系統(tǒng)進行訓練。該系統(tǒng)不僅能對物體進行探測，還能對障礙物進行語義理解。對不同道路參與者的行為方式建立準確的模型，判斷它可能的行為方式以及對汽車自身的道路行為產(chǎn)生的影響，輸入到?jīng)Q策系統(tǒng)，保證決策行為的安全性。

卡耐基梅隆大學 [37] 提出了一種基于預測和代價函數(shù)算法（Prediction and Cost function-Based algorithm，PCB）的離線學習機制，用于模擬人類駕駛員的行為決策。其決策系統(tǒng)針對交通場景預測與評估問題建立模型，使用學習算法，利用有限的訓練數(shù)據(jù)進行優(yōu)化。訓練數(shù)據(jù)來源于人類駕駛員在實際道路的跟車場景，主要包含自車車速、前車車速以及兩車之間的距離等。在 120 km 的低速跟車測試中，PCB 和人類跟車的車速差異僅為 5%，能夠很好地完成跟車操作。

國防科技大學的劉春明教授等人 [38] 構建了 14 自由度的車輛模型，采用模型控制預測理論，利用基于增強學習理論的方法，基于仿真數(shù)據(jù)得到了無人車的決策模型。該方法利用多自由度車輛模型對車輛的實際動力學特性進行考量，有利于滿足車輛行駛穩(wěn)定與乘員舒適的要求。

麻省理工大學 [39] 在仿真器中模擬單向 7 車道工況，利用定義好的深度強化學習（Deep Q-Learning，DQN）模型調整網(wǎng)絡結構，可在瀏覽器上進行訓練工作，完善決策系統(tǒng)。

4.2 其他機器學習方法

除基于學習的決策方法外，還有很多機器學習方法在決策系統(tǒng)中加以應用。決策樹法為機器學習理論中一種具有代表性的方法，中國科技大學的智能駕駛 Ⅱ 號將其用于決策系統(tǒng)。其應用的 ID3 決策樹法適用于多種具體工況，如路口、U 形彎工況等，其先由頂層有限狀態(tài)機決策出具體場景，再進入決策樹進行相應的計算。

圖 12 基于 ID3 算法的行為決策樹

以十字路口工況為例，首先確定當前工況的條件屬性（即系統(tǒng)輸入，如自車車速、干擾車車速等）和決策屬性（即系統(tǒng)輸出，如加速直行、停車讓行等）。選取若干樣本數(shù)據(jù)進行基于灰關聯(lián)熵的條件屬性影響分析，獲得如圖 12 所示的基于 ID3 算法的行為決策樹。

該行為決策樹即機器通過學習后自主獲得的行為規(guī)則庫的一種表現(xiàn)形式。無人車運行時，將駕駛環(huán)境信息轉化成條件屬性，交由決策樹進行計算，最終得出決策指令，指導無人車的行為操作。

ID3 決策樹法具有知識自動獲取、準確表達、結構清晰簡明的優(yōu)點，其缺點同樣明顯，即對于大量數(shù)據(jù)獲取的難度較大，數(shù)據(jù)可靠性不足，數(shù)據(jù)離散化處理后精度不足。

德國寶馬和慕尼黑工業(yè)大學[40] 提出了一種基于部分可觀測馬爾科夫決策過程（Partially Observable Markov Decision Processes，POMDP）的決策模型，主要解決動態(tài)和不確定駕駛環(huán)境下的決策問題，其不確定性主要來源于傳感器噪聲和交通參與者行駛意圖的不確定性。

POMDP 將其他車輛的駕駛意圖作為隱藏變量，建立貝葉斯概率模型，可求解出自車在規(guī)劃路徑上的最優(yōu)加速度。在復雜交叉路口的仿真測試下，能夠較好地根據(jù)其他車輛的駕駛行為調整自車的最優(yōu)加速度，保證安全性與行車效率。

豐田公司的 Urtasun 等人 [41] 提出了一種基于概率的生成式模型，提取室外環(huán)境的語義信息作為輸入，并輸出行為決策。

5. 無人車行為決策系統(tǒng)發(fā)展趨勢

5.1 現(xiàn)階段研究水平

無人車行為決策系統(tǒng)研究水平的衡量標準主要體現(xiàn)在實車應用性、實現(xiàn)功能的復雜程度、應用場景的復雜程度、決策結果正確性與系統(tǒng)復雜性。

實車應用是對決策系統(tǒng)的基本要求?，F(xiàn)階段，有限狀態(tài)機法作為基于規(guī)則的代表方法，已經(jīng)較為成熟并廣泛應用于國內外諸多無人車上?；趯W習算法的決策算法，如深度學習相關方法、決策樹法、粗糙集理論等學習算法近年來發(fā)展迅速，亦具有很多相關應用實例并取得很好效果。截至 2017 年 11 月，谷歌自動駕駛汽車部門 Waymo 已在美國 6 個州開展了自動駕駛測試，宣稱其測試用無人車已行駛 5.6×10^6 km并完成了 4×10^9 km 的模擬駕駛。特斯拉的量產(chǎn)車中安裝了 Autopilot 硬件系統(tǒng)，可通過空中下載（Over-The-Air，OTA）技術進行從 L2 到 L4 的升級。2017 年上半年以來，陸續(xù)開啟了車道偏離警告、自動轉向（Autosteer）、召喚（Summon）以及自動車道變換等功能。

在功能復雜程度上，現(xiàn)階段的有限狀態(tài)機決策技術除實現(xiàn)簡單的循線行駛、車道保持、緊急避障等功能外，也可實現(xiàn)較為復雜的組合功能 [42-43]，如路口處理、自主泊車，乃至一定工況范圍內的長距離自主駕駛。狀態(tài)機方法可并行遍歷多個場景，且擅長在特定場景內對任務進行拆分決策。而現(xiàn)階段學習算法的功能應用依賴于訓練集的豐富程度，一般在指定工況與任務下效果較好，多場景與多任務協(xié)調能力仍相對較差。如北京理工大學的 BYD-Ray [44] 應用粗糙集理論主要解決換道決策的功能，智能駕駛 Ⅱ 號的 1 個決策樹只能解決 1 個功能下的決策任務。以谷歌為代表的端到端相關方法取得了較好效果，但其對于訓練數(shù)據(jù)較為依賴，決策網(wǎng)絡可解釋性與可調整性較差。

在應用場景的復雜程度上，現(xiàn)階段的有限狀態(tài)機決策技術可以適應復雜的綜合城市環(huán)境，其優(yōu)勢在于場景廣度的遍歷。Boss、Junior、Odin 等在 DARPA 無人車挑戰(zhàn)賽中于 6 h 內完成 96 km 的路測，其場景完全還原了真實城市道路環(huán)境，需要車輛與其他車輛交互、避讓，同時遵守交通規(guī)則，具有很高的環(huán)境復雜度。而學習算法更加著重于場景深度的遍歷，對于同一場景下的各種細微變化更加應變自如[45-46]。NVIDIA 無人車利用訓練后的 CNN 模型，可以使車輛在同一類場景下在面對不同道路材質、車道線線型、各種天氣狀況等細微環(huán)境變化時做出正確反應。Drive.ai 共有 4 輛車在舊金山灣區(qū)進行路測，在夜路、雨天、有霧等復雜情況下也基本可以實現(xiàn)完全自動駕駛。

在決策結果的正確性上，學習算法與規(guī)則算法各有優(yōu)勢，在實現(xiàn)較高的功能復雜度和適應較高場景復雜度的基礎上，兩種算法均能夠保證決策系統(tǒng)的正確性，完成相應的行駛任務。但對于復雜工況，規(guī)則算法面臨狀態(tài)劃分界限確定問題。學習算法需要遍歷程度高的數(shù)據(jù)作為支持。

在系統(tǒng)復雜性上，基于學習的算法舍棄了規(guī)則算法的層級架構，更加簡潔直接，大幅簡化了決策系統(tǒng)結構[47]。規(guī)則算法面臨復雜工況，不可避免因遍歷工況、完善邏輯而導致算法規(guī)模龐大冗雜。并且對于復雜工況下算法性能的提高問題，規(guī)則算法因其邏輯結構問題，難以大幅提升，存在瓶頸。

根據(jù)美國汽車工程師學會（SAE）的自動駕駛分級，現(xiàn)階段基于專家和學習算法的無人車基本可達到 L3 級有條件自動駕駛水平，部分可以達到 L4 級高度自動駕駛水平。通用汽車于 2018 年 1 月發(fā)布了新一代無人駕駛汽車——Cruise AV，這是世界首輛無需駕駛員、轉向盤和踏板即可實現(xiàn)安全駕駛的可量產(chǎn)汽車，可以達到 L4 級別。百度于 2015 年 12 月完成了北京中關村軟件園的百度大廈至奧林匹克森林公園并原路返回的道路測試，全程均無人駕駛，最高車速達 100 km/h。2018 年 2 月的春節(jié)聯(lián)歡晚會中，百度 Apollo 無人車隊在港珠澳大橋上以無人駕駛模式完成了 8 字交叉跑等高難度駕駛動作，標志著我國無人駕駛技術亦取得了長足進步。

5.2 技術難點

基于規(guī)則和基于學習算法的行為決策技術各自具備較為鮮明的優(yōu)缺點。

基于專家規(guī)則的行為決策系統(tǒng)，

其優(yōu)點是：算法邏輯清晰，可解釋性強，穩(wěn)定性強，便于建模；系統(tǒng)運行對處理器性能要求不高；模型可調整性強；可拓展性強，通過狀態(tài)機的分層可以實現(xiàn)較為復雜的組合功能；在功能場景的廣度遍歷上存在優(yōu)勢。

其缺點是：由于狀態(tài)切割劃分條件導致車輛行為不連貫；行為規(guī)則庫觸發(fā)條件易重疊從而造成系統(tǒng)失效；有限狀態(tài)機難以完全覆蓋車輛可能遇到的所有工況，通常會忽略可能導致決策錯誤的環(huán)境細節(jié)；場景深度遍歷不足導致系統(tǒng)決策正確率難以提升，對復雜工況處理及算法性能的提升存在瓶頸。

基于學習算法的行為決策系統(tǒng)，

其優(yōu)點是：具備場景遍歷深度的優(yōu)勢，針對某一細分場景，通過大數(shù)據(jù)系統(tǒng)更容易覆蓋全部工況；利用網(wǎng)絡結構可簡化決策算法規(guī)模；部分機器具備自學習性能，機器能夠自行提煉環(huán)境特征和決策屬性，便于系統(tǒng)優(yōu)化迭代 [48-49]；不必遍歷各種工況，通過數(shù)據(jù)的訓練完善模型，模型正確可率隨數(shù)據(jù)的完備得以提升。

其缺點是：算法決策結果可解釋性差，模型修正難度大；學習算法不具備場景遍歷廣度優(yōu)勢，不同場景所需采用的學習模型可能完全不同；機器學習需要大量試驗數(shù)據(jù)作為學習樣本；決策效果依賴數(shù)據(jù)質量，樣本不足、數(shù)據(jù)質量差、網(wǎng)絡結構不合理等會導致過學習、欠學習等問題。

根據(jù)上述決策系統(tǒng)的優(yōu)缺點，提出現(xiàn)階段決策系統(tǒng)需要解決的具體技術難點：

a.基于有限狀態(tài)機決策模型的狀態(tài)劃分問題。有限狀態(tài)機的狀態(tài)劃分需要依據(jù)明確的邊界條件。但實際駕駛過程中，駕駛行為間存在某些「灰色地帶」，即同一場景下可能有 1 個以上合理的行為選擇，使駕駛狀態(tài)存在沖突。對于決策系統(tǒng)而言，一方面要避免沖突狀態(tài)強行劃分而造成的無人車行為不連貫，另一方面也要能夠判斷處于「灰色地帶」的無人車不同行為的最優(yōu)性。通過在決策系統(tǒng)中引入其他決策理論，如 DS 證據(jù)理論（Dempster-Shafer Evidence Theory）等、決策仲裁機制、博弈論法、狀態(tài)機與學習算法結合等方法可幫助解決該問題。

b.基于有限狀態(tài)機決策模型的復雜場景遍歷問題。有限狀態(tài)機需要人工設定規(guī)則庫以泛化無人車行駛狀態(tài)，這種模式使得狀態(tài)機具有廣度遍歷優(yōu)勢。但隨著環(huán)境場景的增多與復雜，有限狀態(tài)機的規(guī)模也不斷龐大，使得算法臃腫；而同一場景的深度遍歷，即由于環(huán)境細節(jié)變化導致的決策結果變化，也很難通過狀態(tài)遍歷。對于有限狀態(tài)機決策系統(tǒng)而言，利用學習算法的優(yōu)點，采用狀態(tài)機與學習算法結合的方法，結合學習算法深度遍歷的優(yōu)勢，有利于有效解決該問題。

c.基于學習算法決策模型的正確性與穩(wěn)定性問題。學習算法的訓練結果與樣本數(shù)量、樣本質量和網(wǎng)絡結構有關。如果學習模型過于復雜，會造成無法區(qū)分數(shù)據(jù)本質和噪聲的情況，泛化能力減弱；反之，如果學習模型過于簡單，或者樣本數(shù)量不足、對場景遍歷不足，則會導致規(guī)則提煉不精準，出現(xiàn)欠學習問題。此外，學習算法模型邏輯解釋性較差，實際應用中調整與修正不很方便。對于基于學習算法的決策系統(tǒng)而言，一方面要收集大量可靠、高質量的試驗數(shù)據(jù)，另一方面要選擇合理的學習算法，配置合理的試驗參數(shù)，調整網(wǎng)絡結構，以提高訓練結果的正確性與穩(wěn)定性。

5.3 技術發(fā)展趨勢

隨著計算機科學的迅猛發(fā)展，近年來掀起了機器學習技術的研究浪潮，學習算法越來越多地運用于無人車行為決策系統(tǒng)，計算機硬件平臺的發(fā)展也為深度學習網(wǎng)絡訓練提供了強有力的支持。

基于規(guī)則的決策方法相對較為成熟，其在場景遍歷廣度上具備優(yōu)勢，邏輯可解釋性強，易于根據(jù)場景分模塊設計，國內外均有很多應用有限狀態(tài)機的決策系統(tǒng)實例。然而其系統(tǒng)結構決定了其在場景遍歷深度、決策正確率上存在一定的瓶頸，難以處理復雜工況 [50]。

基于學習算法的決策系統(tǒng)因具有場景遍歷深度的優(yōu)勢，將被越來越多地用作決策系統(tǒng)的底層，即針對某一細分場景，采用學習算法增強算法的場景遍歷深度，使其能夠在環(huán)境細微變化中仍然保證較高的決策精度。然而其算法可解釋性差、可調整性差、場景廣度遍歷不足等劣勢導致了僅采用學習算法的決策系統(tǒng)仍存在應用局限，較難處理復雜的功能組合 [51]。

根據(jù)上述基于兩種算法的優(yōu)、劣勢，現(xiàn)階段無人車決策系統(tǒng)的發(fā)展趨勢可歸納為：

a.采用基于規(guī)則算法的行為決策算法仍會在決策系統(tǒng)中廣泛應用，將作為決策系統(tǒng)的頂層架構與某些具體問題的細分解決方案，并將更多地采用混聯(lián)結構，發(fā)揮規(guī)則算法基于場景劃分模塊處理及針對具體問題細分處理時邏輯清晰、調整性強的優(yōu)勢，可同時兼顧場景遍歷的廣度與深度。采用該方法的研究重點將在于解決狀態(tài)劃分“灰色地帶”的合理決策問題，以及行為規(guī)則庫觸發(fā)條件重疊等問題。

b.無人車決策系統(tǒng)將更多地采用規(guī)則算法與學習算法結合的方式。頂層采用有限狀態(tài)機，根據(jù)場景進行層級遍歷；底層采用學習算法，基于具體場景分模塊應用，可發(fā)揮學習算法優(yōu)勢，簡化算法結構、增強場景遍歷的深度，并可減小數(shù)據(jù)依賴量，保證決策結果的魯棒性與正確性。采用該方法的研究重點在于如何合理對接有限狀態(tài)機與學習算法模型，以及學習算法的過學習、欠學習等問題。

c.端到端方法將更多作為決策子模塊的解決方案，而非將決策系統(tǒng)作為一個整體進行端到端處理。通過這種方式可發(fā)揮學習算法的優(yōu)勢，將決策模塊拆解也可提高系統(tǒng)的可解釋性與可調節(jié)性。

d.目前行為決策系統(tǒng)的設計準則主要考量安全與效率，對車輛特性與乘員舒適性考慮較少。在保證安全與效率的基礎上，可通過加入對車輛動力學特性的考量，篩取更合理的駕駛數(shù)據(jù)等方式，對行為決策系統(tǒng)進行優(yōu)化。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

傳感器

傳感器

+關注

關注
2566

文章
53008

瀏覽量
767614
無人駕駛

無人駕駛

+關注

關注
99

文章
4176

瀏覽量
123604
無人車

無人車

+關注

關注
1

文章
310

瀏覽量
36928

原文標題：無人駕駛車輛行為決策系統(tǒng)研究

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關注！文章轉載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

國內外無人駕駛車輛行為決策系統(tǒng)的研究現(xiàn)狀

評論