一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

李昂:數(shù)據(jù)規(guī)模不是唯一標準,數(shù)據(jù)純度更是重要考量

Apollo智能駕駛 ? 來源:Apollo智能駕駛 ? 作者:Apollo智能駕駛 ? 2022-12-12 15:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2022年11月29日,百度Apollo Day技術開放日活動線上舉辦。百度自動駕駛技術專家全景化展示Apollo技術實力及前沿技術理念。

隨著自動駕駛的規(guī)?;涞?,數(shù)據(jù)規(guī)模將出現(xiàn)爆發(fā)式增長。如何尋找更有價值的數(shù)據(jù),如何高效地利用數(shù)據(jù)提升駕駛能力,成為自動駕駛持續(xù)學習和實現(xiàn)規(guī)?;年P鍵。百度自動駕駛技術專家李昂提出了「高提純、高消化」的數(shù)據(jù)閉環(huán)設計理念,全面強化自動駕駛的數(shù)據(jù)煉金術。據(jù)介紹,該方案的數(shù)據(jù)提純路徑利用車端小模型和云端大模型,實現(xiàn)高效率數(shù)據(jù)挖掘和自動化標注;數(shù)據(jù)消化架構實現(xiàn)自動化訓練,具備聯(lián)合優(yōu)化和數(shù)據(jù)分布理解的能力,有效地利用高純度數(shù)據(jù)進一步提升自動駕駛系統(tǒng)的整體智能水平。

自動駕駛是一個系統(tǒng)性工程,李昂本次關于數(shù)據(jù)閉環(huán)技術的分享,展現(xiàn)了百度在自動駕駛方面進行的是系統(tǒng)的技術創(chuàng)新:既關注常見的感知、決策、控制環(huán)節(jié),又在AI算法最關鍵的數(shù)據(jù)提純、標注和模型訓練環(huán)節(jié)進行大膽創(chuàng)新,用新的技術思路和解題模式提升底層技術的支撐力,最終又反過來能促進感知、決策等環(huán)節(jié)的發(fā)展。

清華大學交叉信息研究院助理教授

博士生導師趙行博士

以下為演講全文

大家好,我是李昂。我為大家?guī)戆俣華pollo對于自動駕駛數(shù)據(jù)閉環(huán)的一些實踐與思考。

首先,自動駕駛是一個持續(xù)學習的問題。無人車持續(xù)地在城市道路中行駛,會遇到各式各樣的新問題和很多意想不到的新場景。

根據(jù)這臺車端回傳的視頻可以發(fā)現(xiàn),其實在城市道路上遇到一群羊,排著隊橫穿馬路的情況,也不是完全沒有可能的。

af555188-7954-11ed-8abf-dac502259ad0.gif

而這些罕見的長尾場景,對于自動駕駛來說是一個急需解決的問題,這也是自動駕駛需要持續(xù)學習的一個重要原因。

當無人車實現(xiàn)大規(guī)模的商業(yè)化落地,大量的無人車在道路上行駛,持續(xù)地去搜集海量的數(shù)據(jù)。

af98c968-7954-11ed-8abf-dac502259ad0.png

而對于我們的問題是,如何利用好這些大數(shù)據(jù),提升無人駕駛整體的安全性與舒適性,這就是數(shù)據(jù)閉環(huán)所需要考慮的一個核心問題。

百度認為數(shù)據(jù)閉環(huán)是無人駕駛最終實現(xiàn)持續(xù)學習能力的重要基礎架構。

然而,大數(shù)據(jù)給自動駕駛智能水平帶來巨大提升空間的同時,大量的數(shù)據(jù)也給數(shù)據(jù)閉環(huán)建設帶來了全新挑戰(zhàn)。

一方面,大規(guī)模的數(shù)據(jù)帶來了數(shù)據(jù)存儲以及數(shù)據(jù)標注的一個巨大壓力,全量落盤的模式不再是一個可以持續(xù)的方案。

另外一方面,數(shù)據(jù)閉環(huán)的目標是利用數(shù)據(jù)提升無人駕駛整個的駕駛能力。在大規(guī)模數(shù)據(jù)的情況下,算法迭代所需要的計算量也隨之增加。我們將這兩個困難總結為兩個核心的問題:

首先,如何高效率地從海量的數(shù)據(jù)里找到高價值或者叫高純度的數(shù)據(jù)?

其次,如何利用好這些高純度的數(shù)據(jù),高效、高質(zhì)量地提升整體數(shù)據(jù)驅(qū)動算法的整體智能水平?

afffe35a-7954-11ed-8abf-dac502259ad0.png

我們從回答這兩個問題的角度出發(fā),設計了百度Apollo的數(shù)據(jù)閉環(huán)的整體設計思路。

首先,自動駕駛系統(tǒng)是由車端和云端兩個部分組成的。而整個數(shù)據(jù)閉環(huán)是由數(shù)據(jù)提純以及數(shù)據(jù)消化這兩個部分構成。

其中數(shù)據(jù)提純同時出現(xiàn)在車端和云端,它的目標是找到高價值、高純度的數(shù)據(jù)。

b063af52-7954-11ed-8abf-dac502259ad0.png

而數(shù)據(jù)消化部署在云端,它的目標是利用高純度的數(shù)據(jù),提升自動駕駛的整體的智能水平。

接下來,將從這兩個方面分別介紹百度關于數(shù)據(jù)閉環(huán)的高提純、高消化的設計思路。

首先,我們需要建設高效率數(shù)據(jù)提純的通路。

b0daeab8-7954-11ed-8abf-dac502259ad0.png

大規(guī)模的數(shù)據(jù)對于智能系統(tǒng)的幫助其實已經(jīng)是業(yè)界共識了,然而百度認為數(shù)據(jù)的規(guī)模并不是唯一的標準。數(shù)據(jù)的純度也是一個重要的考量。這里定義數(shù)據(jù)的純度為,單位數(shù)據(jù)可以給整個智能系統(tǒng)提供的信息量。一個簡單的例子來看一看如何提高數(shù)據(jù)的純度。

b12842c2-7954-11ed-8abf-dac502259ad0.png

在左下角這個圖片中可以發(fā)現(xiàn),正前方有一只小狗,沒有被算法檢測到。我們稱這樣的數(shù)據(jù)為定向樣本。而在右邊的特征空間的表示中,用白色的圓圈來表示這樣的定向樣本。這里的正負號是這些樣本的標注。

所以一個比較直接的想法就是嘗試去找與這只小狗類似的一個照片,而這些圖片大概率也會造成系統(tǒng)的漏檢。

這些圖片的搜索,可以通過比如最近鄰檢索的一些方式來實現(xiàn),在這個特征空間上我們用藍色的圓圈來表示。這種搜索類似樣本的一個數(shù)據(jù)挖掘的方式,把它叫做定向挖掘。

這里可以注意到,其實定向挖掘這個方法,并沒有使用到檢測模型的一些自身的信息。因而除了相似性,還可以從整個模型的角度來挖掘這個問題。

其實任何的模型都會有自己的決策邊界,在這張圖上使用虛線來表示。而出現(xiàn)在決策邊界上的數(shù)據(jù),往往是具有很大不確定性的。

因而,這些數(shù)據(jù)也會給模型帶來額外的信息。所以我們將找到這些數(shù)據(jù)的方式叫做不確定性挖掘。

可以注意到,在獲取這些不確定性數(shù)據(jù)的同時,其實并沒有它們的標簽。借助于人工或者自動化標注的一些方式,可以獲得這些標簽。標簽從某種程度上也可以認為是數(shù)據(jù)的一種,并且可以帶來更多關于這些樣本的一些信息。當獲得這些標簽之后,就可以通過模型訓練的方式,來改變模型的決策邊界。

所以簡單地總結一下,數(shù)據(jù)挖掘與標注都是提高數(shù)據(jù)純度的一個重要手段。

根據(jù)這樣的思路,百度設計了自動駕駛的數(shù)據(jù)提純通路。

從這張圖上可以看到,數(shù)據(jù)總是以數(shù)據(jù)流的形式不斷地進入到這個系統(tǒng)里。而數(shù)據(jù)提純的一個核心組件是推理引擎,作用是對任意的一個給定的模型和一組數(shù)據(jù),給出這個模型在這組數(shù)據(jù)上的推理結果,這個結果可以包括數(shù)據(jù)的特征以及模型預測出的標簽。

b1854f1c-7954-11ed-8abf-dac502259ad0.png

另外一個重要的組件是模型倉庫,這里包含了云端大模型、車端小模型,以及一些并沒有上車的一些候選小模型。

這里的大模型可以用來通過推理引擎獲取對應數(shù)據(jù)的特征和標簽。大模型的特征與向量檢索相結合,其實可以用作定向挖掘,大模型的標簽可以用作自動化標注。

除了大模型以外,車上的小模型也可以用來做數(shù)據(jù)提純。小模型可以通過推理的方式獲取小模型的標簽,注意,這里小模型的效果其實不如大模型,但由于小模型是實際在車上跑的模型,可以用這些標簽來判斷哪些數(shù)據(jù)是目前的小模型無法準確預測的數(shù)據(jù)。這也就是說這些數(shù)據(jù)其實是并沒有被模型消化的數(shù)據(jù)。在之后的訓練過程當中可以重點關注,提升在這些數(shù)據(jù)上的一些效果。

除此之外,多個小模型還可以利用比較經(jīng)典的,一個集成學習的不確定性估計的方法,獲得模型對數(shù)據(jù)的不確定性,從而實現(xiàn)不確定性挖掘。

所以通過推理引擎,實際上對所有數(shù)據(jù)的各種屬性進行了推理,基于這些數(shù)據(jù)屬性,可以進一步地提供復雜的挖掘規(guī)則,從而實現(xiàn)更為復雜和更有針對性的挖掘方式。

另外,從這個架構上不難發(fā)現(xiàn),數(shù)據(jù)提純的效率很大的程度由推理引擎的效率決定。而推理引擎的效率又可以分為數(shù)據(jù)的讀取速度,以及模型的推理和計算速度。后者其實可以通過一些分布式的方式來提升,而前者主要可以通過文件系統(tǒng)的一些創(chuàng)新來進行優(yōu)化。

這里我們與百度飛槳團隊產(chǎn)生了緊密的合作,將百度自研的PaddleFlow數(shù)據(jù)緩存的基礎架構,集成進入了數(shù)據(jù)閉環(huán)的平臺,實現(xiàn)了推理引擎數(shù)據(jù)讀取效率的10倍以上的提升。

b1b50efa-7954-11ed-8abf-dac502259ad0.png

另外一方面,如果只有云端數(shù)據(jù)提純這樣的一個方式,是沒有辦法滿足大規(guī)模自動駕駛的需求的。原因是在于存儲空間的上限其實是無法支持全量的數(shù)據(jù)回傳。

因而,在車端也需要部署數(shù)據(jù)提純的通路。云端和車端系統(tǒng)的主要區(qū)別在于它的存儲和計算能力的不同。很多云端可以執(zhí)行的操作,在車端變得難以實現(xiàn),比如說集成學習的一些方式。

因而,我們在設計車端挖掘方案的時候,雖然依舊遵循相同的原則和底層邏輯,但更多是采用一些輕量級的策略。比如云端基于大模型的挖掘方式,在車端是沒有辦法實現(xiàn)的,所以車端會改用小模型的特征提取。

最終簡單地總結一下,數(shù)據(jù)提純的呈現(xiàn)方式,實際上是云端到車端的一個模型和策略的雙重降維。

b1e80300-7954-11ed-8abf-dac502259ad0.png

第二部分:在我們獲取了高純度數(shù)據(jù)的同時,另一個重要的問題,就是如何高效率、高質(zhì)量地消化這些數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為無人車的智能與駕駛能力。

b24ceae0-7954-11ed-8abf-dac502259ad0.png

無人駕駛的系統(tǒng)與傳統(tǒng)的機器學習的應用其實是有很大的不同的,這樣的不同,給整體的數(shù)據(jù)消化帶來了很多挑戰(zhàn)。

首先,我們所處的世界其實是不斷變化的。因而,無人車搜集到數(shù)據(jù)的分布也是在不斷變化的。

所以如何讓無人駕駛這個系統(tǒng)可以感知到數(shù)據(jù)分布的一個變化,是需要考慮的一個重要問題。

其次,無人駕駛的系統(tǒng)并不是單一的模型,是由多個可微和不可微的模塊共同組成的。并且這些模塊是相互關聯(lián)、相互影響的。所以需要考慮如何更好地去聯(lián)合優(yōu)化這些模塊。

最后,數(shù)據(jù)消化還存在一個效率的問題,而高效的系統(tǒng)往往是需要實現(xiàn)高度的自動化,從而降低流程中對于人工的需求,最終達到降低系統(tǒng)成本的一個核心目標。

b39036d2-7954-11ed-8abf-dac502259ad0.png

接下來,我會從這三個角度分別去介紹百度對于數(shù)據(jù)消化的一個實踐與思考。它們分別是自動化、聯(lián)合優(yōu)化以及數(shù)據(jù)分布。

b3fa842e-7954-11ed-8abf-dac502259ad0.png

首先,基于持續(xù)學習與AutoML的一些概念,百度在數(shù)據(jù)閉環(huán)里面設計了一套自動化訓練引擎。

數(shù)據(jù)通過數(shù)據(jù)緩存的形式、采樣的方式進入到訓練引擎,這類似于持續(xù)學習里面一些比較經(jīng)典的經(jīng)驗回放機制。

由于自動駕駛系統(tǒng)的優(yōu)化是多目標的,整個訓練引擎需要持續(xù)的維護一個模型集合,不僅僅包含最優(yōu)的模型,還包含在整個訓練過程當中產(chǎn)生的中間模型。

我們使用一個異步的推理引擎對這些模型進行評測,因而最終的訓練的輸出是一個候選模型的集合,而不是一個單一的模型。這個集合在多目標優(yōu)化里面一般叫做Pareto front。

此外,在概念上,百度認為一個模型它是由參數(shù)和超參數(shù)共同定義的,這里的參數(shù)定義了模型的靜態(tài)狀態(tài),而超參數(shù)其實定義了整個模型優(yōu)化的軌跡或者叫動力學。這兩種參數(shù)是結合起來一起進行管理的。

通常模型參數(shù)是通過梯度優(yōu)化的方式來優(yōu)化的,而超參數(shù)則需要使用非梯度優(yōu)化。這里借鑒了基于進化算法的一個架構思路。

首先從模型集合里采樣模型參數(shù)和超參數(shù)。然后對它們做一些探索。這里有與傳統(tǒng)的超參數(shù)優(yōu)化有所不同的地方,在于不僅僅對超參數(shù)進行探索,同時對整個模型的參數(shù)也進行擾動。這也是受到今年Rich sutton等人提出的持續(xù)學習的可塑性的影響,以及2019年Jordan ash等人提出的模型熱啟動工作的啟發(fā)。百度在實踐中發(fā)現(xiàn),這種參數(shù)的擾動是可以提高在持續(xù)訓練的過程當中,整個模型群體的魯棒性和穩(wěn)定性。

探索后的模型參數(shù)可以作為初始化,與超參數(shù)共同傳入Paddlecloud分布式訓練,而訓練的過程中產(chǎn)生的模型將會一起傳回整個模型集合進行管理。

需要注意的是,這里的訓練步長不一定是要等模型收斂,也可以設置比較短的一些步長,這樣的話可以直接實現(xiàn)動態(tài)參數(shù)優(yōu)化的一個能力。

利用這樣的一個訓練引擎,對自動駕駛系統(tǒng)里面的數(shù)據(jù)驅(qū)動模型實行了自動化托管的能力,也就是說在數(shù)據(jù)確定的情況下,可以實現(xiàn)全無人的訓練模式。

b420a08c-7954-11ed-8abf-dac502259ad0.png

繼續(xù)以剛才的小狗為例,當發(fā)現(xiàn)這只小狗出現(xiàn)誤檢之后,可以利用特征檢索的一些方式,挖掘出一批小狗的數(shù)據(jù),然后將新數(shù)據(jù)與舊數(shù)據(jù)同時傳入到訓練引擎進行自動化訓練。這里可以看到每一個點其實是一個模型,可以看到在整個訓練的過程當中,模型的效果是不斷提升的,同時在訓練的最終結果發(fā)現(xiàn),可以實現(xiàn)小目標和總體指標的同時提升。

b49af044-7954-11ed-8abf-dac502259ad0.png

此外,這個訓練引擎是一個通用的架構,因此它不僅僅是可以用在這樣的一個問題上,其他的各種各樣的一些問題也可以利用這樣的方式提升模型的效果。舉個例子比如:低矮綠植問題、柵欄問題以及懸浮塑料袋的問題。

b49af044-7954-11ed-8abf-dac502259ad0.png

b5197662-7954-11ed-8abf-dac502259ad0.png

b5f92104-7954-11ed-8abf-dac502259ad0.png

點擊查看大圖

不難想象,在持續(xù)優(yōu)化這樣的一個系統(tǒng)的時候,所有的這些挖掘的數(shù)據(jù)最終是以一個個的數(shù)據(jù)集的形態(tài)傳輸?shù)接柧氁娈斨械摹?/p>

而在迭代的過程當中發(fā)現(xiàn),其實每一次新數(shù)據(jù)進來的時候,整個模型的效果是呈持續(xù)提升的一個趨勢。并且尚沒有觀測到數(shù)據(jù)飽和的一個狀態(tài)。

大家可以注意到,其實剛才提到的例子都是對單一模型的一個優(yōu)化。而整體自動駕駛是一個多模塊的復雜系統(tǒng),因而更需要去關注聯(lián)合優(yōu)化的問題。

b670332a-7954-11ed-8abf-dac502259ad0.png

本質(zhì)上來看,整個自動駕駛系統(tǒng)可以看作是一個端到端的優(yōu)化,因為我們最終在乎的,是這個無人車在車上的一個效果,而優(yōu)化的方式是通過加上很多模塊級別的輔助目標。比如感知會有自己的目標,預測、規(guī)劃都會有自己獨立的目標。而之所以沒有辦法真正地實現(xiàn)端到端的優(yōu)化這個能力,是由于在整個系統(tǒng)里面存在很多不可微的模塊,因而沒有辦法計算它們的梯度。

此外,對于系統(tǒng)里面某一些數(shù)據(jù)驅(qū)動模塊的優(yōu)化,從端到端的角度,也是需要考慮它對下游的一個影響,可以認為目前整個的工程架構所做的方式,應該是類似于系統(tǒng)級的Coordinate descent,又叫做坐標下降方法。

b68a085e-7954-11ed-8abf-dac502259ad0.png

一個比較經(jīng)典的聯(lián)合優(yōu)化的例子就是行為預測,在這張圖上可以發(fā)現(xiàn),行為預測這個模塊它是處于中間的,它有上游,也有下游。這里的行為預測模型同時考慮了障礙物軌跡以及面對障礙物的意圖,它的效果會直接影響下游的軌跡規(guī)劃這個模塊。

而預測的模型,預測的數(shù)據(jù)以及它的問題的復雜度都相對比較高。

b6c84e34-7954-11ed-8abf-dac502259ad0.png

首先我們做了一個初步的嘗試,嘗試了與之前感知比較類似的一個方法,搜集一些數(shù)據(jù),利用自動化優(yōu)化的引擎來優(yōu)化預測的評測指標。這里的指標是由不同的障礙物的類型構成,比如自行車、障礙車或者是行人。

從右邊的結果可以發(fā)現(xiàn),的確發(fā)現(xiàn)了這個預測的整體指標取得了提升,但是當把最好的預測模型放進這個端到端系統(tǒng)時,發(fā)現(xiàn)仿真的指標卻下降了。實際上,我們認為這是由于預測指標與仿真指標的目標不一致所造成的。

b7117884-7954-11ed-8abf-dac502259ad0.png

這里使用地形圖來示意訓練和評測的優(yōu)化目標。假設越高的點越好,越紅的點越好,指標越好。如果只看訓練的指標,使用梯度優(yōu)化的方式,的確是可以找到紅色的比較高的區(qū)域。然后它的對應位置的評測目標,卻并非是處于一個比較高的狀態(tài)。

因而一個比較直觀的想法就是,在優(yōu)化這個模型的時候,同時去看兩個地形圖的高度,這樣就有更大的概率,去找到兩個指標都好的一個最終狀態(tài)。

b7a7ed1e-7954-11ed-8abf-dac502259ad0.png

基于這樣的一個想法,百度實現(xiàn)了一個工程架構。在訓練的同時,將產(chǎn)生的預測模型實時地與下游規(guī)劃模塊進行打包,同步地進行仿真評測。因而,最終的訓練引擎同時優(yōu)化的是離線的預測指標以及仿真的端到端指標。

通過結果可以發(fā)現(xiàn),雖然預測的指標有小幅度的下降,但是其實最終這個仿真的效果是有大幅度提升的。

b7d7f644-7954-11ed-8abf-dac502259ad0.png

剛才已經(jīng)提到了一些關于數(shù)據(jù)分布對于訓練的影響的一些問題。可以認為整個數(shù)據(jù)消化的能力是與數(shù)據(jù)分布的理解能力息息相關的,因而著重也需要去考慮這個系統(tǒng)如何去理解數(shù)據(jù)分布。

數(shù)據(jù)分布其實在機器學習里面是一個非常重要的概念。這個原因是在于目前比較有效的數(shù)據(jù)驅(qū)動的方式主要是基于深度學習。而深度學習的核心原則是經(jīng)驗風險最小化。

這里我列舉出了訓練和評測的經(jīng)驗風險最小化的公式。而重點關注的是這個w和v數(shù)值,它們分別是訓練時的每個樣本的權重,或者叫分布或者是密度,和評測時候的每個樣本的權重。

所以從這個公式可以發(fā)現(xiàn),如果w和v不一樣,那通過這個訓練公式獲得的模型,在評測的時候大概率也不是最好的。而評測的效果往往是需要真正關心的。因而,這里一個核心的問題就是如何找到正確的數(shù)據(jù)分布。

為此,百度在數(shù)據(jù)閉環(huán)里設計了一套對于數(shù)據(jù)分布的管理和探索的方案。

b80aad50-7954-11ed-8abf-dac502259ad0.png

b83a3278-7954-11ed-8abf-dac502259ad0.png

點擊查看大圖

這里主要分為兩個部分,首先,對數(shù)據(jù)分布的先驗進行統(tǒng)一的管理,這里的先驗可以是人為設定的,也可以是通過學習來獲得。

當這個先驗進入到訓練引擎之后,訓練引擎其實可以把這個先驗或者這個數(shù)據(jù)分布當作超參數(shù),做一定程度的探索或搜索。當我們發(fā)現(xiàn)更好的分布之后,可以通過一個反饋的機制修正數(shù)據(jù)分布的先驗。

而另外一個問題就是,數(shù)據(jù)分布到底應該如何去描述它,百度主要采用標簽化或者叫場景化的一個方式。

以剛才行為預測為例,其實可以通過問三個問題來映射所有的數(shù)據(jù)到不同的場景,而這三個問題,可以分別是主車的行為、障礙物的行為,以及障礙物的類型。

當對每個場景的數(shù)據(jù)進行統(tǒng)計,就可以最終獲得整個數(shù)據(jù)集所對應的數(shù)據(jù)分布的描述。

b8ab88ba-7954-11ed-8abf-dac502259ad0.png

這里介紹一個比較有意思的學習數(shù)據(jù)分布的一個嘗試。主要的想法是由于整個數(shù)據(jù)閉環(huán)的平臺其實管理了所有的模型訓練,因而在百度平臺的Log里面存在大量的模型和對應的指標。

例如在剛才的行為預測訓練里面,我們發(fā)現(xiàn)Log里面其實有很多模型、預測指標、仿真指標的配對數(shù)據(jù)。

b8ce10e2-7954-11ed-8abf-dac502259ad0.png

所以一個自然而然的想法就是,是不是可以訓練一個線性的預測器,它的輸入是不同場景的預測指標,而輸出是仿真的指標。這個線性預測器的權重,最終就對應了指標之間的相關性,其實也代表了不同場景下障礙物的預測能力,對于仿真效果的一個重要度的體現(xiàn)。

以環(huán)島的數(shù)據(jù)舉例,從這批預測數(shù)據(jù)中學習到了關于仿真急剎的數(shù)據(jù)分布。這里權重最高的場景是主車繞行環(huán)島,障礙物進入環(huán)島,障礙物為車輛時的意圖預測能力。

b912ca7a-7954-11ed-8abf-dac502259ad0.png

從這個對應場景視頻我們不難看出,當在這個時候,障礙車預測不準確的時候,主車很有可能出現(xiàn)急剎的情況。

雖然這樣的分布,并非是完全真實的分布,但平臺具備這樣貢獻度的估計能力,其實可以給研發(fā)帶來一定程度的幫助。

從另外一個角度,我們可以適度地根據(jù)這樣的一個數(shù)據(jù)分布,提供一個指導,來調(diào)整數(shù)據(jù)分布的一個先驗或者是指標評測時候的數(shù)據(jù)分布,從而達到加強訓練指標和評測指標的一致性的方式。

例如在剛才的預測的例子里,這樣的一個方式可以大幅度降低在訓練流程中對于仿真評測的需求,從而達到降低成本。

b947ea5c-7954-11ed-8abf-dac502259ad0.png

最終總結一下:百度提出了以高提純、高消化為核心驅(qū)動力的數(shù)據(jù)閉環(huán)的設計思路。這里的高提純通過小模型和大模型的車云協(xié)同,實現(xiàn)高效的數(shù)據(jù)挖掘和自動化標注。

而高消化則通過數(shù)據(jù)、模型、指標的集中式、端到端整合來實現(xiàn)。

除此之外,訓練、推理以及數(shù)據(jù)分布是在數(shù)據(jù)消化中可以形成有效的一個反饋機制,進一步提升數(shù)據(jù)消化的整體效率和效果。

b972c6d2-7954-11ed-8abf-dac502259ad0.png

最后,希望百度Apollo的高提純、高消化的數(shù)據(jù)閉環(huán)技術思想,可以給業(yè)界同行們帶來更多的啟發(fā),共同推動和實現(xiàn)自動駕駛大規(guī)模的商業(yè)化落地。

好,謝謝大家!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動駕駛
    +關注

    關注

    789

    文章

    14314

    瀏覽量

    170584
  • 無人車
    +關注

    關注

    1

    文章

    310

    瀏覽量

    36916
  • Apollo
    +關注

    關注

    5

    文章

    348

    瀏覽量

    18855

原文標題:百度Apollo Day|李昂:數(shù)據(jù)規(guī)模不是唯一標準,數(shù)據(jù)純度更是重要考量

文章出處:【微信號:baiduidg,微信公眾號:Apollo智能駕駛】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    偉創(chuàng)力高效電源模塊在超大規(guī)模數(shù)據(jù)中心的應用

    受云端存儲和數(shù)據(jù)處理需求持續(xù)增長的推動,數(shù)據(jù)中心正以前所未有的速度擴張。當前全球超大規(guī)模數(shù)據(jù)中心,即規(guī)模最大的那些數(shù)據(jù)中心,總容量在過去四年
    的頭像 發(fā)表于 07-07 15:41 ?348次閱讀

    通過標準數(shù)據(jù)通路來實現(xiàn)數(shù)據(jù)共享

    場景介紹 在多對多跨應用數(shù)據(jù)共享的場景下,需要提供一條數(shù)據(jù)通路能夠接入多個不同應用的數(shù)據(jù)并共享給其他應用進行讀取。 UDMF針對多對多跨應用數(shù)據(jù)共享的不同業(yè)務場景提供了
    發(fā)表于 06-17 06:57

    LED燈珠金線純度識別

    在LED制造領域,金線作為關鍵材料,其純度直接關系到LED產(chǎn)品的質(zhì)量和性能。準確鑒別金線純度對于把控產(chǎn)品質(zhì)量至關重要,以下將從多個專業(yè)角度介紹鑒別方法。金線的材質(zhì)與替代品概述純正的金線是以金
    的頭像 發(fā)表于 06-06 15:31 ?318次閱讀
    LED燈珠金線<b class='flag-5'>純度</b>識別

    UHV-605 SF6純度分析儀操作使用

    sf6純度分析儀主要用于測量SF6空氣SF6/N2混合氣體的SF6氣體純度。探測組件可快速準確地測出SF6純度。
    發(fā)表于 05-16 16:24 ?0次下載

    數(shù)據(jù)標注服務—奠定大模型訓練的數(shù)據(jù)基石

    影響著模型能力的上限。隨著大模型技術的快速發(fā)展,數(shù)據(jù)標注服務的重要性愈發(fā)凸顯,其面臨的挑戰(zhàn)也日益嚴峻。當前,就標貝科技看來,數(shù)據(jù)標注服務已從簡單的數(shù)據(jù)標記,發(fā)展成為
    的頭像 發(fā)表于 03-21 10:30 ?743次閱讀

    數(shù)據(jù)量大通訊方式單?模塊化物聯(lián)網(wǎng)數(shù)據(jù)采集網(wǎng)關來幫您

    安科瑞劉鴻鵬 摘要 隨著物聯(lián)網(wǎng)(IoT)技術的迅猛發(fā)展,現(xiàn)代物聯(lián)網(wǎng)系統(tǒng)的規(guī)模和復雜度不斷增加,各種智能設備和傳感器的廣泛應用為數(shù)據(jù)采集和分析提供了豐富的信息源。然而,面對不同協(xié)議、標準和通信方式
    的頭像 發(fā)表于 02-27 15:00 ?441次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>量大通訊方式單<b class='flag-5'>一</b>?模塊化物聯(lián)網(wǎng)<b class='flag-5'>數(shù)據(jù)</b>采集網(wǎng)關來幫您

    探秘高純度銅箔,解鎖高品質(zhì) PCB 的性能密碼

    在電子行業(yè)的復雜體系中,高純度銅箔雖看似不起眼,卻擔當著極為關鍵的角色,尤其是在高品質(zhì) PCB 的制造中,它更是不可或缺的核心材料。來聽聽捷多邦小編怎么說吧。 高純度銅箔是指銅含量達到99.9%以上
    的頭像 發(fā)表于 02-21 17:37 ?423次閱讀

    科燒錄器支持OnBright寶電子的數(shù)?;旌闲酒琌B6625VK

    在此次更新中,寶電子(OnBright)推出的數(shù)?;旌闲酒琌B6625VK已被科的燒寫工具脫機編程器AP8000所支持。科技術自主研發(fā)的AP8000萬用燒錄器,支持包括
    的頭像 發(fā)表于 01-13 15:48 ?459次閱讀
    <b class='flag-5'>昂</b>科燒錄器支持OnBright<b class='flag-5'>昂</b>寶電子的數(shù)?;旌闲酒琌B6625VK

    創(chuàng)建唯一索引的SQL命令和技巧

    在創(chuàng)建唯一索引時,以下是些SQL命令和技巧,可以幫助優(yōu)化性能: 使用合適的索引類型:對于需要保證唯一性的列,使用UNIQUE索引來避免重復數(shù)據(jù)的插入。 這可以確保列中的值是
    的頭像 發(fā)表于 01-09 15:21 ?509次閱讀

    特斯拉在墨西哥新萊州大規(guī)模購地

    。 這四塊地皮位于新萊州這墨西哥重要的工業(yè)中心,地理位置優(yōu)越,交通便利,為特斯拉未來的生產(chǎn)運營提供了有利條件。特斯拉此次斥巨資購地,無疑是為了進步拓展其生產(chǎn)
    的頭像 發(fā)表于 01-02 14:56 ?481次閱讀

    上汽大眾途榮獲中汽數(shù)據(jù)“2024年耐腐蝕卓越車型”

    中汽數(shù)據(jù)有限公司(簡稱“中汽數(shù)據(jù)”)近日發(fā)布《2024年中國汽車耐蝕質(zhì)量研究成果》,上汽大眾途榮獲中大型SUV “2024年耐腐蝕卓越車型”。
    的頭像 發(fā)表于 12-26 14:25 ?630次閱讀

    ADS9224R使用SPI常規(guī)模式,讀數(shù)據(jù)無返回,請問具體的讀數(shù)據(jù)的時序應該是怎樣的?

    使用SPI常規(guī)模式,讀數(shù)據(jù)無返回,請問具體的讀數(shù)據(jù)的時序應該是怎樣的?我的操作是常規(guī)模式使用zone 1,拉高CONVST后再拉低,然后等待READY變高,拉低CS,進行
    發(fā)表于 11-28 06:11

    上揚軟件攜手立東芯啟動MES解決方案

    近日,上揚軟件與合作伙伴立東芯微電子有限公司成功啟動生產(chǎn)制造執(zhí)行系統(tǒng)MES。據(jù)悉,該MES系統(tǒng)將應用于立東芯海寧垂直腔面激光器VCSEL生產(chǎn)線,也是國內(nèi)最大規(guī)模的年產(chǎn)36萬片6英寸化合物晶圓代工產(chǎn)線,標志著雙方在智能制造領域
    的頭像 發(fā)表于 11-26 16:57 ?938次閱讀

    哪些是數(shù)據(jù)中心的重要系統(tǒng)?

    數(shù)據(jù)中心是現(xiàn)代IT基礎設施的核心,支持了大量企業(yè)和服務的運營。以下是數(shù)據(jù)中心中一些關鍵的重要系統(tǒng)和組件: 1. 服務器 應用服務器:運行應用程序和服務。 數(shù)據(jù)庫服務器:存儲和管理
    的頭像 發(fā)表于 08-16 13:37 ?716次閱讀

    城市NOA是評價智駕能力的唯一標準嗎?

    隨著自動駕駛技術的迅猛發(fā)展,各大車企紛紛推出了城市NOA(Navigate on Autopilot)功能,作為展示其智能駕駛技術的重要標志。城市NOA作為種高度集成化的駕駛輔助系統(tǒng),能夠在
    的頭像 發(fā)表于 08-15 09:08 ?845次閱讀
    城市NOA是評價智駕能力的<b class='flag-5'>唯一標準</b>嗎?