今天為什么又講SLAM呢?主要是國內(nèi)有公司宣布要趟這個坑。在美國那頭,AR云也正是領(lǐng)域里比較熱門的一個方向。在很多做AR云的方向的公司的想象中的AR云,也大多是以SLAM作為基礎(chǔ)的。大家怎么看?歡迎留言討論
眾所周知,SLAM,即同時定位與地圖構(gòu)建,主要解決在未知環(huán)境中,如何進(jìn)行自身方位的定位,并同時構(gòu)建三維環(huán)境的地圖。它是機(jī)器人和計算機(jī)視覺領(lǐng)域的一個基本問題,基本上,需要定位和三維感知的應(yīng)用都需要用到SLAM技術(shù)。然而,最近幾年中,SLAM技術(shù)幾乎沒有什么變化。
最近,倫敦帝國學(xué)院的 Andrew Davison 發(fā)表了一篇論文,主要闡述由于增強(qiáng)現(xiàn)實(shí)眼鏡或機(jī)器人等設(shè)備所要求的視覺感知性能與現(xiàn)實(shí)產(chǎn)品的實(shí)際條件之間存在的巨大差距,而對未來空間人工智能算法的計算結(jié)構(gòu)和硬件開發(fā)方面的探索。
Andrew Davison最知名的成就是其 2003 年的 MonoSLAM 系統(tǒng),而且他是第一個展示如何在單個攝像頭上構(gòu)建 SLAM 系統(tǒng)的人,而那時候其他所有人都還認(rèn)為打造 SLAM 系統(tǒng)需要一個立體的雙目攝像頭套件。
舉個例子來說,想象一下未來的AR系統(tǒng)應(yīng)該具有怎樣的空間記憶能力,對于用戶所到達(dá)的地點(diǎn),遇到的人和物體,用戶在空間中放置的虛擬筆記或其他注釋等等都要有所記錄。另外,為了實(shí)現(xiàn)廣泛應(yīng)用,該設(shè)備應(yīng)該具備標(biāo)準(zhǔn)眼鏡的尺寸和重量,整天無需電池充電即可運(yùn)行。
顯然,這種理想中的AR系統(tǒng)依靠現(xiàn)在的設(shè)備和算法是遠(yuǎn)遠(yuǎn)達(dá)不到的,這篇論文也就是闡述對于現(xiàn)在的硬件和算法可能的優(yōu)化方向。
現(xiàn)在的SLAM技術(shù),大多是所謂的閉環(huán)SLAM,即從攝像頭和傳感器捕捉新圖像數(shù)據(jù)后,系統(tǒng)與當(dāng)前的世界模型進(jìn)行比較,進(jìn)行對當(dāng)前世界模型的更新。而當(dāng)前的世界模型,則來源于更早一次同樣的更新。
這種方法所有獲得的有用數(shù)據(jù),都來源于傳感器(如深度攝像頭),最終在實(shí)時循環(huán)中用于數(shù)據(jù)關(guān)聯(lián)和跟蹤。
而論文中提到一種新的混合型SLAM系統(tǒng),把SLAM 作為卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的補(bǔ)充:SLAM 關(guān)注于幾何問題,而深度學(xué)習(xí)是感知、識別問題的大師。如果你想要一個能走到你的冰箱面前而不撞到墻壁的機(jī)器人,那就使用 SLAM。如果你想要一個能識別冰箱中的物品的機(jī)器人,那就使用卷積神經(jīng)網(wǎng)絡(luò)。這種系統(tǒng)同樣適用在前面提到的閉環(huán)輸出,表現(xiàn)可能會更好。
未來大多數(shù)計算可能會涉及世界模型的塑造,這就要求一個不斷地改變和改進(jìn)數(shù)據(jù)存儲的系統(tǒng)。在此系統(tǒng)中,一些主要的計算元素有:
標(biāo)注:對圖像進(jìn)行經(jīng)驗性標(biāo)注(例如CNN)。
渲染:從世界獲得密集的預(yù)測,并映射到圖像空間。
跟蹤:將預(yù)測與新圖像數(shù)據(jù)對齊,包括尋找離群值和檢測獨(dú)立運(yùn)動。
融合:將更新的幾何圖形和標(biāo)簽重新融合
地圖。
地圖合并:將元素融合到對象中,使元素平滑,正規(guī)化。
重新定位/閉環(huán)檢測:檢測總地圖中的相似性。
映射一致性優(yōu)化,即緊固閉環(huán)。
自我學(xué)習(xí):系統(tǒng)從運(yùn)行中進(jìn)行自我學(xué)習(xí)
原文:這是一個可視化AlexNet圖像分類CNN的結(jié)果,支持訓(xùn)練和運(yùn)行時操作,其中空間配置和著色表示不同的緊密連接需要處理模型。(不明白也沒關(guān)系,這只是論文中談到世界模型時提到的例子)
隨著技術(shù)工藝的進(jìn)步,摩爾定律的瓶頸似乎開始出現(xiàn),追求單核更大功率的處理器還是比較困難的,而在SLAM中, 單指令,多線程GPU提供的并行性,也非常適合實(shí)時視覺的計算要求。
因此,論文預(yù)測,系統(tǒng)將具備異構(gòu),多元素,專業(yè)化的架構(gòu),在這個架構(gòu)中,低功率運(yùn)行必須與高功率一起實(shí)現(xiàn),而由于架構(gòu)的靈活性和其中數(shù)量巨大的CPU和GPU,可以提高系統(tǒng)中運(yùn)行的有用軟件的數(shù)量。但是,它也可能會優(yōu)化一些專門的處理器,進(jìn)而實(shí)現(xiàn)低功耗實(shí)時視覺。當(dāng)然,專門為這種架構(gòu)設(shè)計的系統(tǒng)算法也會出現(xiàn),以期提高效率。
另外,云計算資源的容量可能將繼續(xù)擴(kuò)大,未來的系統(tǒng)可能大部分時間都是云連接的。主地圖將存儲在云中, 設(shè)備將根據(jù)需要在其中輸出數(shù)據(jù)。這種情況下,每個設(shè)備需要做的事情都理論上會大大減少。但這就需要高幀率傳輸?shù)闹С?,而后者也是比較難解決的問題。
對于傳感器而言,傳感器得到的數(shù)據(jù)龐大然而存在冗余,舉例來說,圖片中相鄰像素之間的數(shù)據(jù)有可能非常相似,相鄰兩幀圖片的信息也有可能很相似。所以有時龐大的數(shù)據(jù)處理并不必要。
因此,論文中提出一種簡化數(shù)據(jù)的方法,將所有傳感器接入一個總處理器中進(jìn)行預(yù)處理,但考慮到散熱等問題,又改為在傳感器單元中嵌入簡易的處理器,從而簡化數(shù)據(jù),得到更高的效率。
論文中還表示,從長遠(yuǎn)來看,SLAM由于其實(shí)時性和廣泛的實(shí)用性,不同應(yīng)用的輸出和性能水平不同,特別難以通過像數(shù)據(jù)集評估之類的手段確定一個SLAM的基準(zhǔn)。因此SLAM的基準(zhǔn)應(yīng)該走向預(yù)測可能需要執(zhí)行的任務(wù)的一般化標(biāo)準(zhǔn)。其中可能的指標(biāo)包括:
?新探索的區(qū)域中的局部姿態(tài)準(zhǔn)確性(視覺
里程漂移率)。
?良好映射的長期度量姿態(tài)重復(fù)性區(qū)域。
?跟蹤魯棒性百分比。
?重新定位魯棒性百分比。
?SLAM系統(tǒng)延遲。
?每個像素的密集距離預(yù)測精度。
?對象分割的準(zhǔn)確性。
?對象分類準(zhǔn)確性。
?AR像素配準(zhǔn)精度。
?場景變化檢測精度。
?電力使用情況。
?數(shù)據(jù)移動
總之,作者認(rèn)為,由于SLAM的在各個領(lǐng)域中的重要性,對SLAM的研究仍將保持下去,在這些方面越來越優(yōu)化。
這篇論文是建立在作者對大部分現(xiàn)有的SLAM技術(shù)和困難了解的基礎(chǔ)上完成的一個總結(jié),比較有參考價值。對原文感興趣的同學(xué)也可以戳閱讀原文下載
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103572 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249347 -
SLAM
+關(guān)注
關(guān)注
24文章
441瀏覽量
32496
發(fā)布評論請先 登錄
【自由暢想】未來的傳感器會是什么樣子的?
未來通信將會是什么?
未來的機(jī)器人3D視覺系統(tǒng)將會發(fā)生什么樣的變化?
什么樣的冰箱沒有霜
未來的工廠會是什么樣子的呢?人工智能(AI)在未來的工廠的作用概述
IT行業(yè)的未來是什么樣?
乘坐自動駕駛汽車到底什么感覺?未來的汽車會是什么樣的?
未來的物聯(lián)網(wǎng)學(xué)校是什么樣的
未來存儲技術(shù)的發(fā)展是什么樣的
MEMS在未來會面臨什么樣的挑戰(zhàn)
來自未來的手機(jī)將會是什么樣子
Chiplet的未來會是什么樣子呢?
基于HTTP/3構(gòu)建SSH協(xié)議會是什么樣呢?

評論