一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023:視覺重定位,同等精度下速度提升300倍

INDEMIND ? 來源:INDEMIND ? 2023-06-05 17:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本次分享的論文來自CVPR 2023(Highlight),作者來自鼎鼎大名的Niantic Labs,是一個很有名的VR游戲開發(fā)公司,做了增強現(xiàn)實游戲Ingress和位置發(fā)現(xiàn)應用Field Trip和pokemon go手游。

4b71fe88-02ec-11ee-90ce-dac502259ad0.png

論文題目:Accelerated Coordinate Encoding:Learning to Relocalize in Minutes using RGB and Poses

論文鏈接:https://arxiv.org/pdf/2305.14059.pdf

代碼主頁:https://github.com/nianticlabs/ace

01介紹

本文是一篇基于學習的視覺定位算法,更具體的是通過網(wǎng)絡學習回歸圖像密集像素三維坐標,建立2D-3D對應后放在魯棒姿態(tài)估計器(RANSAC PNP + 迭代優(yōu)化)中估計相機六自由度姿態(tài)。

與以往基于學習的視覺定位算法的區(qū)別在于:以前的方法往往需要數(shù)小時或數(shù)天的訓練,而且每個新場景都需要再次進行訓練,使得該方法在大多數(shù)應用程序中不太現(xiàn)實,所以在本文中作者團隊提出的方法改善了這一確定,使得可以在不到5分鐘的時間內(nèi)實現(xiàn)同樣的精度。

具體的,作者講定位網(wǎng)絡分為場景無關(guān)的特征backbone和場景特定的預測頭。而且預測頭不使用傳統(tǒng)的卷積網(wǎng)絡,而是使用MLP,這可以在每次訓練迭代中同時對數(shù)千個視點進行優(yōu)化,導致穩(wěn)定和極快的收斂。

此外使用一個魯棒姿態(tài)求解器的curriculum training替代有效但緩慢的端到端訓練。

其方法在制圖方面比最先進的場景坐標回歸快了300倍!

curriculum training:Curriculum training是一種訓練方法,訓練時向模型提供訓練樣本的難度逐漸變大。在對新數(shù)據(jù)進行訓練時,此方法需要對任務進行標注,將任務分為簡單、中等或困難,然后對數(shù)據(jù)進行采樣。

把原來的卷積網(wǎng)絡預測頭換成MLP預測頭的動機是什么?作者認為場景坐標回歸可以看作從高維特征向量到場景空間三維點的映射,與卷積網(wǎng)絡相比,多層感知器(MLP)可以很好地表示這種映射,而且訓練一個特定場景的MLP允許在每次訓練迭代中一次優(yōu)化多個(通常是所有可用的)視圖,這會導致非常穩(wěn)定的梯度,使其能夠在非常積極的、高學習率的機制下操作。把這個和curriculum training結(jié)合在一起,讓網(wǎng)絡在后期訓練階段burn in可靠的場景結(jié)構(gòu),使其模擬了端到端訓練方案,以此會極大提升訓練速度和效率。

02主要貢獻

(1)加速坐標編碼(ACE),一個場景坐標回歸算法,可以在5分鐘內(nèi)映射一個新場景,以前最先進的場景坐標回歸系統(tǒng)需要數(shù)小時才能達到相當?shù)闹囟ㄎ痪取?/p>

(2)ACE將場景編碼成4MB的網(wǎng)絡權(quán)重,以前的場景坐標回歸系統(tǒng)需要7倍的存儲空間。

(3)只需要RGB圖像和對應的pose進行訓練,以前的依賴于像深度圖或場景網(wǎng)格這樣的先驗知識來進行。

03方法

算法的目標是估計給定的RGB圖像I的相機姿態(tài)h。定義的相機姿態(tài)為一個剛體變換,其將相機空間下的坐標ei映射到場景空間的坐標yi,即yi = h*ei。

4b956cf6-02ec-11ee-90ce-dac502259ad0.png

其中C表示2D像素位置和3D場景坐標之間的對應,g表示一個魯棒的姿態(tài)估計器。

設計的網(wǎng)絡學習預測給定2D圖像點對應的3D場景點,即:

4ba8b7e8-02ec-11ee-90ce-dac502259ad0.png

其中f表示學習到的權(quán)重參數(shù)化的網(wǎng)絡,表示從圖像I的像素位置附近提取的圖像patch,所以f是一個patchs到場景坐標的映射。

網(wǎng)絡在訓練時在所有建圖圖像用他們的ground truth 作為監(jiān)督進行訓練:

4bc05650-02ec-11ee-90ce-dac502259ad0.png

3.1 通過解關(guān)聯(lián)梯度進行高效訓練

作者認為以往的方法在每次訓練迭代中優(yōu)化了成千上萬個patch的預測,但它們都來自同一幅圖像,因此它們的損失和梯度將是高度相關(guān)的。所以這篇文章的關(guān)鍵思想是在整個訓練集上隨機化patches,并從許多不同的視圖中構(gòu)造batch,這種方法可以解關(guān)聯(lián)batch中的梯度,從而得到穩(wěn)定的訓練,而且對高學習率具有魯棒性,并最終實現(xiàn)快速收斂。

以往的方法的網(wǎng)絡如下圖所示,一次一副圖像,切圖像特征編碼器和預測頭解碼器都是CNN

4bdedbe8-02ec-11ee-90ce-dac502259ad0.png

作者將網(wǎng)絡拆分為卷積主干和多層感知器(MLP)頭,如下圖所示:

4c275436-02ec-11ee-90ce-dac502259ad0.png

所以網(wǎng)絡拆分成兩部分:

4c63c100-02ec-11ee-90ce-dac502259ad0.png

其中是用來預測表示圖像特征的高維向量,是用來預測場景坐標的回歸頭

4c787f50-02ec-11ee-90ce-dac502259ad0.png

作者認為可以用場景無關(guān)的卷積網(wǎng)絡實現(xiàn)一個通用的特征提取器,可以使用一個MLP而不是另一個卷積網(wǎng)絡來實現(xiàn)。這樣做因為在預測patch對應的場景坐標時是不需要空間上下文的,也就是說,與backbone不同,不需要訪問鄰近的像素來進行計算,因此可以用所有圖像中的隨機樣本構(gòu)建的訓練batch,具體就是通過在所有圖像上運行預訓練的backbone來構(gòu)建一個固定大小的訓練緩沖區(qū),這個緩沖區(qū)包含數(shù)以百萬計的特征及其相關(guān)像素位置、相機內(nèi)參和ground truth ,在訓練的第一分鐘就產(chǎn)生了這個緩沖。然后開始在緩沖區(qū)上迭代主訓練循環(huán),即在每個epoch的開始,shuffle緩沖區(qū)以混合所有圖像數(shù)據(jù)的特征,在每個訓練步驟中,構(gòu)建數(shù)千個特征batch,這可能同時計算數(shù)千個視圖的參數(shù)更新,這樣不僅梯度計算對于MLP回歸頭非常高效,而且梯度也是不相關(guān)的,這允許使用高學習速度來快速收斂。

3.2 課程(Curriculum)訓練

課程(Curriculum)訓練:比如像我們上課一樣,開始會講一些簡單的東西,然后再慢慢深入學習復雜的東西,類比網(wǎng)絡,就是開始給寬松的閾值,讓網(wǎng)絡學習簡單的知識,后續(xù)隨著訓練時間的進行,增大閾值,讓網(wǎng)絡學習復雜且魯棒的知識。

具體的,在整個訓練過程中使用一個移動的內(nèi)閾值,開始時是寬松的,隨著訓練的進行,限制會越來越多,使得網(wǎng)絡可以專注于已經(jīng)很好的預測,而忽略在姿態(tài)估計過程中RANSAC會過濾掉的不太精確的預測。

4c973c92-02ec-11ee-90ce-dac502259ad0.png

這種損失優(yōu)化了所有有效坐標預測的魯棒重投影誤差π,有效的預測指在圖像平面前方10cm到1000m之間,且重投影誤差低于1000px。

再使用tanh夾持重投影誤差:

4cbbb52c-02ec-11ee-90ce-dac502259ad0.png

根據(jù)在訓練過程中變化的閾值τ動態(tài)地重新縮放tanh:

4cee06c6-02ec-11ee-90ce-dac502259ad0.png

其中t∈(0,1)表示相對訓練進度。這個課程訓練實現(xiàn)了一個循環(huán)的τ閾值時間表,τ閾值在訓練開始時保持在附近,在訓練結(jié)束時趨于。

3.3 Backbone訓練

backbone可以使用任何密集的特征描述網(wǎng)絡。作者提出了一種簡單的方法來訓練一個適合場景坐標回歸的特征描述網(wǎng)絡。為了訓練backbone,采用DSAC*的圖像級訓練,并將其與課程訓練相結(jié)合。用N個回歸頭并行地訓練N個場景,而不是用一個回歸頭訓練一個場景的backbone。這種瓶頸架構(gòu)使得backbone預測適用于廣泛場景的特性。在ScanNet的100個場景上訓練1周,得到11MB的權(quán)重,可用于在任何新場景上提取密集的描述符。

04實驗

主要在兩個室內(nèi)數(shù)據(jù)集7Scenes和12Scenes和一個室外數(shù)據(jù)集Cambridge上進行訓練測試:

4d095f2a-02ec-11ee-90ce-dac502259ad0.png

4d3694fe-02ec-11ee-90ce-dac502259ad0.png

和DSAC*比較了在建圖訓練上的時間損耗:

4d638310-02ec-11ee-90ce-dac502259ad0.png

以及在無地圖定位數(shù)據(jù)集(自己構(gòu)建的 WaySpots)上的定位結(jié)果:

4d8a392e-02ec-11ee-90ce-dac502259ad0.png

4dd639fa-02ec-11ee-90ce-dac502259ad0.png

05總結(jié)

這是一個能夠在5分鐘內(nèi)訓練新環(huán)境的重定位算法。

與之前的場景坐標回歸方法相比,將建圖的成本和存儲消耗降低了兩個數(shù)量級,使得算法具有實用性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95393
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    163

    瀏覽量

    24371
  • 卷積網(wǎng)絡
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    2552

原文標題:前沿丨CVPR 2023:視覺重定位,同等精度下速度提升300倍

文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    直線電機定位精度和重復定位精度

    、直線電機的定位原理說明( 博揚直線電機)直線電機,通常根據(jù)機構(gòu)所要求的精度,配合選擇合適的光柵尺,形成閉環(huán)反饋,精度高直線電機和光柵尺大致決定了整個系統(tǒng)的定位
    發(fā)表于 07-12 06:56

    視覺定位方案求助,謝

    功能:視覺定位玻璃的位置和角度,給平面4軸機器人抓取1.附件是我自己用視覺助手做的驗證,很不穩(wěn)定2.相機是1200W,視野范圍是350*200,玻璃規(guī)格大小有很多,圖片是其中一款3.定位
    發(fā)表于 10-05 17:15

    深圳CCD視覺檢測定位系統(tǒng)有什么特點?

    識別、測量、定位、判斷等功能。那么深圳CCD視覺檢測定位系統(tǒng)有什么特點?相信不少人是有疑問的,今天深圳四元數(shù)就跟大家解答一!四元數(shù)CCD視覺
    發(fā)表于 10-09 14:45

    CCD視覺定位系統(tǒng)在紫外激光打標機上的應用

    CCD視覺紫外激光打標機,紫外激光打標機有了CCD視覺定位系統(tǒng)的加持在標記加工領(lǐng)域更是如虎添翼,能夠?qū)⒆贤饧す獯驑藱C的加工效率提升數(shù)倍,而且標記的位置更加精準。講到這里可能很多人還是不
    發(fā)表于 03-08 14:20

    精度定位技術(shù)需求日益凸顯,和SKYLAB了解一精度定位方案

    三號性能在北斗二號的基礎上,提升了1至2定位精度,建成后的北斗全球?qū)Ш较到y(tǒng)將為民用用戶免費提供約10米精度
    的頭像 發(fā)表于 08-06 17:40 ?6310次閱讀

    iOS 12正式版即將推出,高負載app啟動速度最高提升至2

    今日蘋果官方公眾號推送了一條消息稱,iOS 12 也馬上要正式推出,很快就可以下載了。蘋果表示,iOS 12正式版輕掃打開相機的速度最高提升至70%;鍵盤的顯示速度最高提升至50%;高
    發(fā)表于 09-17 16:05 ?1188次閱讀

    復雜環(huán)境的自動駕駛高精度定位技術(shù)

    今天為大家分享,自動駕駛在復雜環(huán)境的高精度定位技術(shù)。
    的頭像 發(fā)表于 06-28 13:55 ?5669次閱讀

    自動駕駛檢測器可同時實現(xiàn)3D檢測精讀和速度提升

    3月19日,阿里巴巴達摩院宣布近日有論文入選計算機視覺頂會CVPR 2020。論文提出一個通用、高性能的自動駕駛檢測器,可兼顧3D物體的檢測精度速度,
    的頭像 發(fā)表于 03-20 13:40 ?2771次閱讀

    教你們視覺SLAM如何去提高定位精度

    EpsAvlc: 這個事情的回答需要基于你的動機。 如果你想改進已有的算法以獲得在數(shù)據(jù)集上的視覺里程計定位精度上的提升,那么我的判斷是比較難。 如果你是在實際場景中發(fā)現(xiàn)已有的框架(例如
    的頭像 發(fā)表于 07-06 10:57 ?4273次閱讀

    CVPR 2021華為諾亞方舟實驗室發(fā)表30篇論文 |CVPR 2021

    一年一度的計算機視覺頂會IEEE計算機視覺及模式識別大會CVPR錄用結(jié)果最近公布。據(jù)悉,今年CVPR投稿量與論文接收量相對往年繼續(xù)上升,有...
    發(fā)表于 01-25 18:24 ?1次下載
    <b class='flag-5'>CVPR</b> 2021華為諾亞方舟實驗室發(fā)表30篇論文 |<b class='flag-5'>CVPR</b> 2021

    華為DATS路面感知響應速度提升100

    華為動態(tài)自適應扭矩系統(tǒng)(DATS)識別顛簸路面動態(tài),智能調(diào)整扭矩,大幅提升通過平順性。路面感知響應速度提升100。
    的頭像 發(fā)表于 09-06 16:21 ?3616次閱讀
    華為DATS路面感知響應<b class='flag-5'>速度</b><b class='flag-5'>提升</b>100<b class='flag-5'>倍</b>

    鐵路轉(zhuǎn)轍機視覺精度定位抓取,大幅提升了產(chǎn)線自動化、柔性化水平

    鐵路轉(zhuǎn)轍機視覺精度定位抓取,高精度2D視覺大工件定位,既保證了較高的
    的頭像 發(fā)表于 03-22 09:03 ?1017次閱讀

    HighLight:視覺定位同等精度速度提升300

    與以往基于學習的視覺定位算法的區(qū)別在于:以前的方法往往需要數(shù)小時或數(shù)天的訓練,而且每個新場景都需要再次進行訓練,使得該方法在大多數(shù)應用程序中不太現(xiàn)實,所以在本文中作者團隊提出的方法改善了這一確定,使得可以在不到5分鐘的時間內(nèi)實現(xiàn)同樣的
    的頭像 發(fā)表于 06-01 14:38 ?853次閱讀
    HighLight:<b class='flag-5'>視覺</b><b class='flag-5'>重</b><b class='flag-5'>定位</b>,<b class='flag-5'>同等</b><b class='flag-5'>精度</b><b class='flag-5'>下</b><b class='flag-5'>速度</b><b class='flag-5'>提升</b><b class='flag-5'>300</b><b class='flag-5'>倍</b>

    CVPR 2023 | 完全無監(jiān)督的視頻物體分割 RCF

    TLDR: 視頻分割一直是標注的一個 task,這篇 CVPR 2023 文章研究了完全不需要標注的視頻物體分割。僅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上
    的頭像 發(fā)表于 07-16 20:45 ?978次閱讀
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | 完全無監(jiān)督的視頻物體分割 RCF

    激光焊接視覺定位引導方法

    激光焊接是一種高效、精確的焊接技術(shù),廣泛應用于汽車制造、航空航天、電子產(chǎn)品等領(lǐng)域。隨著工業(yè)自動化和智能化的發(fā)展,激光焊接的精度和效率需求日益增加。在此背景,視覺定位引導技術(shù)成為
    的頭像 發(fā)表于 05-28 10:34 ?914次閱讀
    激光焊接<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>引導方法