相信各位小伙伴一定已經(jīng)學(xué)習(xí)了今年CVPR的兩篇最佳論文了,一篇是來(lái)自于斯坦福和伯克利大學(xué)的研究人員共同進(jìn)行的關(guān)于如何進(jìn)行高效遷移學(xué)習(xí)的:Taskonomy: Disentangling Task Transfer Learning,另一篇來(lái)自卡耐基梅隆大學(xué)的論文:Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies實(shí)現(xiàn)了多尺度人類(lèi)行為的三維重建和追蹤。但除此之外,還有四篇優(yōu)秀的工作被授予了最佳論文的榮譽(yù)提名獎(jiǎng),分別是來(lái)自:
帝國(guó)理工戴森機(jī)器人實(shí)驗(yàn)室的:CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM;
加州大學(xué)默塞德分校、麻省大學(xué)阿默斯特分校和英偉達(dá)的:SPLATNet: Sparse Lattice Networks for Point Cloud Processing;
隆德大學(xué)、羅馬尼亞科學(xué)院的:Deep Learning of Graph Matching;
奧地利科技學(xué)院、馬克思普朗克圖賓根研究所、海德巴拉國(guó)際信息技術(shù)研究所和劍橋大學(xué)共同研究的:Efficient Optimization for Rank-based Loss Functions四篇論文分別從幾何描述、點(diǎn)云處理、圖匹配和優(yōu)化等方面進(jìn)行了研究,下面讓我們一起學(xué)習(xí)一下吧!
CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM
在實(shí)時(shí)三維感知系統(tǒng)中,物體幾何的表述一直是一個(gè)十分關(guān)鍵的問(wèn)題,特別是在定位和映射算法中有著重要的作用,它不僅影響著映射的幾何質(zhì)量,更與其采取的算法息息相關(guān)。在SLAM特別是單目SLAM中場(chǎng)景幾何信息不能從單一的視角得到,而與生俱來(lái)的不確定性在大自由度下會(huì)變得難以控制。這使得目前主流的slam分成了稀疏和稠密兩個(gè)方向。雖然稠密地圖可以捕捉幾何的表面形貌并用語(yǔ)義標(biāo)簽進(jìn)行增強(qiáng),但它的高維特性帶來(lái)的龐大存儲(chǔ)計(jì)算量限制了它的應(yīng)用,同時(shí)它還不適用于精密的概率推測(cè)。稀疏的特征可以避免這些問(wèn)題,但捕捉部分場(chǎng)景的特征僅僅對(duì)于定位問(wèn)題有用。
為了解決這些問(wèn)題,這篇文章里作者提出了一種緊湊但稠密的場(chǎng)景幾何表示,它以場(chǎng)景的單幅強(qiáng)度圖作為條件并由很少參數(shù)的編碼來(lái)生成。研究人員在從圖像學(xué)習(xí)深度和自編碼器等工作的啟發(fā)下設(shè)計(jì)了這一方法。這種方法適用于基于關(guān)鍵幀的稠密slam系統(tǒng):每一個(gè)關(guān)鍵幀通過(guò)編碼可以生成深度圖,而編碼可以通過(guò)位姿變量和重疊的關(guān)鍵幀進(jìn)行優(yōu)化以保持全局的連續(xù)性。訓(xùn)練的深度圖可使得編碼表示不能直接從圖像預(yù)測(cè)出的局部幾何特征。
這篇文章的貢獻(xiàn)主要在兩個(gè)方面:
推導(dǎo)出了一種通過(guò)強(qiáng)度圖訓(xùn)練深度自編碼器的稠密集合表示,并進(jìn)行了優(yōu)化;
首次實(shí)現(xiàn)了稠密集合與運(yùn)動(dòng)估計(jì)聯(lián)合優(yōu)化的單目系統(tǒng)。
下圖是研究人員采用的網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了基于圖像強(qiáng)度的變分深度自編碼器。
下圖是編解碼階段不同的輸出,以及編碼抓取細(xì)節(jié)的能力:
下圖是編碼后的恢復(fù)以及sfm結(jié)果:
研究人員們希望在未來(lái)構(gòu)建出完整的基于關(guān)鍵幀的實(shí)時(shí)SLAM系統(tǒng),并在更遠(yuǎn)的將來(lái)致力于研究一般三維幾何更加緊湊的表示,甚至用于三維物體識(shí)別。
如果有興趣,可以訪問(wèn)項(xiàng)目主頁(yè)獲取更詳細(xì)信息,也可參看附件的視頻簡(jiǎn)介:
http://www.imperial.ac.uk/dyson-robotics-lab/projects/codeslam/
SPLATNet: Sparse Lattice Networks for Point Cloud Processing
激光雷達(dá)等三維傳感器的數(shù)據(jù)經(jīng)常是不規(guī)則的點(diǎn)云形式,分析和處理點(diǎn)云數(shù)據(jù)在機(jī)器人和自動(dòng)駕駛中有著十分重要的作用。
但點(diǎn)云具有稀疏性和無(wú)序性的特征,使得一般的卷積神經(jīng)網(wǎng)絡(luò)處理3D點(diǎn)數(shù)據(jù)十分困難,所以目前主要利用手工特征來(lái)對(duì)點(diǎn)云進(jìn)行處理。其中一種方法就是對(duì)點(diǎn)云進(jìn)行預(yù)處理使其符合標(biāo)準(zhǔn)空間卷積的輸入形式。按照這一思路,用于3D點(diǎn)云分析的深度學(xué)習(xí)架構(gòu)都需要對(duì)不規(guī)則的點(diǎn)云進(jìn)行預(yù)處理,或者進(jìn)行體素表示,或者投影到2D。這需要很多的人工并且會(huì)失去點(diǎn)云中包含自然的不變性信息。
為了解決這些問(wèn)題,在這篇文章中作者提出了一種用于處理點(diǎn)云的網(wǎng)絡(luò)架構(gòu),其中的關(guān)鍵在于研究發(fā)現(xiàn)雙邊卷積層(e bilateral convolutionlayers——BCLs)對(duì)于處理點(diǎn)云有著很多優(yōu)異的特性。
雙邊卷積層
BCLs提供了一種系統(tǒng)的方法來(lái)除了無(wú)序點(diǎn),但同時(shí)保持了卷積操作中柵格的靈活性。BCL將輸入點(diǎn)云平滑地映射到稀疏的柵格上,并在稀疏柵格上進(jìn)行卷積操作,隨后進(jìn)行平滑插值并將信號(hào)映射到原始輸入中去。利用BCLs研究人員們建立了SPLATNet(SParse LATtice Networks)用于分層處理無(wú)序點(diǎn)云并識(shí)別器空間特征。
SPLATNet的架構(gòu)
它具有以下優(yōu)點(diǎn):
無(wú)需點(diǎn)云預(yù)處理;
可以方便實(shí)現(xiàn)像標(biāo)準(zhǔn)CNN一樣的鄰域操作;
利用哈希表可高效處理稀疏輸入;
利用稀疏高效的柵格濾波實(shí)現(xiàn)對(duì)輸入點(diǎn)云分層和空間特征的處理;
可實(shí)現(xiàn)2D-3D之間的互相映射。
二維到三維的投影
下圖是對(duì)于建筑物點(diǎn)云的處理結(jié)果:
如果有興趣的小伙伴可以參考項(xiàng)目主頁(yè):
http://vis-www.cs.umass.edu/splatnet/
和英偉達(dá)的官方介紹:https://news.developer.nvidia.com/nvidia-splatnet-research-paper-wins-a-major-cvpr-2018-award/
如果想要上手練練,這里還有代碼可以跑一波:https://github.com/NVlabs/splatnet
今天附件中包含了視頻介紹,敬請(qǐng)觀看。
https://pan.baidu.com/s/1dIyZyEx-Bc9zYPIr4F_5bw
Deep Learning of Graph Matching
圖匹配問(wèn)題是優(yōu)化、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)中的重要問(wèn)題,而如何表示節(jié)點(diǎn)與其相鄰結(jié)構(gòu)的關(guān)系是其中的關(guān)鍵。這篇文章提出了一種端到端的模型來(lái)使得學(xué)習(xí)圖匹配過(guò)程中的所有參數(shù)成為可能。其中包括了單位的和成對(duì)的節(jié)點(diǎn)鄰域、表達(dá)成了深度分層的特征抽取。
完整訓(xùn)練圖匹配模型的計(jì)算流程
這其中的難點(diǎn)在于為不同層之間的矩陣運(yùn)算建立從損失函數(shù)開(kāi)始的完整流程、實(shí)現(xiàn)高效、連續(xù)的梯度傳播。通過(guò)結(jié)合優(yōu)化層解決了匹配問(wèn)題,并利用了分層特征抽取。最后在計(jì)算機(jī)視覺(jué)的實(shí)驗(yàn)中取得了很好的結(jié)果。
可以看到在外形和位姿都極不同的各個(gè)實(shí)例中,關(guān)鍵點(diǎn)的圖匹配算法依然表現(xiàn)良好。
Efficient Optimization for Rank-based Loss Functions
在信息檢索系統(tǒng)中通常利用復(fù)雜的損失函數(shù)(AP,NDCG)來(lái)衡量系統(tǒng)的表現(xiàn)。雖然可以通過(guò)正負(fù)樣本來(lái)估計(jì)檢索系統(tǒng)的參數(shù),但這些損失函數(shù)不可微、不可分解使得基于梯度的算法無(wú)法使用。通常情況下人們通過(guò)優(yōu)化損失函數(shù)hinge-loss上邊界或者使用漸進(jìn)方法來(lái)規(guī)避這一問(wèn)題。
系統(tǒng)算法
為了解決這一問(wèn)題,研究人員們提出了一種用于大規(guī)模不可微損失函數(shù)算法。提供了符合這一算法的損失函數(shù)的特征描述,它可以處理包括AP和NDCC系列的損失函數(shù)。同時(shí)研究人員們還提出了一種非比照的算法改進(jìn)了上述漸進(jìn)過(guò)程的計(jì)算復(fù)雜度。這種方法與更簡(jiǎn)單的可分解(需要對(duì)照訓(xùn)練)損失函數(shù)相比有著更好的結(jié)果。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103730 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41302 -
激光雷達(dá)
+關(guān)注
關(guān)注
971文章
4236瀏覽量
192934
原文標(biāo)題:提名也是莫大的榮譽(yù):除了最佳論文,CVPR的這些論文也不容錯(cuò)過(guò)
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于變分自編碼器的異常小區(qū)檢測(cè)
是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

自編碼器介紹
基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法SAANE

基于變分自編碼器的海面艦船軌跡預(yù)測(cè)算法

自編碼器基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法

一種基于變分自編碼器的人臉圖像修復(fù)方法

基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法
自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實(shí)驗(yàn)綜述
基于深度稀疏自編碼網(wǎng)絡(luò)的行人檢測(cè)
基于交叉熵?fù)p失函欻的深度自編碼器診斷模型
深度對(duì)戰(zhàn)自編碼網(wǎng)絡(luò)在船舶重量評(píng)估的應(yīng)用
自編碼器 AE(AutoEncoder)程序

評(píng)論