編者按:關(guān)鍵點(diǎn)檢測(cè)是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),如人臉識(shí)別、動(dòng)作檢測(cè)和自動(dòng)駕駛等。而在這屆NIPS上,來自Google AI的Supasorn Suwajanakorn等人帶來了關(guān)于3D關(guān)鍵點(diǎn)檢測(cè)的一種新方法:端到端幾何推理。如果你沒聽說過這位一作的名字,沒關(guān)系,你一定見過SIGGRAPH 2017上震驚世界的奧巴馬造假視頻,在那篇論文中,他也是一作.
摘要
本文提出KeypointNet,這是一個(gè)端到端的幾何推理框架,可用于學(xué)習(xí)一組優(yōu)化類3D關(guān)鍵點(diǎn),并對(duì)它們進(jìn)行檢測(cè)。給定單個(gè)圖像,KeypointNet能針對(duì)下游任務(wù)提取優(yōu)化關(guān)鍵點(diǎn)集。我們通過提出一個(gè)可微的對(duì)象來展示這個(gè)關(guān)于3D姿態(tài)估計(jì)的框架,它的目的是恢復(fù)同一對(duì)象兩個(gè)視圖(2D)之間相對(duì)姿勢(shì)的最佳關(guān)鍵點(diǎn)集,跨視角、跨類發(fā)現(xiàn)幾何和語義一致的關(guān)鍵點(diǎn)。
重要的是,我們發(fā)現(xiàn)這種方法不需要任何基于ground-truth的關(guān)鍵點(diǎn)注釋標(biāo)記,在使用同一神經(jīng)網(wǎng)絡(luò)架構(gòu)的情況下,它的效果優(yōu)于完全監(jiān)督基線。關(guān)于汽車、椅子和飛機(jī)等對(duì)象的3D關(guān)鍵點(diǎn)可視化,請(qǐng)看keypointnet.github.io。
簡(jiǎn)介
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的研究已經(jīng)證實(shí),特征提取和分類管道的聯(lián)合優(yōu)化可以顯著提升網(wǎng)絡(luò)的對(duì)象識(shí)別性能。但話雖如此,目前一些解決幾何視覺問題的方法,比如3D重建和shape alignment,它們都包含一個(gè)單獨(dú)的關(guān)鍵點(diǎn)檢測(cè)模塊,在檢測(cè)結(jié)果上再運(yùn)用幾何推理。在本文中,我們探討了一個(gè)問題,即能否構(gòu)建一個(gè)端到端的幾何推理模型,把關(guān)鍵點(diǎn)直接聯(lián)合優(yōu)化為下游任務(wù)的一組潛在變量。
請(qǐng)?jiān)O(shè)想這么一個(gè)例子:圖像中汽車的3D姿勢(shì)問題。按照常規(guī)做法,我們應(yīng)該先檢測(cè)所有關(guān)鍵點(diǎn),然后在幾何推理框架內(nèi)應(yīng)用這些點(diǎn),恢復(fù)汽車的3D姿勢(shì)或某個(gè)角度的視圖。實(shí)現(xiàn)這一點(diǎn)的手段有很多,比如手動(dòng)注釋關(guān)鍵點(diǎn),然后進(jìn)行監(jiān)督學(xué)習(xí),也可以開發(fā)一組關(guān)鍵點(diǎn)檢測(cè)器,盡管這容易出錯(cuò)。
但這種方法成本太高了,而且關(guān)鍵點(diǎn)的選擇也缺乏一致性和明確性。為了獲得更合理的關(guān)鍵點(diǎn)集,我們應(yīng)該根據(jù)下游任務(wù)的需要,直接優(yōu)化下游任務(wù)需要的關(guān)鍵點(diǎn),從中獲取獨(dú)特性、易于檢測(cè)和多樣性等目標(biāo)關(guān)鍵點(diǎn)屬性。
KeypointNet的效果
首先,我們來看看KeypointNet的具體效果,下面是“飛機(jī)”的關(guān)鍵點(diǎn)預(yù)測(cè)情況,可以關(guān)注最后一行,尤其是最后兩個(gè)。它們的機(jī)翼朝向難辨,因此關(guān)鍵點(diǎn)總是變動(dòng):
下面是“汽車”:
模型的整體預(yù)測(cè)效果很好,但請(qǐng)注意最后一行。其中第二輛車是黑色的,和背景顏色一致,這顯然影響了KeypointNet的預(yù)測(cè)效果;而第三輛車之所以也會(huì)出現(xiàn)關(guān)鍵點(diǎn)變動(dòng),是因?yàn)樗能囶^和車尾太相似了,讓模型感到迷惑。
上圖是用不同數(shù)量的關(guān)鍵點(diǎn)[3,5,8,10,15,20]訓(xùn)練網(wǎng)絡(luò)的結(jié)果,可以發(fā)現(xiàn)網(wǎng)絡(luò)最先找到的關(guān)鍵點(diǎn)在飛機(jī)頭部和機(jī)翼,隨著數(shù)量增加,KeypointNet跟蹤的部分更多(顏色是獨(dú)立的,和預(yù)測(cè)結(jié)果無關(guān))。
以上都是簡(jiǎn)單旋轉(zhuǎn)的預(yù)測(cè)結(jié)果,那么如果目標(biāo)對(duì)象是個(gè)可形變的物體,KeypointNet的穩(wěn)健性會(huì)如何?
如這些動(dòng)圖所示,圖中汽車會(huì)動(dòng)態(tài)扭曲,但還能保持原有形狀。對(duì)于這類目標(biāo),KeypointNet預(yù)測(cè)的關(guān)鍵點(diǎn)還是很穩(wěn)定,效果也很好。
最后,也是最重要的,生成、檢測(cè)關(guān)鍵點(diǎn)的作用是用于人臉識(shí)別、姿態(tài)估計(jì)等任務(wù),那么KeypointNet在現(xiàn)實(shí)場(chǎng)景下是否也有上述效果:
上圖右側(cè)是成功預(yù)測(cè)關(guān)鍵點(diǎn)的示例,右側(cè)是失敗案例??傮w而言,這個(gè)模型在大多數(shù)正常汽車圖像上表現(xiàn)出色,但它很難處理自帶廣角畸變的圖像、花紋復(fù)雜的汽車和包含鏡面高光的圖像。
端到端優(yōu)化3D關(guān)鍵點(diǎn)
這一節(jié)是對(duì)KeypointNet的概述。
給定已知對(duì)象類別中的單個(gè)圖像,這個(gè)模型可利用像素坐標(biāo)和相關(guān)聯(lián)的深度值,預(yù)測(cè)并生成3D關(guān)鍵點(diǎn)的有序列表。這些關(guān)鍵點(diǎn)需要在幾何上和語義上保持一致,如下圖所示,即便是外形不同的椅子,KeypointNet始終可以使用相同的關(guān)鍵點(diǎn),而且它們不會(huì)隨視角變化發(fā)生變動(dòng),也能預(yù)測(cè)被遮擋的部分(椅子后腿)。
KeypointNet有N個(gè)頭,因此可以提取N個(gè)關(guān)鍵點(diǎn),同一個(gè)頭在提取關(guān)鍵點(diǎn)時(shí)主要參考語義是否一致。
和完全監(jiān)督學(xué)習(xí)方法相比,這種做法沒有事先定義關(guān)鍵點(diǎn)位置,相反地,它專注于訓(xùn)練時(shí)的相對(duì)姿態(tài)估計(jì),也就是對(duì)于同一目標(biāo)的兩個(gè)2D不同視圖(變換T),找到圖一中的關(guān)鍵點(diǎn)P1和它在圖二中的對(duì)應(yīng)關(guān)鍵點(diǎn)P2,用這兩個(gè)點(diǎn)構(gòu)建3D關(guān)鍵點(diǎn)列表。如下圖所示:
在訓(xùn)練期間,同一對(duì)象的兩個(gè)視圖被作為KeypointNet的輸入,已知視圖變換T=(R, t),P1和P2是一致關(guān)鍵點(diǎn),可以從中提取3D關(guān)鍵點(diǎn)
把兩個(gè)關(guān)鍵點(diǎn)合并成一個(gè)3D關(guān)鍵點(diǎn)的目標(biāo)函數(shù)是O(P1, P2),有了它,我們就能可以從圖像到關(guān)鍵點(diǎn)列表的參數(shù)映射。這個(gè)目標(biāo)函數(shù)由兩大關(guān)鍵構(gòu)成:
多視圖一致性損失,用于在已知轉(zhuǎn)換T的情況下,衡量?jī)山M點(diǎn)之間的差異。
相對(duì)姿態(tài)估計(jì)損失,用于懲罰真實(shí)旋轉(zhuǎn)R和P1、P2校正的旋轉(zhuǎn)R?之間的差異。
實(shí)驗(yàn)證明,它們能幫模型發(fā)現(xiàn)重要的關(guān)鍵點(diǎn),其中有一些甚至和人工特別手動(dòng)標(biāo)注的點(diǎn)一致。需要注意的是,這些具有語義意義的關(guān)鍵點(diǎn)不會(huì)被直接優(yōu)化,可以它們對(duì)于下游任務(wù)可能不是最佳的。
由于論文的閱讀體驗(yàn)不是很好,具體計(jì)算細(xì)節(jié),感興趣的讀者可以去原文查看。
-
3D
+關(guān)注
關(guān)注
9文章
2959瀏覽量
110781 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103648 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46781
原文標(biāo)題:NIPS 2018(oral):通過端到端幾何推理發(fā)現(xiàn)潛在3D關(guān)鍵點(diǎn)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種先分割后分類的兩階段同步端到端缺陷檢測(cè)方法
方波有源濾波器諧波電流檢測(cè)的一種新方法

一種級(jí)數(shù)混合運(yùn)算產(chǎn)生SPWM波新方法
一種求解動(dòng)態(tài)及不確定性優(yōu)化問題的新方法
開發(fā)以3D打印隨選制藥的新方法
3D打印紙基細(xì)胞培養(yǎng)裝置,能夠模擬血管并具有無限存放期
科學(xué)家正在研發(fā)3D打印人造器官的新方法
一種復(fù)制和粘貼URL的新方法
一種端到端的立體深度感知系統(tǒng)的設(shè)計(jì)

評(píng)論