想要進(jìn)行圖像分割,傳統(tǒng)方法是先檢測(cè)圖中物體,在進(jìn)行分離。在本文中,來(lái)自清華大學(xué)、騰訊AI研究室和英國(guó)卡迪夫大學(xué)的研究者們提出了一種新型分割圖像中人物的方法,基于人物動(dòng)作辨認(rèn)。以下是論智對(duì)原文的編譯。
圖像分割的一般方法是先對(duì)物體進(jìn)行檢測(cè),然后用邊界框?qū)Ξ?huà)中物體進(jìn)行分割。最近,例如Mask R-CNN的深度學(xué)習(xí)方法也被用于圖像分割任務(wù),但是大多數(shù)研究都沒(méi)有注意到人類(lèi)的特殊性:可以通過(guò)身體姿勢(shì)進(jìn)行辨認(rèn)。在這篇論文中,我們提出了一種新方法,可以通過(guò)人作出的不同動(dòng)作進(jìn)行圖像分割。
多人姿態(tài)辨認(rèn)的目的是分辨圖像中每個(gè)人物的動(dòng)作,這些需要通過(guò)身體部位判斷,比如頭部、肩膀、手部、腳等等。而一般的對(duì)象分割實(shí)例旨在預(yù)測(cè)圖像中每個(gè)對(duì)象的像素級(jí)標(biāo)簽。要想解決這兩個(gè)問(wèn)題,都需要檢測(cè)目標(biāo)物體并將它們分離,這一過(guò)程通常被稱(chēng)為目標(biāo)檢測(cè)。但是由于二維圖像所含信息較少,導(dǎo)致想分離兩個(gè)重疊的同類(lèi)圖像非常困難。對(duì)于目標(biāo)檢測(cè),有許多強(qiáng)有力的基準(zhǔn)系統(tǒng),例如Fast/Faster R-CNN、YOLO,它們都遵循著一個(gè)基本規(guī)則:先生成大量proposal regions,然后用非極大抑制刪除重復(fù)區(qū)域。但是,當(dāng)兩個(gè)相同類(lèi)別的物體重疊時(shí),NMS總是將其中一個(gè)視為重復(fù)的proposal region,然后刪除它。這表明幾乎所有的目標(biāo)檢測(cè)都不能處理大面積重合的問(wèn)題。
盡管在許多多人姿態(tài)識(shí)別任務(wù)中都選用了這種框架,一些不依賴(lài)于目標(biāo)檢測(cè)的bottom-up方法也取得了良好性能。Bottom-up方法的主要思想是首先在所有人身體上找?guī)讉€(gè)關(guān)鍵點(diǎn)。如圖1所示:
圖1
這種方法有幾個(gè)優(yōu)點(diǎn),首先,運(yùn)行成本不會(huì)隨著圖像中人數(shù)的增加而增加;其次,兩個(gè)重疊在一起的人物可以在連接身體部位時(shí)分開(kāi),如圖2所示,使用人體姿勢(shì)可以改善目標(biāo)檢測(cè)中物體重疊的問(wèn)題。
圖2
新方法Pose2Seg
基于人體姿勢(shì)識(shí)別,我們提出了一種端到端的物體分割框架,整體框架如圖3所示,它將圖片和姿勢(shì)識(shí)別結(jié)果一同作為輸入:
圖3
然后我們使用一個(gè)對(duì)準(zhǔn)模塊,基于人體姿勢(shì)檢測(cè)結(jié)果(稱(chēng)為Affine Align),將感興趣區(qū)域(ROI)對(duì)齊為統(tǒng)一大小(64×64)。同時(shí),我們?yōu)閳D中的每個(gè)人物生成骨架特征,并將它們連接到ROI。最終實(shí)驗(yàn)表明,將骨骼信息明確地添加到網(wǎng)絡(luò)中可以在圖像分割中提供更好的信息。
AffineAlign
人類(lèi)的動(dòng)作種類(lèi)多且復(fù)雜,想要進(jìn)行圖像分割是很困難的?;贔aster R-CNN和Mask R-CNN中的ROIAlign,我們提出了AffineAlign操作。但是與它們不同的是,我們是基于人物的動(dòng)作對(duì)齊,而不是邊界框。通過(guò)人類(lèi)動(dòng)作蘊(yùn)涵的信息,AffineAlign操作可以把奇怪的人類(lèi)動(dòng)作拉直,然后將重疊的人分開(kāi),具體過(guò)程可看圖4:
圖4
同時(shí),我們還研究了人類(lèi)骨骼的特征,我們用部分親和字段(PAF)重現(xiàn)某個(gè)動(dòng)作的骨骼結(jié)構(gòu),PAF是一個(gè)有兩通道的向量字段映射,如果COCO數(shù)據(jù)集中有11個(gè)骨骼標(biāo)記,PAF就是一個(gè)有22個(gè)通道的特征映射。
實(shí)驗(yàn)過(guò)程
我們選用了COCO數(shù)據(jù)集,它是人類(lèi)圖像數(shù)量最多的公開(kāi)數(shù)據(jù)及,其中我們將其分成了COCOHUMAN和COCOHUMAN-OC兩個(gè)數(shù)據(jù)集,前者是有中等和大型目標(biāo)物體的人類(lèi)數(shù)據(jù)集,并對(duì)其中的動(dòng)作進(jìn)行了標(biāo)注;后者是有較多重疊對(duì)象的圖像,共有44張圖。COCOHUMAN-OC中的一些樣例如圖所示:
首先是在COCOHUMAN上,本文提出的方法與Mask R-CNN進(jìn)行對(duì)比:
其他AffineAlign操作,a代表輸入的圖像,b代表在原圖上鎖定目標(biāo),c代表AffineAlign操作的結(jié)果,d代表分割結(jié)果
然后是在COCOHUMAN-OC上的實(shí)驗(yàn)對(duì)比:
我們的方法與Mask R-CNN在處理重疊圖像上的表現(xiàn)。我們方法中的邊界框使用預(yù)測(cè)掩碼生成的,能更好地進(jìn)行可視化和對(duì)比
上表顯示,我們提出的基于動(dòng)作姿勢(shì)的框架比基于圖像檢測(cè)的框架表現(xiàn)得好。由于非極大抑制,一些基于檢測(cè)的框架,如Mask R-CNN無(wú)法處理大面積重疊的現(xiàn)象。即使目標(biāo)物體能被分離,仍然有一部分無(wú)法算入其中。但是在這種新框架下,我們做到了讓整個(gè)身體都被分離的結(jié)果。
-
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18341 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122798
原文標(biāo)題:清華大學(xué)與騰訊AI合作推出Pose2Seg:無(wú)需目標(biāo)檢測(cè)即對(duì)人像進(jìn)行分割
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種新的粘連字符圖像分割方法
基于改進(jìn)遺傳算法的圖像分割方法
Unity 3D和Vuforia制作AR人物互動(dòng)
一種名片圖像的文字區(qū)塊分割方法
一種改進(jìn)的圖像分割算法分析

一種新的彩色圖像分割算法

基于內(nèi)容的圖像分割方法綜述

一種視頻流特定人物檢測(cè)方法
基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

一種開(kāi)源的機(jī)器學(xué)習(xí)模型,可在瀏覽器中使用TensorFlow.js對(duì)人物及身體部位進(jìn)行分割
基于TensorFlow的開(kāi)源JS庫(kù)的網(wǎng)頁(yè)前端人物動(dòng)作捕捉的實(shí)現(xiàn)

一種可用于生成動(dòng)漫人物頭像的改進(jìn)模型

評(píng)論