剛剛假期歸來的你,一定在手機(jī)里存了美美的自拍。如果可以把這些自拍變成卡通效果的美照,在朋友圈里一定會(huì)獨(dú)樹一幟。
這樣的畫風(fēng)比起自拍多了些藝術(shù)的氣息。但是要實(shí)現(xiàn)高質(zhì)量的卡通藝術(shù)p圖沒有一定的美術(shù)基礎(chǔ)很難做出令人滿意的效果。那近日,來自京東AI研究院的研究人員們提出了一種基于GANs的新型自拍卡通化方法,在保證五官和面部表情細(xì)節(jié)的前提下,通過三種不同的損失函數(shù)將自拍像轉(zhuǎn)換為高質(zhì)量的卡通化圖像。相比于傳統(tǒng)方法在細(xì)節(jié)和保留和局部紋理的抽象上都有了大幅度的提升??ㄍɑ淖耘脑谌粘I钪幸恢庇兄艽蟮男枨?。人們可以將卡通化的自拍作為社交網(wǎng)絡(luò)的頭像,在彰顯個(gè)性的同時(shí)也在一定程度上保護(hù)隱私。此外在在線游戲和藝術(shù)海報(bào)、插畫設(shè)計(jì)中也十分重要。但高質(zhì)量的卡通化自拍需要畫師花費(fèi)大量的時(shí)間,如何高效的生成高質(zhì)量的自拍圖像成為擺在研究人員面前需要解決的問題。對(duì)于這個(gè)問題,目前的方法主要分為兩類。傳統(tǒng)方法主要基于草圖抽取的方法,并基于一定的顏色和形狀后處理來生成卡通化自拍,這種方法在很多拍照app中廣泛使用。谷歌應(yīng)用商店里就有許許多多類似的應(yīng)用。
但這些方法常常需要人類工程師精心設(shè)計(jì)算法,對(duì)于不同的風(fēng)格都需要進(jìn)行特殊的算法設(shè)計(jì)和調(diào)整,同時(shí)在細(xì)節(jié)方面與插畫師還有很大距離。這些方法一般通過人臉識(shí)別分割出五官位置,隨后利用卡通的渲染方法或特殊濾波器來對(duì)圖像處理得到卡通化圖像。雖然這些方法可以在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)處理,但他們對(duì)于面部的細(xì)節(jié)保持和圖像抽象還不完善。近年來深度學(xué)習(xí)的發(fā)展給出了新的解決方案。神經(jīng)風(fēng)格遷移(Neural Style Transfer,NST)可以將風(fēng)格圖像的風(fēng)格遷移到內(nèi)容圖像中去。但通用的NST在應(yīng)用于卡通化時(shí)缺乏針對(duì)性的風(fēng)格化能力。另一種基于生成對(duì)抗網(wǎng)絡(luò)的方法通過對(duì)抗的方法來實(shí)現(xiàn)圖像域遷移,研究人員們相繼提出了pix2pix、Bicycle等方法將圖像從一個(gè)域映射到另一個(gè)域中。然而其最大的缺點(diǎn)在于需要大量的配對(duì)數(shù)據(jù)來實(shí)現(xiàn)訓(xùn)練,這對(duì)于很多圖像遷移任務(wù)來說很不現(xiàn)實(shí)。為了解決這一問題,研究人員們又開發(fā)出了CycleGAN和UNIT等非監(jiān)督的域遷移方法來使用非配對(duì)數(shù)據(jù)訓(xùn)練模型。對(duì)于圖像卡通化,CartoonGAN、DAGAN等模型已經(jīng)進(jìn)行了很多有益的探索,但在捕捉圖像細(xì)節(jié)、特別是對(duì)于自拍圖像生成高質(zhì)量結(jié)果方面還存在很多問題。如何盡可能的保留面部特征細(xì)節(jié)同時(shí)保持藝術(shù)作品的風(fēng)格化是研究人員們需要解決的問題。針對(duì)自拍卡通化任務(wù),目前主要面臨三個(gè)挑戰(zhàn):缺乏針對(duì)人類自拍像以及對(duì)應(yīng)卡通像的公開數(shù)據(jù)集;如何保留卡通化風(fēng)格,包括內(nèi)容的抽象和紋理特征的簡化;最后在生成卡通像時(shí),如何保持最主要的面部輪廓特征,同時(shí)又要避免引入大量無用的細(xì)節(jié)問題?
Selfie Cartoonization GANs
為了解決這一問題,研究人員基于GAN的架構(gòu)和循環(huán)注意力損失提出了針對(duì)自拍像卡通化的架構(gòu)scGANs,充分利用了注意力對(duì)抗網(wǎng)絡(luò)來強(qiáng)化面部特定區(qū)域同時(shí)忽視低層次的紋理細(xì)節(jié)。模型的架構(gòu)如下圖所示:
架構(gòu)圖中顯示了自拍到卡通的訓(xùn)練過程,省略了卡通到自拍的過程。
生成器首先將自拍轉(zhuǎn)換為手繪卡通圖像,最后另一個(gè)生成器又將生成的手繪卡通轉(zhuǎn)換會(huì)自拍照。對(duì)于卡通圖像來說也基于同樣的過程來訓(xùn)練模型??紤]到卡通圖像的紋理特征和數(shù)據(jù)集的大小,模型中使用了Unet的架構(gòu),可以更好的保證面部及五官的邊緣特征。判別器則使用了基于圖像片的方法,不僅需要判別卡通形式的對(duì)抗損失,在模型的另一方面訓(xùn)練中還需要判斷真實(shí)圖像的對(duì)抗損失。除了對(duì)抗損失外研究人員在這一架構(gòu)中加入了三項(xiàng)新的損失,分別是注意力循環(huán)損失、總變分損失和感知損失。受到cycleGAN中循環(huán)連續(xù)損失的啟發(fā),研究人員提出了注意力循環(huán)損失來引導(dǎo)生成更好的生成面部的主要細(xì)節(jié)。例如眼影、瞳孔、鼻翼、嘴角等。針對(duì)這些面部區(qū)域網(wǎng)絡(luò)給予更多的注意。在這一工作中,研究人員利用人臉識(shí)別方法標(biāo)記出了4個(gè)區(qū)域,分別是完整自拍、眼睛、鼻子和嘴。針對(duì)每個(gè)區(qū)域設(shè)置對(duì)應(yīng)的權(quán)重來構(gòu)造損失。
此外由于卡通圖像具有高度簡化的特征和均勻的顏色,需要在像素級(jí)損失上進(jìn)行引導(dǎo)。研究人員觀察到畫師的作品(左)僅僅在邊緣具有較大的梯度變化,而大多數(shù)區(qū)域中梯度變化較小。生成的圖像則全局都具有雜亂的梯度場。
從上面的梯度圖中可以看出,要生成高質(zhì)量的卡通化自拍,還需要在保持主要邊緣梯度的情況下移除其他區(qū)域的提出。所以研究人員提出了總變分作為損失來最小化合成圖像與手繪圖像間的梯度差,這一方法可以很好的移除臉頰處的陰影,更精確的刻畫鼻子。最后為了保留輸出圖像中的空間結(jié)構(gòu)和內(nèi)容特征,研究人員利用VGG中conv4_4層來計(jì)算生成圖像與對(duì)應(yīng)圖像間的感知損失。最后的損失函數(shù)如下所示:
為了訓(xùn)練模型,研究人員通過谷歌圖片搜索利用關(guān)鍵詞搜索了3524張肖像照,同時(shí)從在線繪畫商店中下載了手繪、水彩和動(dòng)漫等不同風(fēng)格共計(jì)4580張卡通圖像。通過訓(xùn)練后,下圖是與目前幾種基于深度學(xué)習(xí)方法的對(duì)比:
最后一列是本文提出的方法
可以看到這種方法在整體上優(yōu)于目前的深度學(xué)習(xí)方法。NST雖然保留了面部細(xì)節(jié)但無法有效學(xué)習(xí)風(fēng)格特征,cartoonGAN生成的效果則無法保留原始圖像中的內(nèi)容信息,特別是眼部特征丟失嚴(yán)重。UNIT和cycleGAN的效果稍好,但是在臉頰、嘴和鼻子等位置還有很多令人不滿意的地方。下表是本文方法的感知評(píng)斷得分表,明顯好于其他幾種方法:
研究人員隨后還對(duì)三種損失進(jìn)行了消融性分析。下圖中的be沒有加總變分損失tv,而cf則加入了總變分損失??梢钥吹郊尤霌p失后眼線更加清晰、臉頰也更加平滑無影。這對(duì)于現(xiàn)實(shí)情況中復(fù)雜的光照和背景十分有用。
對(duì)于注意力循環(huán)和感知損失的消融性分析,可以看到在只使用循環(huán)損失時(shí)效果并不好,而加入了注意力循環(huán)損失后五官的生成質(zhì)量得到了提升,感知損失同時(shí)保留了更多低層級(jí)的重要特征(眉毛和唇色)。
最后讓我們?cè)趤眢w會(huì)下各種卡通的自拍照吧,看看動(dòng)漫的頭像:
或者來個(gè)水彩風(fēng)格:
今天開工了,給自己換個(gè)美麗的頭像好好加油?。。?/p>
-
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41272 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64898 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449
原文標(biāo)題:假期歸來,安利一款玩轉(zhuǎn)自拍的黑科技給你:基于GANs的新型自拍卡通化方法
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論