編者按:說(shuō)到GAN在人臉上的應(yīng)用,就不得不提起去年高麗大學(xué)、Clova AI Research、新澤西大學(xué)和香港科技大學(xué)共同發(fā)表的一項(xiàng)成果:一個(gè)可以在多域圖像間實(shí)現(xiàn)圖對(duì)圖轉(zhuǎn)換的統(tǒng)一生成對(duì)抗網(wǎng)絡(luò)——StarGAN。它不僅能調(diào)整圖像中的發(fā)色、肌理、膚色、性別,還能合成各種生動(dòng)有趣的表情。而就在上周,美國(guó)的一群研究人員基于解剖學(xué)上的肌肉運(yùn)動(dòng)方式,提出了一種轉(zhuǎn)換表情的新方法。
近年來(lái),生成對(duì)抗網(wǎng)絡(luò)(GAN)已經(jīng)在面部表情合成任務(wù)中取得了令人印象深刻的結(jié)果,這為包括電影工業(yè)、攝影、時(shí)尚和電子商務(wù)在內(nèi)的商業(yè)領(lǐng)域打開了一扇新大門:如果GAN真的能實(shí)現(xiàn)表情的自然轉(zhuǎn)換,企業(yè)、制片方不僅能進(jìn)一步壓縮成本,還能加快產(chǎn)品的產(chǎn)出效率。
在這個(gè)背景下,去年提出的StarGAN無(wú)疑是目前最成功的架構(gòu),它只用一對(duì)生成器和判別器就能實(shí)現(xiàn)多個(gè)域之間的映射,且能對(duì)各個(gè)域的圖像進(jìn)行有效訓(xùn)練。雖然論文較以往成果有巨大進(jìn)步,也顯示出了通用性,但它只是把以前的2個(gè)域擴(kuò)展到現(xiàn)在的k個(gè)域,模型轉(zhuǎn)換效果還是受數(shù)據(jù)集注釋局限。
為了解決這個(gè)問題,近日,西班牙IRI和美國(guó)俄亥俄州立大學(xué)的研究人員提出了一種基于動(dòng)作單元(AU)的新型GAN,它在連續(xù)流形中描述了解剖學(xué)意義上的人類面部表情。經(jīng)過無(wú)監(jiān)督訓(xùn)練后,只需控制每個(gè)AU的激活程度,并選取其中幾個(gè)進(jìn)行組合,模型就能實(shí)現(xiàn)生動(dòng)形象的表情轉(zhuǎn)換。
模型架構(gòu)和方法
首先,我們來(lái)看這個(gè)GAN的具體構(gòu)造。
對(duì)于任意表情,模型把輸入的RGB圖像定義為Iyr∈RH×W×3。通過把復(fù)雜表情解構(gòu)成一個(gè)個(gè)動(dòng)作單元(AU),我們可以用一組N個(gè)AU yr= (y1, . . . , yN)T對(duì)每個(gè)表情編碼,其中yn已經(jīng)經(jīng)過歸一化處理,取值在0到1之間。有了這種連續(xù)表征,我們就可以在不同表征之間進(jìn)行自然插值,從而渲染各種逼真、平滑的面部表情。
簡(jiǎn)而言之,我們的目標(biāo)是學(xué)習(xí)一個(gè)映射M,它能把輸入圖像Iyr轉(zhuǎn)換成基于目標(biāo)AU yg的輸出圖像Iyg。
上圖是GANimation的整體架構(gòu),可以發(fā)現(xiàn),它主要由兩部分組成:一個(gè)生成器G,一個(gè)判別器D。其中生成器負(fù)責(zé)回歸注意力(GI)和生成色彩掩模(GA),判別器負(fù)責(zé)鑒別生成圖像逼真與否(DI),并檢查表情是否連貫(y?g)。
既然重點(diǎn)是AU,那么模型的一個(gè)關(guān)鍵自然是專注于圖像中那些負(fù)責(zé)合成新表情的區(qū)域,換言之,我們需要弱化頭發(fā)、眼鏡、帽子或珠寶等其他元素對(duì)模型的干擾。為了實(shí)現(xiàn)這一點(diǎn),如上圖所示,研究人員在生成器中引入注意力機(jī)制,把輸入圖像分成注意力掩模A和RGB掩模C,完成表情轉(zhuǎn)換后再合并渲染。
什么是AU
關(guān)于什么是AU,文中并沒有仔細(xì)說(shuō)明,所以這里我們來(lái)看它重點(diǎn)引用的另一篇論文。
這篇名為Compound facial expressions of emotion的論文來(lái)自俄亥俄州立大學(xué)哥倫布分校,它和GANimation有一個(gè)共同的作者:Aleix M. Martinez。根據(jù)他們的研究,人類的不同面部表情可能存在一定相關(guān)性,比如當(dāng)一個(gè)人感到驚喜時(shí),他的面部肌肉群運(yùn)動(dòng)其實(shí)結(jié)合了愉悅、驚訝兩種基礎(chǔ)情緒的肌肉運(yùn)動(dòng)方式。
基于這個(gè)發(fā)現(xiàn),他們提出了一種名為復(fù)合情感類別的重要表達(dá)式。通過采集230名人類受試者的面部表情樣本圖像,并進(jìn)行觀察實(shí)驗(yàn),最終他們定義了21種不同表情類別,其中的差異可以被計(jì)算機(jī)用來(lái)區(qū)分不同人類情感。
數(shù)據(jù)庫(kù)中的22種常見表情
用線條進(jìn)行肌肉運(yùn)動(dòng)分析
六種復(fù)合面部表情的AU組成
很可惜,仔細(xì)瀏覽了論文好幾次,我還是沒能從中找出AU對(duì)照表。下表是目前已知的幾項(xiàng)內(nèi)容:
不過不知道也沒關(guān)系,這個(gè)GAN已經(jīng)公開了自己的pytorch實(shí)現(xiàn):github.com/albertpumarola/GANimation。如果有讀者希望獲得完整表格,建議直接聯(lián)系作者,或者依照俄亥俄州立大學(xué)論文中的方法自己總結(jié),里面詳盡列出了數(shù)據(jù)來(lái)源、具體方法和操作細(xì)節(jié)。
實(shí)驗(yàn)
最后是實(shí)驗(yàn)對(duì)比,我們先來(lái)看看GANimation和DIAT、CycleGAN、IcGAN、StarGAN這些模型的性能區(qū)別。
如下圖所示,前三種模型都出現(xiàn)了不同程度的扭曲和畸變,表現(xiàn)較差;而StarGAN雖然保留了更多人臉細(xì)節(jié),生成表情也更自然,但犧牲了清晰度,輸出圖像比較模糊。相比之下,GANimation雖然在臉型上出現(xiàn)了一點(diǎn)小瑕疵,但它的綜合表現(xiàn)是最好的。
下圖是GANimation的一些成功和失敗的例子。其中前兩個(gè)例子(頂行)對(duì)應(yīng)于類似人的雕塑和非現(xiàn)實(shí)主義風(fēng)格繪畫。在這兩種情況下,生成器都能保持原始圖像的藝術(shù)效果,并且忽略諸如眼鏡遮擋之類的偽像。
第三行的示例顯示了模型對(duì)于面部非均勻紋理的穩(wěn)健性??梢钥吹剑盐⑿D(zhuǎn)換成不滿后,女郎鼻翼兩側(cè)出現(xiàn)了下陷的法令紋,但模型并沒有試圖通過添加/去除頭發(fā)來(lái)使紋理均勻化。
底部是一些失敗案例。研究人員歸納了失敗原因,認(rèn)為這些很可能都是因?yàn)橛?xùn)練數(shù)據(jù)不足引起的。如紅臉男子圖所示,當(dāng)模型輸入極端表情時(shí),RGB掩模沒有及時(shí)調(diào)整權(quán)重,導(dǎo)致嘴部出現(xiàn)透明化。此外,如果輸入圖像的主體不是人類,那模型的表現(xiàn)也會(huì)很差。
小結(jié)
傳統(tǒng)的方法,比如Face2Face,需要極度依賴3D面部重建模型,適用面非常小,也難以擴(kuò)展到任意身份。相反地,這篇論文以解剖學(xué)意義上的肌肉運(yùn)動(dòng)為條件,在處理極端輸入時(shí)更穩(wěn)健,效果更好??偠灾?,這是篇不錯(cuò)的論文,而且提出了全然不同的轉(zhuǎn)換方法,它的思路值得學(xué)習(xí)借鑒。
-
GaN
+關(guān)注
關(guān)注
19文章
2204瀏覽量
76742 -
生成器
+關(guān)注
關(guān)注
7文章
322瀏覽量
21875
原文標(biāo)題:GANimation:基于解剖結(jié)構(gòu)的面部表情轉(zhuǎn)換(附GitHub地址)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
無(wú)刷直流電機(jī)轉(zhuǎn)矩脈動(dòng)抑制新方法
無(wú)刷直流電機(jī)滑模觀測(cè)器參數(shù)優(yōu)化設(shè)計(jì)方法
無(wú)刷直流電機(jī)反電勢(shì)過零檢測(cè)新方法
一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法
石墨烯制備的新方法

大華股份榮獲中國(guó)創(chuàng)新方法大賽一等獎(jiǎng)
基于遺傳算法的QD-SOA設(shè)計(jì)新方法

一種降低VIO/VSLAM系統(tǒng)漂移的新方法

大華股份榮獲2024年中國(guó)創(chuàng)新方法大賽一等獎(jiǎng)
利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法
一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

上海光機(jī)所提出強(qiáng)激光產(chǎn)生高能量子渦旋態(tài)電子新方法

保護(hù)4-20 mA,±20-mA模擬輸入的新方法

實(shí)踐JLink 7.62手動(dòng)增加新MCU型號(hào)支持新方法

一種無(wú)透鏡成像的新方法

評(píng)論