本文總結(jié)了5個(gè)最近推出的用于圖像合成的GAN架構(gòu),對(duì)論文從核心理念、關(guān)鍵成就、社區(qū)價(jià)值、未來(lái)商業(yè)化及可能的落地應(yīng)用方向?qū)φ撐倪M(jìn)行解讀,對(duì)創(chuàng)業(yè)者、開(kāi)發(fā)者、工程師、學(xué)者均有非常高的價(jià)值。
1. STARGAN:
多域圖像到圖像翻譯的統(tǒng)一生成網(wǎng)絡(luò)。作者YUNJEY CHOI,MINJE CHOI,MUNYOUNG KIM,JUNG-WOO HA,SUNGHUN KIM,JAEGUL CHOO。論文地址:
https://arxiv.org/abs/1711.09020
論文摘要
最近的研究表明,兩個(gè)領(lǐng)域的圖像到圖像轉(zhuǎn)換取得了顯著的成功。然而,現(xiàn)有方法在處理兩個(gè)以上的域時(shí),可擴(kuò)展性和魯棒性的比較有限,因?yàn)樾枰獮槊繉?duì)圖像域獨(dú)立地構(gòu)建不同的模型。
StarGAN的出現(xiàn)就是為了解決這一問(wèn)題。研究人員提出了一種新穎且可擴(kuò)展的方法,可以實(shí)現(xiàn)僅靠單個(gè)模型就能對(duì)多個(gè)域執(zhí)行圖像到圖像的轉(zhuǎn)換。
StarGAN這種統(tǒng)一模型架構(gòu),允許在單個(gè)網(wǎng)絡(luò)內(nèi)同時(shí)訓(xùn)練具有不同域的多個(gè)數(shù)據(jù)集。與現(xiàn)有模型相比,StarGAN有著更高的圖像轉(zhuǎn)化質(zhì)量,以及將輸入圖像靈活地轉(zhuǎn)換為任何所需目標(biāo)域的新穎功能。
我們憑經(jīng)驗(yàn)證明了我們的方法在面部屬性轉(zhuǎn)移,和面部表情綜合任務(wù)方面的有效性。
核心理念
StarGAN是一種可擴(kuò)展的圖像到圖像轉(zhuǎn)換模型,可以使用單個(gè)網(wǎng)絡(luò)從多個(gè)域中學(xué)習(xí):
生成器不是學(xué)習(xí)固定的轉(zhuǎn)換(例如,年輕到年老),而是接收?qǐng)D像和域信息作為輸入,以在相應(yīng)的域中生成圖像
提供域信息作為標(biāo)簽(例如,二進(jìn)制或one-hot矢量)
StarGAN還可以從包含不同類型標(biāo)簽的多個(gè)數(shù)據(jù)集中學(xué)習(xí):
例如,作者展示了如何使用具有頭發(fā)顏色,性別和年齡等屬性的CelebA數(shù)據(jù)集,以及具有與面部表情相對(duì)應(yīng)的標(biāo)簽的RaFD數(shù)據(jù)集來(lái)訓(xùn)練模型
將mask向量添加到域標(biāo)簽后,生成器會(huì)學(xué)著忽略未知標(biāo)簽,并專注于明確給定的標(biāo)簽
關(guān)鍵成就
定性和定量評(píng)估表明,StarGAN在面部屬性轉(zhuǎn)移和面部表情綜合方面優(yōu)于基準(zhǔn)模型:
在更復(fù)雜的多屬性傳輸任務(wù)中,優(yōu)勢(shì)尤為明顯,這反映了StarGAN處理具有多個(gè)屬性更改的圖像轉(zhuǎn)換的能力
由于多任務(wù)學(xué)習(xí)的隱含數(shù)據(jù)增強(qiáng)效果,StarGAN還可以生成更具視覺(jué)吸引力的圖像
社區(qū)評(píng)價(jià)
該研究論文在計(jì)算機(jī)視覺(jué)的重要會(huì)議CVPR 2018 oral上被接受。
未來(lái)的研究領(lǐng)域
探索進(jìn)一步改善生成圖像的視覺(jué)質(zhì)量的方法。
可能的商業(yè)應(yīng)用
圖像到圖像轉(zhuǎn)換可以降低用于廣告和電子商務(wù)用途的媒體創(chuàng)意的成本。
源碼
https://github.com/yunjey/stargan
2. ATTNGAN
用細(xì)致的文字生成圖像,作者TAO XU, PENGCHUAN ZHANG, QIUYUAN HUANG, HAN ZHANG, ZHE GAN, XIAOLEI HUANG, XIAODONG HE。論文地址:
https://arxiv.org/abs/1711.10485
論文摘要
在論文中,我們提出了一種Attentional生成對(duì)抗網(wǎng)絡(luò)(AttnGAN)。它允許注意力驅(qū)動(dòng)的多階段細(xì)化,以實(shí)現(xiàn)細(xì)粒度粒度的文本到圖像的生成。
通過(guò)新穎的注意力生成網(wǎng)絡(luò),AttnGAN可以通過(guò)關(guān)注自然語(yǔ)言描述中的相關(guān)單詞,來(lái)合成圖像的不同子區(qū)域的細(xì)粒度細(xì)節(jié)。此外,提出了一種深度attentional多模態(tài)相似度模型,來(lái)計(jì)算用于訓(xùn)練生成器的細(xì)粒度圖像文本匹配損失。
AttnGAN明顯優(yōu)于當(dāng)前最先進(jìn)的技術(shù)水平,在CUB數(shù)據(jù)集上提升了14.14%的最佳報(bào)告得分,在更具挑戰(zhàn)性的COCO數(shù)據(jù)集上得到170.25%的提升。同時(shí)還通過(guò)可視化AttnGAN的注意力層來(lái)執(zhí)行詳細(xì)分析。它首次表明分層注意力GAN能夠自動(dòng)選擇單詞級(jí)別的條件,以生成圖像的不同部分。
核心理念
可以通過(guò)多階(例如,單詞級(jí)和句子級(jí))調(diào)節(jié)來(lái)實(shí)現(xiàn)細(xì)粒度的高質(zhì)量圖像生成。因此,研究人員提出了一種體系結(jié)構(gòu),其中生成網(wǎng)絡(luò)通過(guò)這些子區(qū)域最相關(guān)的單詞來(lái)繪制圖像。
Attentional Generative AdversarialNetwork有兩個(gè)新穎的組件:Attentional generative network和深度Attentional多模態(tài)相似度模型(DAMSM)。
Attentional generative network包括以下2個(gè)方面
利用全局句子向量在第一階段生成低分辨率圖像
將區(qū)域圖像矢量與對(duì)應(yīng)的詞語(yǔ)上下文矢量組合以在周圍子區(qū)域中生成新的圖像特征
而深度Attentional多模態(tài)相似度模型(DAMSM),用于計(jì)算生成的圖像和文本描述之間的相似性,為訓(xùn)練生成器提供額外的細(xì)粒度圖文匹配損失。
關(guān)鍵成就
CUB數(shù)據(jù)集上提升了14.14%的最佳報(bào)告得分
COCO數(shù)據(jù)集提升了170.25%
證明分層條件GAN能夠自動(dòng)關(guān)注相關(guān)單詞以形成圖像生成的正確條件
社區(qū)評(píng)價(jià)
該論文在計(jì)算機(jī)視覺(jué)的重要會(huì)議2018年CVPR上發(fā)表。
未來(lái)的研究領(lǐng)域
探索使模型更好地捕獲全局相干結(jié)構(gòu)的方法;增加生成圖像的照片真實(shí)感。
可能的商業(yè)應(yīng)用
根據(jù)文本描述自動(dòng)生成圖像,可以提高計(jì)算機(jī)輔助設(shè)計(jì)和藝術(shù)品的生產(chǎn)效率。
源碼
GitHub上提供了AttnGAN的PyTorch實(shí)現(xiàn)。
3. 通過(guò)條件生成式GAN獲得高分辨率圖像合成及語(yǔ)義操作
作者TING-CHUN WANG, MING-YU LIU, JUN-YAN ZHU, ANDREW TAO, JAN KAUTZ, BRYAN CATANZARO。論文地址:
https://arxiv.org/abs/1711.11585
論文摘要
Conditional GAN已有很多應(yīng)用案例,但通常僅限于低分辨率圖像,且遠(yuǎn)未達(dá)到以假亂真的地步。NVIDIA引入了一個(gè)新的方法,可以從語(yǔ)義標(biāo)簽貼圖中合成高分辨率(2048×1024)、照片級(jí)的逼真圖像。
他們的方法基于新的強(qiáng)大對(duì)抗性學(xué)習(xí)目標(biāo),以及新的多尺度生成器和鑒別器架構(gòu)。這種新方法在語(yǔ)義分割和照片真實(shí)性的準(zhǔn)確性方面,總體上優(yōu)于以前的方法。此外,研究人員還擴(kuò)展其框架以支持交互式語(yǔ)義操作,合并了對(duì)象實(shí)例分割信息,似的它可以實(shí)現(xiàn)對(duì)象操作,例如更改對(duì)象類別、添加/刪除對(duì)象或更改對(duì)象的顏色和紋理。
人類裁判經(jīng)過(guò)肉眼比對(duì)后表示,此方法明顯優(yōu)于現(xiàn)有方法。
核心理念
稱為pix2pixHD(基于pix2pix方法)的新框架合成高分辨率圖像,有幾處改進(jìn):
coarse-to-fine(由粗糙到細(xì)粒度)生成器:訓(xùn)練全局生成器以1024×512的分辨率合成圖像,然后訓(xùn)練局部增強(qiáng)器以提高分辨率
多尺度鑒別器:使用3個(gè)不同圖像尺度的鑒別器
改進(jìn)的對(duì)抗性損失:基于鑒別器結(jié)合特征匹配損失
該框架還允許交互式對(duì)象編輯,這要?dú)w功于添加額外的低維特征通道作為生成器網(wǎng)絡(luò)的輸入。
關(guān)鍵成就
引入的pix2pixHD方法在以下方面的表現(xiàn)優(yōu)于最先進(jìn)的方法:
語(yǔ)義分割的逐像素精度,得分為83.78(來(lái)自pix2pix基準(zhǔn)的5.44,僅比原始圖像的精度低0.51個(gè)點(diǎn))
人工評(píng)估員可以在任意數(shù)據(jù)集和任意時(shí)間設(shè)置(無(wú)限時(shí)間和有限時(shí)間)上進(jìn)行的成對(duì)比較
社區(qū)評(píng)價(jià)
在計(jì)算機(jī)視覺(jué)的重要會(huì)議CVPR 2018上 Oral上,深度學(xué)習(xí)研究員Denny Britz對(duì)此評(píng)價(jià):“這些GAN結(jié)果令人印象深刻。 如果你現(xiàn)在正在用Photoshop修圖來(lái)謀生,那么可能是時(shí)候另謀出路了?!?/p>
可能的商業(yè)應(yīng)用
該方法為更高級(jí)別的圖像編輯提供了新工具,例如添加/刪除對(duì)象或更改現(xiàn)有對(duì)象的外觀??梢杂迷谛迗D工具中,或者創(chuàng)建新的修圖工具。
源碼
https://github.com/NVIDIA/pix2pixHD
4. 高強(qiáng)度自然圖像合成的大型GAN訓(xùn)練
作者ANDREW BROCK,JEFF DONAHUE和KAREN SIMONYAN,論文地址:
https://arxiv.org/abs/1809.11096
論文摘要
DeepMind團(tuán)隊(duì)發(fā)現(xiàn),盡管最近在生成圖像建模方面取得了進(jìn)展,但是從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。
經(jīng)過(guò)對(duì)GAN進(jìn)行了最大規(guī)模的訓(xùn)練嘗試,并研究了這種規(guī)模特有的不穩(wěn)定性后,發(fā)現(xiàn)將正交正則化應(yīng)用于生成器可以使得它適合于簡(jiǎn)單的“截?cái)嗉记伞?,允許通過(guò)截?cái)酀撛诳臻g來(lái)精確控制樣本保真度和變化之間的權(quán)衡。
這樣的改動(dòng)導(dǎo)致模型在類條件圖像合成中達(dá)到了新的技術(shù)高度,當(dāng)在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練時(shí),模型(BigGAN)的Inception Score(IS)達(dá)到了166.3;Frechet Inception Distance(FID)為9.6。而之前的最佳IS為52.52,F(xiàn)ID為18.65。
該論文表明,如果GAN以非常大的規(guī)模進(jìn)行訓(xùn)練,例如用兩倍到四倍的參數(shù)和八倍于之前的批量大小,就可以生成看起來(lái)非常逼真的圖像。這些大規(guī)模的GAN(即BigGAN)是類條件圖像合成中最先進(jìn)的新技術(shù)。
核心理念
隨著批量大小和參數(shù)數(shù)量的增加,GAN的性能在提升
將正交正則化應(yīng)用于生成器使得模型響應(yīng)于特定技術(shù)(“截?cái)嗉记伞保?,通過(guò)這種方式提供對(duì)樣本保真度和變化之間的權(quán)衡的控制
關(guān)鍵成就
證明GAN可以通過(guò)增加數(shù)據(jù)量來(lái)獲得更好的收益
構(gòu)建模型,允許對(duì)樣本種類和保真度之間的權(quán)衡進(jìn)行明確的、細(xì)粒度的控制
發(fā)現(xiàn)大規(guī)模GAN的不穩(wěn)定性并根據(jù)經(jīng)驗(yàn)進(jìn)行表征
在ImageNet上以128×128分辨率訓(xùn)練的BigGAN實(shí)現(xiàn)
Inception Score(IS)為166.3,之前的最佳IS為52.52
FrechetInception Distance(FID)為9.6,之前的最佳FID為18.65
社區(qū)評(píng)價(jià)
該文件正在被評(píng)審是否錄取為下一屆ICLR 2019。
在BigGAN發(fā)生器登上TF Hub后,來(lái)自世界各地的AI研究人員用BigGAN來(lái)生成狗,手表,比基尼圖像,蒙娜麗莎,海濱等等,玩的不亦樂(lè)乎
未來(lái)的研究領(lǐng)域
遷移到更大的數(shù)據(jù)集以緩解GAN穩(wěn)定性問(wèn)題
探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性
可能的商業(yè)應(yīng)用
替代廣告和電商成本較高的手動(dòng)媒體創(chuàng)建。
源碼
https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb
https://github.com/AaronLeong/BigGAN-pytorch
5.基于風(fēng)格的生成器網(wǎng)絡(luò)的生成器架構(gòu)
作者TERO KARRAS,SAMULI LAINE,TIMO AILA,論文地址:
https://arxiv.org/abs/1812.04948
論文摘要
NVIDIA團(tuán)隊(duì)推出了一種新的生成器架構(gòu)StyleGAN,借鑒了風(fēng)格轉(zhuǎn)移文獻(xiàn)。在這項(xiàng)研究中,他們解決了對(duì)傳統(tǒng)GAN架構(gòu)生成的圖像進(jìn)行非常有限的控制的問(wèn)題。
StyleGAN中的生成器自動(dòng)學(xué)習(xí)分離圖像的不同方面,而無(wú)需任何人為監(jiān)督,從而可以多種不同方式組合這些方面。例如,我們可以從一個(gè)人那里獲取性別,年齡,頭發(fā)長(zhǎng)度,眼鏡和姿勢(shì),而從另一個(gè)人那里獲取所有其他方面。由此產(chǎn)生的圖像在質(zhì)量和真實(shí)性方面優(yōu)于先前的技術(shù)水平。
核心理念
StyleGAN基于漸進(jìn)式GAN設(shè)置,其中假定網(wǎng)絡(luò)的每個(gè)層控制圖像的不同視覺(jué)特征,層越低,其影響的特征越粗糙:
對(duì)應(yīng)于粗糙空間分辨率(4×4 - 8×8)的層使得能夠控制姿勢(shì)、一般發(fā)型、面部形狀等
中間層(16×16 - 32×32)影響較小規(guī)模的面部特征,如發(fā)型、睜眼/閉眼等
細(xì)粒度分辨率(64×64 - 1024×1024)的層主要帶來(lái)顏色方案和微結(jié)構(gòu)
受風(fēng)格轉(zhuǎn)移文獻(xiàn)的推動(dòng),NVIDIA團(tuán)隊(duì)引入了一種生成器架構(gòu),可以通過(guò)新穎的方式控制圖像合成過(guò)程
省略輸入層并從學(xué)習(xí)的常量開(kāi)始
在每個(gè)卷積層調(diào)整圖像“樣式”,允許直接控制不同尺度的圖像特征的強(qiáng)度
在每個(gè)卷積之后添加高斯噪聲以生成隨機(jī)細(xì)節(jié)
關(guān)鍵成就
在CelebA-HQ數(shù)據(jù)集上得到5.06的Frèchet inception distance(FID)得分,在Flickr-Faces-HQ數(shù)據(jù)集上獲得4,40得分
呈現(xiàn)人臉Flickr-Faces-HQ的新數(shù)據(jù)集,其具有比現(xiàn)有高分辨率數(shù)據(jù)集更高的圖像質(zhì)量和更寬的變化
社區(qū)評(píng)價(jià)
Uber的軟件工程師Philip Wang創(chuàng)建了一個(gè)網(wǎng)站
thispersondoesnotexist.com
可以在其中找到使用StyleGAN生成的面孔。這個(gè)網(wǎng)站形成了病毒式傳播
未來(lái)的研究領(lǐng)域
探索在訓(xùn)練過(guò)程中直接塑造中間潛在空間的方法
可能的商業(yè)應(yīng)用
由于StyleGAN方法的靈活性和高質(zhì)量的圖像,它可以替代廣告和電子商務(wù)中昂貴的手工媒體創(chuàng)作。
-
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40931 -
GaN
+關(guān)注
關(guān)注
19文章
2140瀏覽量
75849 -
生成器
+關(guān)注
關(guān)注
7文章
322瀏覽量
21575
原文標(biāo)題:5個(gè)最新圖像合成GAN架構(gòu)解讀:核心理念、關(guān)鍵成就、商業(yè)化路徑
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
功率GaN的新趨勢(shì):GaN BDS
處理合成孔徑雷達(dá)圖像的極坐標(biāo)算法基礎(chǔ)
CERNEX窄帶高功率放大器(GaN)
DS878?數(shù)字合成器適合哪些應(yīng)用場(chǎng)景?
豐田合成開(kāi)發(fā)出8英寸GaN單晶晶圓
#新年新氣象,大家新年快樂(lè)!#AIGC入門(mén)及鴻蒙入門(mén)
AIGC入門(mén)及鴻蒙入門(mén)
使用用于GaN的LMG1210EVM-012 300V半橋驅(qū)動(dòng)器

GaN可靠性測(cè)試新突破:廣電計(jì)量推出高壓性能評(píng)估方案

評(píng)論