生成對抗網(wǎng)絡(luò)GANs自從誕生以來就得到了各界的廣泛關(guān)注,在圖像領(lǐng)域的發(fā)展成果更是目不暇接,飛速的發(fā)展讓人眼花繚亂。但我們從另一個(gè)角度來審視GAN會(huì)發(fā)現(xiàn)這一領(lǐng)域還有很多問題沒有公認(rèn)的理解,例如對如何評價(jià)GANs的表現(xiàn)人們還沒有達(dá)成共識(shí)。
最近,來自Google Brain的研究人員就GANs目前的研究狀況進(jìn)行了詳細(xì)深入的梳理,提出了GANs領(lǐng)域值得深入研究的七個(gè)問題,讓我們得以窺視GANs未來的發(fā)展走向。
一、GANs與其他生成模型間的利弊權(quán)衡
除了GANs外,目前還包括流模型FlowModels和自動(dòng)回歸模型AutoregressiveModels兩種主要的生成模型。簡單來說,流模型主要講一系列不可逆的變化轉(zhuǎn)換為從先驗(yàn)中的采樣,使模型可以計(jì)算精確的對數(shù)似然,而自回歸模型則將觀測的分布分解到了條件分布上,一次觀測只處理其中的一個(gè)(對于圖像來說,一次處理一個(gè)像素)。
最近的研究表明這幾種模型有著不同的表現(xiàn)特點(diǎn)和平衡方式,對這些平衡的特點(diǎn)及模型的內(nèi)稟屬性進(jìn)行精確的研究是十分有意義的方向。下面將從計(jì)算量上來分析模型間的差異。流模型可以計(jì)算出精確的對數(shù)似然和推理,看起來會(huì)讓GANs沒有用武之地。訓(xùn)練GANs是一項(xiàng)復(fù)雜的工作,需要很大的努力,F(xiàn)low模型的出現(xiàn)讓我們不禁擔(dān)心起GANs的發(fā)展,也許在訓(xùn)練中加入最大似然是不錯(cuò)的方法。
但計(jì)算量成為了一個(gè)無法回避的問題。對于流模型的代表Glow來說,訓(xùn)練一張256*256的圖像生成器需要40個(gè)GPU耗時(shí)兩個(gè)星期訓(xùn)練200M參數(shù),而GANs訓(xùn)練1024*1024的生成器只需要在8GPU上用4天時(shí)間訓(xùn)練46M參數(shù)。這意味著流模型需要用17倍的時(shí)間才能訓(xùn)練出生成1/16大小的圖像。那么是什么造成了流模型的低效呢?研究人員認(rèn)為有兩個(gè)主要的原因,其一是極大似然估計(jì)比對抗樣本的訓(xùn)練更為復(fù)雜。
如果樣本中的元素被模型設(shè)置了0概率,那么懲罰將會(huì)變成無窮大!而GANs則通過間接的方式設(shè)置0概率,懲罰將會(huì)緩和的多。另一個(gè)方法來自于歸一化流(normalizedflows),研究人員認(rèn)為這是對于特定函數(shù)的一種低效表達(dá),但目前對于這一領(lǐng)域還沒有深入的研究。討論完流模型后我們再來看看自回歸模型。
有研究表明自回歸模型可以被表示為非并行化的流模型。從流模型中采樣必須是串行的過程,每次只能進(jìn)行一次觀測。同時(shí)也有研究表明,自回歸模型比流模型具有更高的運(yùn)行和參數(shù)效率。綜上所述,GANs是并行高效的計(jì)算模型,但是不具有回溯性;流模型具有回溯性和并行性,但是效率很低;自回歸模型雖然高效和回溯,但卻無法并行化處理。
到這里我們可以進(jìn)一步總結(jié)第一個(gè)問題:
GANs和其他生成模型間最基本的trade-offs到底是什么?
我們能不能在這個(gè)領(lǐng)域建立起類似CAP利用的方法來描述可逆性、并行性和參數(shù)/時(shí)間效率呢?
其中一個(gè)可能的方向是研究更多的混合模型,但混合的流模型/GAN模型目前的研究還很少。研究人員認(rèn)為極大似然訓(xùn)練比GAN訓(xùn)練更為困難,流模型參數(shù)的表達(dá)能力很很可能比任意編碼器函數(shù)低,但需要一定的假設(shè)來進(jìn)行證明。
二、GANs可以為什么樣的分布建模呢?
目前絕大多數(shù)的GANs集中在圖像領(lǐng)域,研究人員們常常在MNIST,CIFAR-10,STL-10,CelebA,和Imagenet上進(jìn)行訓(xùn)練。通常來講,MNIST和CelebA上的訓(xùn)練比Imagenet,CIFAR-10,STL-10上的訓(xùn)練更為容易,很多人都注意到類別數(shù)的上升是GANs難以訓(xùn)練ImageNet的原因。這也使得先進(jìn)的網(wǎng)絡(luò)在CelebA上的生成結(jié)果比ImageNet上的結(jié)果更。然而我們需要對這些在大數(shù)據(jù)集上訓(xùn)練所觀察到的結(jié)果進(jìn)行科學(xué)的解釋,研究人員希望在未來能夠有一定的理論和標(biāo)準(zhǔn)來判斷一個(gè)數(shù)據(jù)集是否適合用GANs訓(xùn)練。這一領(lǐng)域的研究已經(jīng)開始,但未來還有廣泛的發(fā)展空間。所以我們可以將第二個(gè)問題表示為下面的陳述:
對于給定數(shù)據(jù)集,我們可以給出用GANs構(gòu)建其分布的難以程度嗎?
那么一系列新的問題隨之而來:為分布建模的定義是什么?我們需要的是一個(gè)下界表示還是真實(shí)的稠密模型?是不是存在GANs無法建模的分布?是不是存在一些可以學(xué)習(xí)但建模效率很低的分布?針對上述問題的答案,與其他生成模型相比GANs是不是具有獨(dú)特的性質(zhì)?針對上述問題,研究人員提出了兩個(gè)策略:1.合成數(shù)據(jù)集??梢酝ㄟ^對合成數(shù)據(jù)集的研究探索影響可學(xué)習(xí)性的因素;2.改進(jìn)現(xiàn)有的理論結(jié)果??梢孕薷默F(xiàn)有理論的假設(shè)來對數(shù)據(jù)集的不同特性進(jìn)行研究,例如我們可以觀察GANs對于單模數(shù)據(jù)和多模數(shù)據(jù)的表現(xiàn)差異來進(jìn)行探索。
三、GANs如何實(shí)現(xiàn)超越圖像合成的廣泛應(yīng)用?
除了圖像和合成、風(fēng)格遷移等域適應(yīng)的應(yīng)用,在圖像領(lǐng)域外GANs的應(yīng)用主要集中于以下三個(gè)方面:1.文本。文字天然的離散特性對于GANs的處理來說十分困難,這主要由于GANs的訓(xùn)練需要將判別器的信號輸入生成器進(jìn)行反向傳播。目前主要有兩種方法來解決這一問題,一方面將GANs應(yīng)用于離散數(shù)據(jù)的連續(xù)表達(dá)上,另一方面則利用實(shí)際的離散模型基于梯度估計(jì)來訓(xùn)練GAN,但目前這些方法的表現(xiàn)都還低于基于似然的語言模型。2.結(jié)構(gòu)化數(shù)據(jù)。那么對于像圖這類非歐式的結(jié)構(gòu)化數(shù)據(jù)該如何應(yīng)用GANs呢?雖然像圖卷積等模型已經(jīng)取得了一定的成績,但GANs在這方面的探索十分有限,目前研究人員正嘗試?yán)蒙善鞯玫诫S機(jī)游走來重組來自原始圖中的結(jié)構(gòu)化信息。3.音頻。GANs在音頻領(lǐng)域很有希望獲得與圖像領(lǐng)域一樣的成功,在非監(jiān)督音頻合成等方面取得了一系列結(jié)果。最新的研究甚至可以在某些感知指標(biāo)上超過自動(dòng)回歸模型的表現(xiàn)。那么對于在非圖像數(shù)據(jù)上的第三個(gè)問題就歸結(jié)為下面的表述:
如何使GANs在非圖像數(shù)據(jù)上取得良好的結(jié)果?將GANs用于這些不同的域上是否需要新的訓(xùn)練技術(shù)、或者更為完善的先驗(yàn)?zāi)兀?/p>
我們需要思考怎樣才能讓GANs在這些域中實(shí)現(xiàn)有效的訓(xùn)練和學(xué)習(xí)。特別對于離散的結(jié)構(gòu)化數(shù)據(jù)來說,未來也許會(huì)引入強(qiáng)化學(xué)習(xí)對生成器和判別器進(jìn)行訓(xùn)練,這需要強(qiáng)大計(jì)算資源的支撐和基礎(chǔ)研究的幫助。
四、GANs在訓(xùn)練中的全局收斂性是怎樣的?
GANs的訓(xùn)練的特殊性在于我們需要同時(shí)優(yōu)化生成器和判別器,目前的論文在嚴(yán)格的假設(shè)下已經(jīng)證明同時(shí)優(yōu)化時(shí)局域漸進(jìn)穩(wěn)定的。但我們卻難以證明訓(xùn)練過程具有全局的通用性。這主要是由于生成器/判別器的損失是參數(shù)的非凸函數(shù),那么問題來了:
我們?nèi)绾尾拍茏C明GANs是全局收斂的?哪一種神經(jīng)網(wǎng)絡(luò)的收斂結(jié)果可以應(yīng)用于GANs上呢?
目前有三個(gè)方面的探索在致力于解決這一問題:1.簡化假設(shè)。例如可以使用LGQGAN來簡化假設(shè),利用線性生成器、高斯分布的數(shù)據(jù)和二次判別器的假設(shè),可以利用特殊的優(yōu)化技術(shù)得到全局收斂的證明;2.利用歸一化神經(jīng)網(wǎng)絡(luò)。當(dāng)網(wǎng)絡(luò)變大時(shí)低質(zhì)量的局域極小值出現(xiàn)的可能將會(huì)指數(shù)下降,這種特性也許對GANs同樣有效;3.博弈論 。利用納什均衡等理論來解決全局收斂性的問題。
五、如何評測GANs?
目前在GANs中流行的評價(jià)指標(biāo)主要包括感知分?jǐn)?shù)(IS)和弗雷歇感知距離(FID)、多層級結(jié)構(gòu)相似性(MS-SSIM),幾何評分(GeometryScore),精度和召回率(PrecisionandRecall),AIS和SkillRating等。目前廣泛采用的是感知類指標(biāo),但人們對于GANs評價(jià)更多的疑惑卻也同時(shí)來自于合適該使用GAN,那么第五個(gè)問題就將這一疑問歸結(jié)為:
何時(shí)我們該使用GANs?我們該如何評測GANs在這些任務(wù)上的表現(xiàn)?
我們應(yīng)該明確使用GANs的目的,如果你想得到真實(shí)的稠密模型GANs并不是一個(gè)很好的選擇.GANs適用于感知偏好的任務(wù),例如圖像合成、風(fēng)格遷移等都是GANs可以大展身手的場景。對于感知任務(wù),目前主要使用分類器(C2STs)來進(jìn)行評測,但生成器的缺陷會(huì)對評價(jià)造成系統(tǒng)性的影響。一種不依賴于單因素的全局評價(jià)方法是未來的發(fā)展方向。最后,人類評價(jià)雖然昂貴但是必不可少的。未來可能會(huì)通過預(yù)測人類的感知情況來代替評價(jià),但出現(xiàn)較大不確定度時(shí)才需要人類的介入。
六、如何使用較大的批次訓(xùn)練GANs呢?
提升分類網(wǎng)絡(luò)訓(xùn)練速度的大規(guī)模minibatches是否能加速GANs的訓(xùn)練呢?但GANs中存在一系列會(huì)導(dǎo)致訓(xùn)練發(fā)散的瓶頸,使得提高批量大小的方法并不容易達(dá)到,我們需要探索下面的問題:
如何通過批量大小提升GANs的訓(xùn)練效率?梯度噪聲在GANs訓(xùn)練中扮演著多重要的角色?是否可以對GANs進(jìn)行一系列改進(jìn)來適應(yīng)更大的批大小呢?
有跡象表明增加批大小可以改善結(jié)果并減少訓(xùn)練時(shí)間,但還缺乏系統(tǒng)的研究。研究人員目前從優(yōu)化輸運(yùn)GANs和異步SGD等方面探索了增大批的可能性,但這個(gè)方向仍然有很多的問題等待我們?nèi)ヌ剿鳌?/p>
七、GANs和對抗樣本的關(guān)系如何?
眾所周知分類器很容易受到對抗樣本的影響,魯棒性不強(qiáng)??紤]到判別器通常也基于圖像分類器而構(gòu)建,針對GANs的對抗樣本研究具有重要的意義,但關(guān)注GANs與對抗樣本間關(guān)系的文章卻很少,所以最后一個(gè)問題就是:
判別器的對抗魯棒性如何影響GAN的訓(xùn)練過程?
我們可以假設(shè)存在一個(gè)固定的判別器D,存在這樣一個(gè)生成樣本G(z),判別器判別G(z)為假但卻將加了擾動(dòng)的生成樣本G(z)+p判定為真。我們似乎可以更新生成器來獲得更魯棒的結(jié)果G’=G(z)+p.但由于每次訓(xùn)練梯度只能進(jìn)行一次更新、同時(shí)每個(gè)批次各不相同,這樣的方法在現(xiàn)實(shí)中不太可能存在。但如果可以尋找到一種方式研究這一相關(guān)性并提升模型的精度與穩(wěn)定性將是充滿前景的研究方向!GANs是AI研究中最為前沿和活躍的領(lǐng)域之一,這篇文章從生成對抗的本質(zhì)、數(shù)據(jù)、收斂、應(yīng)用和評測等方面給出了一系列尚未解決的問題,這些存在問題和挑戰(zhàn)的地方也是未來將發(fā)展的前進(jìn)的方向,希望這些問題和方向能夠啟發(fā)各位小伙伴研究的新思路。
-
GaN
+關(guān)注
關(guān)注
19文章
2209瀏覽量
76831 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50440 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25457
原文標(biāo)題:七問生成對抗:谷歌大腦研究員提出未來GANs研究的七個(gè)深入方向
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
微控制器的七個(gè)串行接口

評論