一区二区三区视频,自拍偷拍视频亚洲

當(dāng)前生成圖像最逼真的BigGAN被超越了!

出手的，是谷歌大腦和蘇黎世聯(lián)邦理工學(xué)院。他們提出了新一代GAN：S3GAN。

它們生成的照片，都是真假難辨。

下面這兩只蝴蝶，哪只更生動(dòng)?

兩張風(fēng)景照片，哪張更真實(shí)?

難以抉擇也正常，反正都是假的。上面的照騙，都是左邊出自S3GAN，右邊的出自BigGAN之手。

它們還有更多作品：

至于哪些是S3GAN，答案文末揭曉。

肉眼難分高下，就用數(shù)據(jù)說話。跑個(gè)FID(Frechet Inception Distance)得分，分值越低，就表示這些照騙，越接近人類認(rèn)識里的真實(shí)照片——

S3GAN是8.0分，而BigGAN是8.4分。新選手略微勝出。

你可還記得BigGAN問世之初，直接將圖像生成的逼真度提高了一個(gè)Level，引來Twitter上花樣贊賞?

如今它不止被超越，而且是被輕松超越。

“輕松”在哪呢?

S3GAN達(dá)到這么好的效果，只用了10%的人工標(biāo)注數(shù)據(jù)。而老前輩BigGAN，訓(xùn)練所用的數(shù)據(jù)100%是人工標(biāo)注過的。

如果用上20%的標(biāo)注數(shù)據(jù)，S3GAN的效果又會(huì)更上一層樓。

標(biāo)注數(shù)據(jù)的缺乏，已經(jīng)是幫GAN提高生成能力，拓展使用場景的一大瓶頸。如今，這個(gè)瓶頸已經(jīng)幾乎被打破。

現(xiàn)在的S3GAN，只經(jīng)過了ImageNet的實(shí)驗(yàn)，是實(shí)現(xiàn)用更少標(biāo)注數(shù)據(jù)訓(xùn)練生成高保真圖像的第一步。

接下來，作者們想要把這種技術(shù)應(yīng)用到“更大”和“更多樣化”的數(shù)據(jù)集中。

不用標(biāo)注那么多

為什么訓(xùn)練GAN生成圖像，需要大量數(shù)據(jù)標(biāo)注呢?

GAN有生成器、判別器兩大組件。

其中判別器要不停地識破假圖像，激勵(lì)生成器拿出更逼真的圖像。

而圖像的標(biāo)注，就是給判別器做判斷依據(jù)的。比如，這是真的貓，這是真的狗，這是真的漢堡……這是假圖。

可是，沒有那么多標(biāo)注數(shù)據(jù)怎么辦?

谷歌和ETH蘇黎世的研究人員，決定訓(xùn)練AI自己標(biāo)注圖像，給判別器食用。

自監(jiān)督 vs 半監(jiān)督

要讓判別器自己標(biāo)注圖像，有兩種方法。

一是自監(jiān)督方法，就是給判別器加一個(gè)特征提取器 (Feature Extractor) ，從沒有標(biāo)注的真實(shí)訓(xùn)練數(shù)據(jù)里面，學(xué)到它們的表征 (Feature Representation) 。

對這個(gè)表征做聚類 (Clustering) ，然后把聚類的分配結(jié)果，當(dāng)成標(biāo)注來用。

這里的訓(xùn)練，用的是自監(jiān)督損失函數(shù)。

二是半監(jiān)督方法，也要做特征提取器，但比上一種方法復(fù)雜一點(diǎn)點(diǎn)。

在訓(xùn)練集的一個(gè)子集已經(jīng)標(biāo)注過的情況下，根據(jù)這些已知信息來學(xué)習(xí)表征，同時(shí)訓(xùn)練一個(gè)線性分類器 (Linear Classifier) 。

這樣，損失函數(shù)會(huì)在自監(jiān)督的基礎(chǔ)上，再加一項(xiàng)半監(jiān)督的交叉熵?fù)p失 (Cross-Entropy Loss) 。

預(yù)訓(xùn)練了特征提取器，就可以拿去訓(xùn)練GAN了。這個(gè)用一小部分已知標(biāo)注養(yǎng)成的GAN，叫做S2GAN。

不過，預(yù)訓(xùn)練也不是唯一的方法。

想要雙管齊下，可以用協(xié)同訓(xùn)練 (Co-Training) ：

直接在判別器的表征上面，訓(xùn)練一個(gè)半監(jiān)督的線性分類器，用來預(yù)測沒有標(biāo)注的圖像。這個(gè)過程，和GAN的訓(xùn)練一同進(jìn)行。

這樣就有了S2GAN的協(xié)同版，叫S2GAN-CO。

升級一波

然后，團(tuán)隊(duì)還想讓S2GAN變得更強(qiáng)大，就在GAN訓(xùn)練的穩(wěn)定性上面花了心思。

研究人員說，判別器自己就是一個(gè)分類器嘛，如果把這個(gè)分類器擴(kuò)增 (Augmentation) 一下，可能療效上佳。

于是，他們給了分類器一個(gè)額外的自監(jiān)督任務(wù)，就是為旋轉(zhuǎn)擴(kuò)增過的訓(xùn)練集 (包括真圖和假圖) ，做個(gè)預(yù)測。

再把這個(gè)步驟，和前面的半監(jiān)督模型結(jié)合起來，GAN的訓(xùn)練變得更加穩(wěn)定，就有了升級版S3GAN：

架構(gòu)脫胎于BigGAN

不管是S2GAN還是S3GAN，都借用了前輩BigGAN的網(wǎng)絡(luò)架構(gòu)，用的優(yōu)化超參數(shù)也和前輩一樣。

不同的是，這個(gè)研究中，沒有使用正交正則化 (Orthogonal Regularization) ，也沒有使用截?cái)?(Truncation) 技巧。

△BigGAN的生成器和鑒別器架構(gòu)圖

訓(xùn)練的數(shù)據(jù)集，來自ImageNet，其中有130萬訓(xùn)練圖像和5萬測試圖像，圖像中共有1000個(gè)類別。

圖像尺寸被調(diào)整成了128×128×3，在每個(gè)類別中隨機(jī)選擇k%的樣本，來獲取半監(jiān)督方法中的使用的部分標(biāo)注數(shù)據(jù)集。

最后，在128核的Google TPU v3 Pod進(jìn)行訓(xùn)練。

超越BigGAN

研究對比的基線，是DeepMind的BigGAN，當(dāng)前記錄的保持者，F(xiàn)ID得分為7.4。

不過，他們在ImageNet上自己實(shí)現(xiàn)的BigGAN，F(xiàn)ID為8.4，IS為75，并以此作為了標(biāo)準(zhǔn)。

在這個(gè)圖表中，S2GAN是半監(jiān)督的預(yù)訓(xùn)練方法。S2GAN-CO是半監(jiān)督的協(xié)同訓(xùn)練方法。

S3GAN，是S2GAN加上一個(gè)自監(jiān)督的線性分類器 (把數(shù)據(jù)集旋轉(zhuǎn)擴(kuò)增之后再拿給它分類) 。

其中，效果最好的是S3GAN，只使用10%由人工標(biāo)注的數(shù)據(jù)，F(xiàn)ID得分達(dá)到8.0，IS得分為78.7，表現(xiàn)均優(yōu)于BigGAN。

如果你對這項(xiàng)研究感興趣，請收好傳送門：

論文：

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章開頭的這些照騙展示，就出自論文之中：

第一行是BigGAN作品，第二行是S3GAN新品，你猜對了嗎?

另外，他們還在GitHub上開源了論文中實(shí)驗(yàn)所用全部代碼：

https://github.com/google/compare_gan

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6231

瀏覽量
108103
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41237

原文標(biāo)題：史上最強(qiáng)GAN被谷歌超越！標(biāo)注數(shù)據(jù)少用90%，造假效果卻更逼真

文章出處：【微信號：WW_CGQJS，微信公眾號：傳感器技術(shù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

當(dāng)前生成圖像最逼真的BigGAN被谷歌超越!造假效果更為逼真

評論