婷婷色丁香伊人中文字幕,又粗又长么久久久久,久久亚州色区91

本文總結(jié)了2018年以來(lái)最重要的10篇計(jì)算機(jī)視覺(jué)/圖像生成相關(guān)的研究，包括許多新穎的架構(gòu)設(shè)計(jì)，圖像生成方面的突破等。

自從卷積神經(jīng)網(wǎng)絡(luò)在特定的圖像識(shí)別任務(wù)上開(kāi)始超越人類(lèi)以來(lái)，計(jì)算機(jī)視覺(jué)領(lǐng)域的研究一直在飛速發(fā)展。

CNN(或ConvNets)的基本架構(gòu)是在20世紀(jì)80年代開(kāi)發(fā)的。Yann LeCun在1989年通過(guò)使用反向傳播訓(xùn)練模型識(shí)別手寫(xiě)數(shù)字，改進(jìn)了最初的設(shè)計(jì)。

自那以后，這個(gè)領(lǐng)域取得了長(zhǎng)足的進(jìn)步。

在2018年，我們看到計(jì)算機(jī)視覺(jué)領(lǐng)域出現(xiàn)了許多新穎的架構(gòu)設(shè)計(jì)，這些設(shè)計(jì)改進(jìn)性能基準(zhǔn)，也擴(kuò)大了機(jī)器學(xué)習(xí)的模型可以分析的媒介范圍。

在圖像生成方面，我們也看到了一些突破，包括逼真的風(fēng)格轉(zhuǎn)換、高分辨率的圖像生成和視頻到視頻的合成。

我們?cè)诓痪们翱偨Y(jié)了2018年的頂級(jí)機(jī)器學(xué)習(xí)論文。由于計(jì)算機(jī)視覺(jué)和圖像生成對(duì)于AI應(yīng)用的重要性和普及性，本文中，我們總結(jié)了2018年最重要的10篇視覺(jué)相關(guān)的研究。

以下是我們精選的2018必讀計(jì)算機(jī)視覺(jué)論文Top 10：

Spherical CNNs

Adversarial Examples that Fool both Computer Vision and Time-Limited Humans

A Closed-form Solution to Photorealistic Image Stylization

Group Normalization

Taskonomy: Disentangling Task Transfer Learning

Self-Attention Generative Adversarial Networks

GANimation: Anatomically-aware Facial Animation from a Single Image

Video-to-Video Synthesis

Everybody Dance Now

Large Scale GAN Training for High Fidelity Natural Image Synthesis

1、球形CNN

標(biāo)題：Spherical CNNs

作者：Taco S. Cohen, Mario Geiger, Jonas Koehler, Max Welling

https://arxiv.org/abs/1801.10130

論文摘要

卷積神經(jīng)網(wǎng)絡(luò)（CNN）可以很好的處理二維平面圖像的問(wèn)題。然而，對(duì)球面圖像進(jìn)行處理需求日益增加。例如，對(duì)無(wú)人機(jī)、機(jī)器人、自動(dòng)駕駛汽車(chē)、分子回歸問(wèn)題、全球天氣和氣候模型的全方位視覺(jué)處理問(wèn)題。將球形信號(hào)的平面投影作為卷積神經(jīng)網(wǎng)絡(luò)的輸入的這種天真做法是注定要失敗的，因?yàn)檫@種投影引起的空間扭曲會(huì)導(dǎo)致CNN無(wú)法共享權(quán)重。

這篇論文介紹了球形CNN的基本構(gòu)建塊。我們提出了利用廣義傅里葉變換（FFT）進(jìn)行快速群卷積（互相關(guān)）的操作。我們證明了球形CNN在三維模型識(shí)別和分子能量回歸分析中的計(jì)算效率、數(shù)值精度和有效性。

概要總結(jié)

汽車(chē)、無(wú)人機(jī)和其他機(jī)器人使用的全向攝像機(jī)能夠捕捉到它們周?chē)h(huán)境的球形圖像。我們可以通過(guò)將這些球形信號(hào)投射到平面上并使用CNN來(lái)分析它們。然而，球形信號(hào)的任何平面投影都會(huì)導(dǎo)致失真。為了解決這個(gè)問(wèn)題，來(lái)自阿姆斯特丹大學(xué)的研究小組引入了球形CNN的理論，這種網(wǎng)絡(luò)可以分析球形圖像，而不會(huì)被扭曲所欺騙。該方法在3D形狀和球形MNIST圖像的分類(lèi)以及分子能量回歸分析(計(jì)算化學(xué)中的一個(gè)重要問(wèn)題)中都有很好的效果。

核心思想

球形信號(hào)的平面投影會(huì)導(dǎo)致嚴(yán)重的失真，因?yàn)橛行﹨^(qū)域看起來(lái)比實(shí)際面積大或小。

傳統(tǒng)的CNN對(duì)于球形圖像來(lái)說(shuō)是無(wú)效的，因?yàn)楫?dāng)物體在球體周?chē)苿?dòng)時(shí)，它們也會(huì)出現(xiàn)收縮和拉伸(試想一下，地圖上格陵蘭島看起來(lái)比它實(shí)際要大得多)。

解決方案是使用球形CNN，它對(duì)輸入數(shù)據(jù)中的球形旋轉(zhuǎn)具有穩(wěn)健性。球形神經(jīng)網(wǎng)絡(luò)通過(guò)保持輸入數(shù)據(jù)的原始形狀，平等地對(duì)待球面上的所有對(duì)象而不失真。

最重要的成果

提出了構(gòu)建球形CNN的數(shù)學(xué)框架。

提供了易于使用、快速且內(nèi)存高效的PyTorch代碼來(lái)實(shí)現(xiàn)這些CNN。

為球形CNN在旋轉(zhuǎn)不變學(xué)習(xí)問(wèn)題中的應(yīng)用提供了第一個(gè)經(jīng)驗(yàn)支持：

球形MNIST圖像的分類(lèi)

3D形狀分類(lèi)，

分子能量回歸分析。

AI社區(qū)的評(píng)價(jià)

這篇論文獲得了ICLR 2018年的最佳論文獎(jiǎng)，ICLR是一個(gè)領(lǐng)先的機(jī)器學(xué)習(xí)會(huì)議。

未來(lái)研究方向

為球體開(kāi)發(fā)一個(gè)可操縱的CNN來(lái)分析球體上向量束的截面(例如，風(fēng)向)。

將數(shù)學(xué)理論從2D球面擴(kuò)展到3D點(diǎn)云，用于在反射和旋轉(zhuǎn)下不變的分類(lèi)任務(wù)。

可能的應(yīng)用

能夠分析球面圖像的模型可以應(yīng)用于以下問(wèn)題：

無(wú)人機(jī)、機(jī)器人和自動(dòng)駕駛汽車(chē)的全向視覺(jué);

計(jì)算化學(xué)中的分子回歸問(wèn)題

全球天氣和氣候模型。

代碼

作者在GitHub上提供了這篇論文的原始實(shí)現(xiàn)：

https://github.com/jonas-koehler/s2cnn

2、同時(shí)愚弄視覺(jué)系統(tǒng)和人類(lèi)的對(duì)抗樣本

標(biāo)題：Adversarial Examples that Fool both Computer Vision and Time-Limited Humans

作者：Gamaleldin F. Elsayed, Shreya Shankar, Brian Cheung, Nicolas Papernot, Alex Kurakin, Ian Goodfellow, Jascha Sohl-Dickstein

https://arxiv.org/abs/1802.08195

論文摘要

機(jī)器學(xué)習(xí)模型很容易受到對(duì)抗性樣本(adversarial examples)的影響：圖像中的微小變化會(huì)導(dǎo)致計(jì)算機(jī)視覺(jué)模型出錯(cuò)，比如把一輛校車(chē)誤識(shí)別成鴕鳥(niǎo)。然而，人類(lèi)是否容易犯類(lèi)似的錯(cuò)誤，這仍然是一個(gè)懸而未決的問(wèn)題。在這篇論文中，我們通過(guò)利用最近的技術(shù)來(lái)解決這個(gè)問(wèn)題，這些技術(shù)可以將具有已知參數(shù)和架構(gòu)的計(jì)算機(jī)視覺(jué)模型轉(zhuǎn)換為具有未知參數(shù)和架構(gòu)的其他模型，并匹配人類(lèi)視覺(jué)系統(tǒng)的初始處理。我們發(fā)現(xiàn)，在計(jì)算機(jī)視覺(jué)模型之間強(qiáng)烈轉(zhuǎn)移的對(duì)抗性樣本會(huì)影響有時(shí)間限制的人類(lèi)觀察者做出的分類(lèi)。

概要總結(jié)

谷歌大腦的研究人員正在尋找這個(gè)問(wèn)題的答案：那些不是特定于模型的對(duì)抗樣本，并且可以在不訪問(wèn)模型的參數(shù)和架構(gòu)的情況下欺騙不同的計(jì)算機(jī)視覺(jué)模型，是否同時(shí)也可以欺騙有時(shí)間限制的人類(lèi)？他們利用機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)和心理物理學(xué)的關(guān)鍵思想，創(chuàng)造出對(duì)抗性樣本，這些樣本確實(shí)在時(shí)間有限的設(shè)置下影響人類(lèi)的感知。因此，這篇論文介紹了一種人類(lèi)和機(jī)器之間共享的錯(cuò)覺(jué)。

核心思想

在第一步中，研究人員使用黑盒對(duì)抗性樣本構(gòu)建技術(shù)，在不訪問(wèn)模型架構(gòu)或參數(shù)的情況下創(chuàng)建對(duì)抗性示例。

然后，他們調(diào)整計(jì)算機(jī)視覺(jué)模型來(lái)模擬人類(lèi)最初的視覺(jué)過(guò)程，包括：

在每個(gè)模型前面加上視網(wǎng)膜層，視網(wǎng)膜層對(duì)輸入進(jìn)行預(yù)處理，從而結(jié)合人眼執(zhí)行的一些轉(zhuǎn)換;

對(duì)圖像進(jìn)行偏心依賴(lài)的模糊處理，以接近受試者的視覺(jué)皮層通過(guò)其視網(wǎng)膜晶格接收到的輸入。

人類(lèi)的分類(lèi)決策在一個(gè)有時(shí)間限制的環(huán)境中進(jìn)行評(píng)估，以檢測(cè)人類(lèi)感知中的細(xì)微影響。

最重要的成果

表明在計(jì)算機(jī)視覺(jué)模型之間傳遞的對(duì)抗性樣本也成功地影響了人類(lèi)的感知。

證明了卷積神經(jīng)網(wǎng)絡(luò)與人類(lèi)視覺(jué)系統(tǒng)的相似性。

AI社區(qū)的評(píng)價(jià)

這篇論文在AI社區(qū)得到廣泛討論。盡管大多數(shù)研究人員對(duì)這些結(jié)果感到震驚，但一些人認(rèn)為，我們需要對(duì)對(duì)抗性圖像進(jìn)行更嚴(yán)格的定義，因?yàn)槿绻祟?lèi)將受到干擾的貓圖像歸類(lèi)為狗，那么它很可能已經(jīng)是狗，而不是貓了。

未來(lái)研究方向

研究哪些技術(shù)對(duì)于將對(duì)抗性樣本轉(zhuǎn)移到人類(lèi)身上是至關(guān)重要的(視網(wǎng)膜預(yù)處理，模型集成)。

可能的應(yīng)用

從業(yè)者應(yīng)該考慮這樣一種風(fēng)險(xiǎn)，即圖像可能被操縱，導(dǎo)致人類(lèi)觀察者產(chǎn)生不尋常的反應(yīng)，因?yàn)閷?duì)抗性樣本可能會(huì)在我們意識(shí)不到的情況下影響我們。

3、照片級(jí)逼真的圖像風(fēng)格化

標(biāo)題：A Closed-form Solution to Photorealistic Image Stylization

作者：Yijun Li, Ming-Yu Liu, Xueting Li, Ming-Hsuan Yang, Jan Kautz

https://arxiv.org/abs/1802.06474

論文摘要

照片級(jí)逼真的圖像風(fēng)格化涉及到將參考照片的風(fēng)格轉(zhuǎn)換為內(nèi)容照片，其約束條件是，經(jīng)過(guò)風(fēng)格化的照片應(yīng)保持照片級(jí)逼真程度。雖然存在多種逼真的圖像風(fēng)格化方法，但它們往往會(huì)產(chǎn)生具有明顯偽影的空間不一致。在這篇論文中，我們提出一種解決這些問(wèn)題的方法。

該方法由風(fēng)格化步驟(stylization step)和平滑步驟(smoothing step)組成。當(dāng)風(fēng)格化步驟將引用照片的樣式轉(zhuǎn)換為內(nèi)容照片時(shí)，平滑步驟確?？臻g上一致的樣式化。每個(gè)步驟都有一個(gè)封閉的解決方案，可以有效地計(jì)算。我們進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。結(jié)果表明，與其他方法相比，該方法生成的逼真風(fēng)格輸出更受受試者的青睞，同時(shí)運(yùn)行速度更快。源代碼和其他結(jié)果可在https://github.com/NVIDIA/FastPhotoStyle獲得。

概要總結(jié)

英偉達(dá)(NVIDIA)和加州大學(xué)默塞德分校的研究團(tuán)隊(duì)提出了一種新的解決照片級(jí)圖像風(fēng)格化的方法——FastPhotoStyle。該方法包括兩個(gè)步驟：風(fēng)格化和平滑化。大量的實(shí)驗(yàn)表明，該方法生成的圖像比以前的最先進(jìn)的方法更真實(shí)、更引人注目。更重要的是，由于采用封閉式的解決方案，F(xiàn)astPhotoStyle生成風(fēng)格化圖像的速度比傳統(tǒng)方法快49倍。

核心思想

照片級(jí)真實(shí)的圖像風(fēng)格化的目標(biāo)是在保持輸出圖像逼真的同時(shí)，將參考照片的風(fēng)格轉(zhuǎn)換為內(nèi)容照片。

任務(wù)分為風(fēng)格化和平滑化兩個(gè)步驟：

風(fēng)格化步驟是基于增白和著色變換(WCT)，通過(guò)特征投影處理圖像。然而，由于WCT是為藝術(shù)圖像的風(fēng)格化而開(kāi)發(fā)的，因此，它常常會(huì)生成用于照片級(jí)真實(shí)圖像風(fēng)格化的結(jié)構(gòu)構(gòu)件。為了解決這個(gè)問(wèn)題，本文引入了PhotoWCT方法，將WCT中的上采樣層替換為非池化層，從而保留了更多的空間信息。

平滑步驟用于解決第一步之后可能出現(xiàn)的空間不一致的樣式。平滑基于流形排序算法。

這兩個(gè)步驟都具有封閉形式的解決方案，這意味著可以通過(guò)固定數(shù)量的操作(即，卷積、最大池化、增白等)。因此，計(jì)算比傳統(tǒng)方法更有效。

最重要的成果

提出了一種新的圖像風(fēng)格化化方法：FastPhotoSyle，其中:

通過(guò)渲染更少的結(jié)構(gòu)偽影和不一致樣式，從而比藝術(shù)風(fēng)格化算法表現(xiàn)更好；

通過(guò)不僅合成風(fēng)格照片中色彩，而且合成風(fēng)格照片的圖案，從而優(yōu)于照片級(jí)真實(shí)的風(fēng)格化算法。

實(shí)驗(yàn)表明，在風(fēng)格化化效果(63.1%)和光真實(shí)感(73.5%)方面，用戶(hù)更喜歡FastPhotoSyle的結(jié)果，而不是之前的最先進(jìn)的技術(shù)。

FastPhotoSyle可以在13秒內(nèi)合成一張分辨率為1024 x 512的圖像，而之前最先進(jìn)的方法需要650秒才能完成相同的任務(wù)。

AI社區(qū)的評(píng)價(jià)

該論文在歐洲計(jì)算機(jī)視覺(jué)會(huì)議ECCV 2018上發(fā)表。

未來(lái)研究方向

找到一種從風(fēng)格照片遷移小圖案的方法，因?yàn)檫@篇論文提出的方法可以將它們平滑化。

探索進(jìn)一步減少風(fēng)格化照片中的結(jié)構(gòu)偽影數(shù)量的可能性。

可能的應(yīng)用

內(nèi)容創(chuàng)建者可以從照片級(jí)真實(shí)的圖像風(fēng)格化技術(shù)中獲得很大的好處，因?yàn)樵摷夹g(shù)基本上允許你根據(jù)適合的內(nèi)容自動(dòng)更改任何照片的風(fēng)格。

攝影師們也將受到這項(xiàng)技術(shù)的影響。

代碼

NVIDIA團(tuán)隊(duì)提供了該論文在GitHub上的原始實(shí)現(xiàn)：

https://github.com/NVIDIA/FastPhotoStyle

4、Group Normalization

標(biāo)題：Group Normalization

作者：吳育昕, 何愷明

https://arxiv.org/abs/1803.08494

論文摘要

批標(biāo)準(zhǔn)化(Batch Normalization, BN)是深度學(xué)習(xí)進(jìn)展中的一項(xiàng)里程碑式技術(shù)，它使各種網(wǎng)絡(luò)都能進(jìn)行訓(xùn)練。但是，沿batch dimension進(jìn)行標(biāo)準(zhǔn)化會(huì)帶來(lái)一些問(wèn)題——由于批統(tǒng)計(jì)估計(jì)不準(zhǔn)確，當(dāng)batch size變小時(shí)，BN的誤差會(huì)迅速增大。這限制了BN用于訓(xùn)練更大模型和將特征遷移到計(jì)算機(jī)視覺(jué)任務(wù)(包括檢測(cè)、分割和視頻)的用途，這些任務(wù)受內(nèi)存消耗限制，需要小的batch size。

在這篇論文中，我們提出了組標(biāo)準(zhǔn)化(Group Normalization ，GN)，作為BN的簡(jiǎn)單替代。GN將通道劃分為組，并在每個(gè)組內(nèi)計(jì)算均值和方差以進(jìn)行標(biāo)準(zhǔn)化。GN的計(jì)算獨(dú)立于batch sizes，在各種范圍的batch sizes精度穩(wěn)定。

在ImageNet上訓(xùn)練的ResNet-50，當(dāng)batch size 為2時(shí)，GN的誤差比BN小10.6%；在使用典型 batch size時(shí)，GN與BN一般好，并且優(yōu)于其他標(biāo)準(zhǔn)化變體。此外，GN可以很自然地從預(yù)訓(xùn)練過(guò)渡到 fine-tuning。GN在COCO的目標(biāo)檢測(cè)和分割任務(wù)，以及在Kinetics的視頻分類(lèi)任務(wù)中都優(yōu)于基于BN的同類(lèi)算法，這表明GN可以在各種任務(wù)中有效地替代強(qiáng)大的BN。GN可以通過(guò)現(xiàn)代庫(kù)中的幾行代碼輕松實(shí)現(xiàn)。

概要總結(jié)

Facebook AI研究團(tuán)隊(duì)建議使用Group Normalization (GN)代替Batch Normalization (BN)。這篇論文的作者是FAIR的吳育昕和何愷明，他們認(rèn)為，對(duì)于small batch sizes，BN的錯(cuò)誤會(huì)急劇增加。這限制了BN的使用，因?yàn)楫?dāng)使用大型模型來(lái)解決計(jì)算機(jī)視覺(jué)任務(wù)時(shí)，由于內(nèi)存限制而需要小的batch sizes。相反，Group Normalization與batch sizes無(wú)關(guān)，因?yàn)樗鼘⑼ǖ绖澐譃榻M，并計(jì)算每個(gè)組內(nèi)標(biāo)準(zhǔn)化的均值和方差。實(shí)驗(yàn)證實(shí)，GN在目標(biāo)檢測(cè)、分割、視頻分類(lèi)等多種任務(wù)中都優(yōu)于BN。

核心思想

Group Normalization是Batch Normalization的一個(gè)簡(jiǎn)單替代方法，特別是在batch size較小的場(chǎng)景中，例如需要高分辨率輸入的計(jì)算機(jī)視覺(jué)任務(wù)。

GN只探索層的維數(shù)，因此它的計(jì)算是獨(dú)立于batch size的。具體地說(shuō)，GN將通道或特征映射劃分為組，并在每個(gè)組內(nèi)對(duì)特征標(biāo)準(zhǔn)化。

Group Normalization可以通過(guò)PyTorch和TensorFlow中的幾行代碼輕松實(shí)現(xiàn)。

最重要的成果

提出了Group Normalization，一種新的有效的歸一化方法。

評(píng)估了GN在各種應(yīng)用中的表現(xiàn)，并表明:

GN的計(jì)算獨(dú)立于batch sizes，在大范圍的batch sizes中精度穩(wěn)定。例如，對(duì)于batch size為2的ImageNet訓(xùn)練的ResNet-50, GN的錯(cuò)誤率比基于BN的模型低10.6%。

GN也可以轉(zhuǎn)移到fine-tuning。實(shí)驗(yàn)表明，在COCO數(shù)據(jù)集的目標(biāo)檢測(cè)和分割任務(wù)，以及Kinetics數(shù)據(jù)集的視頻分類(lèi)任務(wù)，GN優(yōu)于BN。

AI社區(qū)的評(píng)價(jià)

該論文在ECCV 2018上獲得了最佳論文提名。

根據(jù)Arxiv Sanity Preserver，這篇論文也是2018年第二受歡迎的論文。

未來(lái)研究方向

將group normalization應(yīng)用到序列模型或生成模型。

研究GN在強(qiáng)化學(xué)習(xí)的學(xué)習(xí)表示方面的表現(xiàn)。

探索GN與合適的正則化項(xiàng)相結(jié)合能否改善結(jié)果。

可能的應(yīng)用

依賴(lài)基于BN的模型進(jìn)行對(duì)象檢測(cè)、分割、視頻分類(lèi)和其他需要高分辨率輸入的計(jì)算機(jī)視覺(jué)任務(wù)的應(yīng)用可能會(huì)受益于基于GN的模型，因?yàn)樗鼈冊(cè)谶@些設(shè)置中更準(zhǔn)確。

代碼

FAIR團(tuán)隊(duì)提供Mask R-CNN基線結(jié)果和使用Group normalize訓(xùn)練的模型：

https://github.com/facebookresearch/Detectron/tree/master/projects/GN

GitHub上也提供了使用PyTorch實(shí)現(xiàn)的group normalization：

https://github.com/chengyangfu/pytorch-groupnormalization

5、分解任務(wù)遷移學(xué)習(xí)

標(biāo)題：Taskonomy: Disentangling Task Transfer Learning

ByAmir R. Zamir，Alexander Sax，William Shen，Leonidas J. Guibas，Jitendra Malik，Silvio Savarese（2018）

https://arxiv.org/abs/1804.08328

論文摘要

視覺(jué)任務(wù)之間有關(guān)聯(lián)嗎？例如，表面法線可以簡(jiǎn)化對(duì)圖像深度的估計(jì)嗎？直覺(jué)回答了這些問(wèn)題，暗示了視覺(jué)任務(wù)中存在結(jié)構(gòu)。了解這種結(jié)構(gòu)具有顯著的價(jià)值;它是遷移學(xué)習(xí)的基本概念，提供了一種原則性的方法來(lái)識(shí)別任務(wù)之間的冗余。

我們提出了一種完全計(jì)算的可視化任務(wù)空間結(jié)構(gòu)建模方法。這是通過(guò)在潛在空間中的二十六個(gè)2D，2.5D，3D和語(yǔ)義任務(wù)的字典中查找（一階和更高階）傳遞學(xué)習(xí)依賴(lài)性來(lái)完成的。該產(chǎn)品是用于任務(wù)遷移學(xué)習(xí)的計(jì)算分類(lèi)映射。我們研究這種結(jié)構(gòu)的結(jié)果，例如出現(xiàn)的非平凡關(guān)系，并利用它們來(lái)減少對(duì)標(biāo)記數(shù)據(jù)的需求。例如，我們展示了在保持性能幾乎相同的情況下，解決一組10個(gè)任務(wù)所需的標(biāo)記數(shù)據(jù)點(diǎn)的總數(shù)可以減少大約2/3（與獨(dú)立訓(xùn)練相比）。我們提供了一組用于計(jì)算和探測(cè)這種分類(lèi)結(jié)構(gòu)的工具，包括一個(gè)解決程序，用戶(hù)可以使用它來(lái)為他們的用例設(shè)計(jì)有效的監(jiān)督策略。

概覽

自現(xiàn)代計(jì)算機(jī)科學(xué)的早期以來(lái)，許多研究人員就斷言視覺(jué)任務(wù)之間存在一個(gè)結(jié)構(gòu)?，F(xiàn)在Amir Zamir和他的團(tuán)隊(duì)試圖找到這個(gè)結(jié)構(gòu)。他們使用完全計(jì)算的方法建模，并發(fā)現(xiàn)不同可視化任務(wù)之間的許多有用關(guān)系，包括一些重要的任務(wù)。他們還表明，通過(guò)利用這些相互依賴(lài)性，可以實(shí)現(xiàn)相同的模型性能，標(biāo)記數(shù)據(jù)要求大約減少2/3。

核心思想

了解不同可視化任務(wù)之間關(guān)系的模型需要更少的監(jiān)督、更少的計(jì)算和更可預(yù)測(cè)的行為。

一種完整的計(jì)算方法來(lái)發(fā)現(xiàn)視覺(jué)任務(wù)之間的關(guān)系是可取的，因?yàn)樗苊饬藦?qiáng)加的、可能是不正確的假設(shè)：先驗(yàn)來(lái)自于人類(lèi)的直覺(jué)或分析知識(shí)，而神經(jīng)網(wǎng)絡(luò)可能在不同的原理上運(yùn)作。

最重要的成果

識(shí)別26個(gè)常見(jiàn)視覺(jué)任務(wù)之間的關(guān)系，如目標(biāo)識(shí)別、深度估計(jì)、邊緣檢測(cè)和姿態(tài)估計(jì)。

展示這個(gè)結(jié)構(gòu)如何幫助發(fā)現(xiàn)對(duì)每個(gè)視覺(jué)任務(wù)最有效的遷移學(xué)習(xí)類(lèi)型。

AI社區(qū)的評(píng)價(jià)

該論文在計(jì)算機(jī)視覺(jué)與模式識(shí)別重要會(huì)議CVPR 2018上獲得了最佳論文獎(jiǎng)。

結(jié)果非常重要，因?yàn)閷?duì)于大多數(shù)實(shí)際任務(wù)，大規(guī)模標(biāo)記數(shù)據(jù)集不可用。

未來(lái)研究方向

從一般的視覺(jué)任務(wù)完全由人類(lèi)定義的模型，轉(zhuǎn)向?qū)⑷祟?lèi)定義的視覺(jué)任務(wù)視為由計(jì)算發(fā)現(xiàn)的潛在子任務(wù)組成的觀察樣本的方法。

探索將發(fā)現(xiàn)轉(zhuǎn)化為不完全是視覺(jué)任務(wù)的可能性。

可能的應(yīng)用

在本文中發(fā)現(xiàn)的關(guān)系可以用來(lái)構(gòu)建更有效的視覺(jué)系統(tǒng)，這個(gè)系統(tǒng)將需要更少的標(biāo)記數(shù)據(jù)和更低的計(jì)算成本。

代碼

https://github.com/StanfordVL/taskonomy/tree/master/taskbank

6、自注意力生成對(duì)抗網(wǎng)絡(luò)

標(biāo)題：Self-Attention Generative Adversarial Networks

作者：Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena

https://arxiv.org/abs/1805.08318

論文摘要

在這篇論文中，我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò)(SAGAN)，它允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)、長(zhǎng)期依賴(lài)關(guān)系建模。

在低分辨率特征圖中，傳統(tǒng)的卷積GAN只根據(jù)空間局部點(diǎn)生成高分辨率細(xì)節(jié)。在SAGAN中，可以使用來(lái)自所有特征位置的線索生成細(xì)節(jié)。此外，該鑒別器還可以檢查圖像中較遠(yuǎn)部分的細(xì)節(jié)特征是否一致。

最近的研究表明，生成器的調(diào)節(jié)會(huì)影響GAN的性能。利用這一點(diǎn)，我們將頻譜歸一化應(yīng)用于GAN發(fā)生器，并發(fā)現(xiàn)這改善了訓(xùn)練的動(dòng)態(tài)性。

在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上，提出的SAGAN實(shí)現(xiàn)了最佳的結(jié)果，將最佳Inception分?jǐn)?shù)從36.8提高到52.52，并將Frechet Inception距離從27.62降低到18.65。注意力層的可視化顯示，生成器利用的是與對(duì)象形狀對(duì)應(yīng)的鄰域，而不是固定形狀的局部區(qū)域。

概要總結(jié)

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在圖像合成方面顯示了較為優(yōu)秀的結(jié)果。然而，它們至少有一個(gè)重要的弱點(diǎn)——單獨(dú)的卷積層無(wú)法捕捉圖像中的幾何和結(jié)構(gòu)模式。由于卷積是一種局部操作，所以左上方的輸出幾乎不可能與右下方的輸出有任何關(guān)系。

本文介紹了一個(gè)簡(jiǎn)單的解決方案 - 將自注意力機(jī)制納入GAN框架。該解決方案與幾種穩(wěn)定技術(shù)相結(jié)合，有助于自注意力生成對(duì)抗網(wǎng)絡(luò)（SAGAN）在圖像合成中實(shí)現(xiàn)最佳的結(jié)果。

核心思想

單獨(dú)的卷積層在計(jì)算圖像中的長(zhǎng)程依賴(lài)關(guān)系計(jì)算時(shí)效率低。相反，將自注意機(jī)制融入到GAN框架中，將使生成器和鑒別器都能夠有效地建模廣泛分離的空間區(qū)域之間的關(guān)系。

自注意力模塊將一個(gè)位置的響應(yīng)計(jì)算為所有位置特征的加權(quán)和。

以下技術(shù)有助于在具有挑戰(zhàn)性的數(shù)據(jù)集上穩(wěn)定GAN的訓(xùn)練：

對(duì)發(fā)生器和鑒別器應(yīng)用光譜歸一化。研究人員認(rèn)為，鑒別器和發(fā)生器都能從光譜歸一化中受益，因?yàn)樗梢苑乐箙?shù)幅度的增大，避免異常梯度。

對(duì)發(fā)生器和鑒別器使用單獨(dú)的學(xué)習(xí)速率來(lái)補(bǔ)償正則化鑒別器中慢學(xué)習(xí)的問(wèn)題，并使每個(gè)鑒別器步驟使用更少的發(fā)生器步驟成為可能。

最重要的成果

事實(shí)上，將自注意力模塊合并到GAN框架中可以有效地建模長(zhǎng)期依賴(lài)關(guān)系。

驗(yàn)證了所提出的穩(wěn)定化技術(shù)在GAN訓(xùn)練中的有效性。特別是表明：

應(yīng)用于生成器的頻譜歸一化穩(wěn)定了GAN訓(xùn)練；

利用不均衡的學(xué)習(xí)速率可以加快正規(guī)化鑒別器的訓(xùn)練。

通過(guò)將Inception的分?jǐn)?shù)從36.8提高到52.52，并將Frechet Inception的距離從27.62降低到18.65，從而在圖像合成方面獲得最先進(jìn)的結(jié)果。

AI社區(qū)的評(píng)價(jià)

威斯康星大學(xué)麥迪遜分校統(tǒng)計(jì)學(xué)助理Sebastian Raschka教授表示：“這個(gè)想法簡(jiǎn)單直觀，卻非常有效，而且易于實(shí)施?！?/p>

未來(lái)研究方向

探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性

可能的應(yīng)用

使用GAN進(jìn)行圖像合成可以替代用于廣告和電子商務(wù)目的的昂貴手工媒體創(chuàng)建。

代碼

GitHub上提供了自注意力GAN的PyTorch和TensorFlow實(shí)現(xiàn)。

PyTorch：

https://github.com/heykeetae/Self-Attention-GAN

TensorFlow：

https://github.com/brain-research/self-attention-gan

7、GANimation

標(biāo)題：從單個(gè)圖像中獲取具有人臉解剖結(jié)構(gòu)的面部動(dòng)畫(huà)

作者：Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer

https://arxiv.org/abs/1807.09251

論文摘要

若是能單憑一張圖像就能自動(dòng)地將面部表情生成動(dòng)畫(huà)，那么將會(huì)為其它領(lǐng)域中的新應(yīng)用打開(kāi)大門(mén)，包括電影行業(yè)、攝影技術(shù)、時(shí)尚和電子商務(wù)等等。隨著生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò)的流行，這項(xiàng)任務(wù)取得了重大進(jìn)展。像StarGAN這樣的結(jié)構(gòu)不僅能夠合成新表情，還能改變面部的其他屬性，如年齡、發(fā)色或性別。雖然StarGAN具有通用性，但它只能在離散的屬性中改變面部的一個(gè)特定方面，例如在面部表情合成任務(wù)中，對(duì)RaFD數(shù)據(jù)集進(jìn)行訓(xùn)練，該數(shù)據(jù)集只有8個(gè)面部表情的二元標(biāo)簽（binary label），分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂(lè)。

為達(dá)到這個(gè)目的，我們使用EmotioNet數(shù)據(jù)集，它包含100萬(wàn)張面部表情(使用其中的20萬(wàn)張)圖像。并且構(gòu)建了一個(gè)GAN體系結(jié)構(gòu)，其條件是一個(gè)一維向量：表示存在/缺失以及每個(gè)動(dòng)作單元的大小。我們以一種無(wú)監(jiān)督的方式訓(xùn)練這個(gè)結(jié)構(gòu)，僅需使用激活的AUs圖像。為了避免在不同表情下，對(duì)同一個(gè)人的圖像進(jìn)行訓(xùn)練時(shí)出現(xiàn)冗余現(xiàn)象，將該任務(wù)分為兩個(gè)階段。首先，給定一張訓(xùn)練照片，考慮一個(gè)基于AU條件的雙向?qū)菇Y(jié)構(gòu)，并在期望的表情下呈現(xiàn)一張新圖像。然后將合成的圖像還原到原始的樣子，這樣可以直接與輸入圖像進(jìn)行比較，并結(jié)合損失來(lái)評(píng)估生成圖像的照片級(jí)真實(shí)感。此外，該系統(tǒng)還超越了最先進(jìn)的技術(shù)，因?yàn)樗梢栽诓粩嘧兓谋尘昂驼彰鳁l件下處理圖像。

概要總結(jié)

本文介紹了一種新的GAN模型，該模型能夠在不斷變化的背景和光照條件下，從單個(gè)圖像生成具有解剖學(xué)感知的面部動(dòng)畫(huà)。而在此之前，只能解決離散情感類(lèi)編輯和人像圖像的問(wèn)題。該方法通過(guò)將面部變形編碼為動(dòng)作單元來(lái)呈現(xiàn)多種情緒。即使在具有挑戰(zhàn)性的光照條件和背景，得到的動(dòng)畫(huà)演示了一個(gè)非常平滑和一致的轉(zhuǎn)換幀。

核心思想

面部表情可以用動(dòng)作單元（AU）來(lái)描述，其在解剖學(xué)上描述特定面部肌肉的收縮。例如，“恐懼”的面部表情通常通過(guò)以下激活產(chǎn)生：Inner Brow Raiser（AU1），Outer Brow Raiser（AU2），Brow Lowerer（AU4），Upper Lid Raiser（AU5），Lid Tightener（AU7），Lip Stretcher（AU20）和Jaw Drop（AU26）。每個(gè)AU的大小定義了情緒的程度。

合成人臉動(dòng)畫(huà)的模型是基于GAN架構(gòu)的，它以一維向量為條件，表示每個(gè)動(dòng)作單元的存在/不存在和大小。

為了避免同一人在不同表情下的訓(xùn)練圖像對(duì)的需要，使用雙向發(fā)生器將圖像轉(zhuǎn)換成所需的表情，并將合成的圖像轉(zhuǎn)換回原始姿態(tài)。

為了在不斷變化的背景和光照條件下處理圖像，該模型包括一個(gè)注意力層，該注意力層只將網(wǎng)絡(luò)的動(dòng)作集中在圖像中與表達(dá)新表情相關(guān)的區(qū)域。

最重要的成果

引入一種全新的GAN模型用于野外人臉動(dòng)畫(huà)，該模型可以在完全無(wú)監(jiān)督的情況下進(jìn)行訓(xùn)練，并在具有挑戰(zhàn)性的光照條件和非真實(shí)世界數(shù)據(jù)的情況下，通過(guò)幀間非常平滑和一致的轉(zhuǎn)換生成具有視覺(jué)吸引力的圖像。

演示如何通過(guò)在GAN已經(jīng)看到的情緒之間進(jìn)行插值來(lái)生成更豐富的情緒。

AI社區(qū)的評(píng)價(jià)

該論文在歐洲計(jì)算機(jī)視覺(jué)會(huì)議(ECCV 2018)上獲得了榮譽(yù)獎(jiǎng)。

未來(lái)研究方向

將該方法應(yīng)用于視頻序列。

可能的應(yīng)用

這項(xiàng)技術(shù)可以從一張圖片中自動(dòng)生成面部表情動(dòng)畫(huà)，可以應(yīng)用于時(shí)尚界和電子商務(wù)、電影行業(yè)、攝影技術(shù)等多個(gè)領(lǐng)域。

代碼

作者提供了本研究論文在GitHub上的原始實(shí)現(xiàn)地址：

https://github.com/albertpumarola/GANimation

8、視頻到視頻的合成

標(biāo)題：視頻到視頻的合成Video-to-Video Synthesis

作者：Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro

https://arxiv.org/abs/1808.06601

論文摘要

本文研究的問(wèn)題是視頻到視頻(Video-to-Video)的合成，其目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù)從一個(gè)輸入源視頻(例如，語(yǔ)義分割掩碼序列)到一個(gè)輸出逼真的視頻，準(zhǔn)確地描述了源視頻的內(nèi)容。

與之對(duì)應(yīng)的圖像到圖像的合成問(wèn)題是一個(gè)熱門(mén)話題，而視頻到視頻的合成問(wèn)題在文獻(xiàn)中研究較少。在不了解時(shí)間動(dòng)態(tài)的情況下，直接將現(xiàn)有的圖像合成方法應(yīng)用于輸入視頻往往會(huì)導(dǎo)致視頻在時(shí)間上不連貫，視覺(jué)質(zhì)量低下。

本文提出了一種在生成對(duì)抗學(xué)習(xí)框架下的視頻合成方法。通過(guò)精心設(shè)計(jì)的生成器和鑒別器架構(gòu)，再加上時(shí)空對(duì)抗目標(biāo)，可以在一組不同的輸入格式(包括分割掩碼、草圖和姿勢(shì))上獲得高分辨率、逼真的、時(shí)間相干的視頻結(jié)果。

在多個(gè)基準(zhǔn)上的實(shí)驗(yàn)表明，與強(qiáng)基線相比，本文的方法具有優(yōu)勢(shì)。特別是該模型能夠合成長(zhǎng)達(dá)30秒的街道場(chǎng)景的2K分辨率視頻，大大提高了視頻合成的技術(shù)水平。最后，將該方法應(yīng)用于未來(lái)的視頻預(yù)測(cè)，表現(xiàn)優(yōu)于幾個(gè)最先進(jìn)的系統(tǒng)。

概要總結(jié)

英偉達(dá)的研究人員引入了一種新的視頻合成方法。該框架基于條件甘斯。具體地說(shuō)，該方法將精心設(shè)計(jì)的發(fā)生器和鑒別器與時(shí)空對(duì)抗性目標(biāo)相結(jié)合。實(shí)驗(yàn)表明，所提出的vid2vid方法可以在不同的輸入格式(包括分割掩碼、草圖和姿勢(shì))上合成高分辨率、逼真、時(shí)間相干的視頻。它還可以預(yù)測(cè)下一幀，其結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于基線模型。

核心思想

視頻幀可以按順序生成，每個(gè)幀的生成只取決于三個(gè)因素：

電流源幀；

之前的兩個(gè)源幀；

之前兩個(gè)生成的幀。

使用多個(gè)鑒別器可以緩解GAN訓(xùn)練過(guò)程中的模式崩潰問(wèn)題：

條件圖像鑒別器確保每個(gè)輸出幀類(lèi)似于給定相同源圖像的真實(shí)圖像；

條件視頻鑒別器確保連續(xù)輸出幀類(lèi)似于給定相同光流的真實(shí)視頻的時(shí)間動(dòng)態(tài)。

在生成器設(shè)計(jì)中，前背景先驗(yàn)進(jìn)一步提高了模型的綜合性能。

使用軟遮擋掩碼代替二進(jìn)制可以更好地處理“放大”場(chǎng)景：我們可以通過(guò)逐漸混合扭曲像素和新合成像素來(lái)添加細(xì)節(jié)。

最重要的成果

在視頻合成方面優(yōu)于強(qiáng)基線：

生成高分辨率(2048х2048)、逼真、時(shí)間相干視頻30秒；

根據(jù)采樣不同的特征向量，輸出多個(gè)具有不同視覺(jué)外觀的視頻。

在未來(lái)的視頻預(yù)測(cè)中優(yōu)于基線模型：

開(kāi)源了一個(gè)PyTorch技術(shù)的實(shí)現(xiàn)。此代碼可用于：

將語(yǔ)義標(biāo)簽轉(zhuǎn)換為現(xiàn)實(shí)世界的視頻；

從邊緣映射生成正在說(shuō)話的人的多個(gè)輸出；

在給定的姿勢(shì)下生成整個(gè)人體。

AI社區(qū)的評(píng)價(jià)

藝術(shù)家兼程序員吉恩·科根(Gene Kogan)說(shuō)：“英偉達(dá)的新vid2vid是第一個(gè)開(kāi)源代碼，它可以讓你從一個(gè)源視頻中令人信服地偽造任何人的臉?！?/p>

這篇論文也受到了一些批評(píng)，因?yàn)橛腥藫?dān)心它可能被用來(lái)制作深度偽造或篡改的視頻，從而欺騙人們。

未來(lái)研究方向

使用對(duì)象跟蹤信息，確保每個(gè)對(duì)象在整個(gè)視頻中具有一致的外觀。

研究是否使用較粗糙的語(yǔ)義標(biāo)簽訓(xùn)練模型將有助于減少在語(yǔ)義操縱之后出現(xiàn)的可見(jiàn)偽像（例如，將樹(shù)木變成建筑物）。

添加額外的3D線索，如深度地圖，以支持汽車(chē)轉(zhuǎn)彎的合成。

可能的應(yīng)用

市場(chǎng)營(yíng)銷(xiāo)和廣告可以從vid2vid方法創(chuàng)造的機(jī)會(huì)中獲益(例如，在視頻中替換面部甚至整個(gè)身體)。然而，這應(yīng)該謹(jǐn)慎使用，需要想到道德倫理方面的一些顧慮。

代碼

英偉達(dá)團(tuán)隊(duì)提供了本研究論文在GitHub上的原始實(shí)現(xiàn)的代碼：

https://github.com/NVIDIA/vid2vid

9、人人來(lái)跳舞

標(biāo)題：人人都在跳舞

作者：Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros

https://arxiv.org/abs/1808.07371

論文摘要

本文提出了一種簡(jiǎn)單的“按我做”的動(dòng)作轉(zhuǎn)移方法：給定一個(gè)人跳舞的源視頻，我們可以在目標(biāo)對(duì)象執(zhí)行標(biāo)準(zhǔn)動(dòng)作幾分鐘后將該表演轉(zhuǎn)換為一個(gè)新的(業(yè)余)目標(biāo)。

本文提出這個(gè)問(wèn)題作為每幀圖像到圖像的轉(zhuǎn)換與時(shí)空平滑。利用位姿檢測(cè)作為源和目標(biāo)之間的中間表示，我們調(diào)整這個(gè)設(shè)置為時(shí)間相干視頻生成，包括現(xiàn)實(shí)的人臉合成。學(xué)習(xí)了從位姿圖像到目標(biāo)對(duì)象外觀的映射。視頻演示可以在https://youtu.be/PCBTZh41Ris找到。

概要總結(jié)

加州大學(xué)伯克利分校的研究人員提出了一種簡(jiǎn)單的方法，可以讓業(yè)余舞蹈演員像專(zhuān)業(yè)舞蹈演員一樣表演，從而生成視頻。如果你想?yún)⒓舆@個(gè)實(shí)驗(yàn)，你所需要做的就是錄下你自己表演一些標(biāo)準(zhǔn)動(dòng)作的幾分鐘的視頻，然后拿起你想要重復(fù)的舞蹈的視頻。

神經(jīng)網(wǎng)絡(luò)將完成主要工作：它將問(wèn)題解決為具有時(shí)空平滑的每幀圖像到圖像的轉(zhuǎn)換。通過(guò)將每幀上的預(yù)測(cè)調(diào)整為前一時(shí)間步長(zhǎng)的預(yù)測(cè)以獲得時(shí)間平滑度并應(yīng)用專(zhuān)門(mén)的GAN進(jìn)行逼真的面部合成，該方法實(shí)現(xiàn)了非常驚人的結(jié)果。

核心思想

“跟我做”動(dòng)傳遞被視為每幀圖像到圖像的平移，姿勢(shì)棒圖作為源和目標(biāo)之間的中間表示：

預(yù)先訓(xùn)練的最先進(jìn)的姿勢(shì)檢測(cè)器根據(jù)源視頻創(chuàng)建姿勢(shì)棒圖；

應(yīng)用全局姿勢(shì)標(biāo)準(zhǔn)化來(lái)解釋框架內(nèi)的體形和位置中的源和目標(biāo)主體之間的差異；

標(biāo)準(zhǔn)化的姿勢(shì)棒圖被映射到目標(biāo)對(duì)象。

為了使視頻流暢，研究人員建議在先前生成的幀上調(diào)節(jié)發(fā)生器，然后將兩個(gè)圖像提供給鑒別器。姿勢(shì)關(guān)鍵點(diǎn)上的高斯平滑允許進(jìn)一步減少抖動(dòng)。

為了生成更逼真的面部，該方法包括額外的面部特定GAN，其在主生成完成之后刷新面部。

最重要的成果

根據(jù)定性和定量評(píng)估，提出了一種優(yōu)于強(qiáng)基線(pix2pixHD)的運(yùn)動(dòng)傳輸新方法。

演示特定于人臉的GAN為輸出視頻添加了相當(dāng)多的細(xì)節(jié)。

AI社區(qū)的評(píng)價(jià)

谷歌大腦的技術(shù)人員湯姆·布朗(Tom Brown)說(shuō)：“總的來(lái)說(shuō)，我覺(jué)得這真的很有趣，而且執(zhí)行得很好。期待代碼的公布，這樣我就可以開(kāi)始訓(xùn)練我的舞步了?！?/p>

Facebook人工智能研究工程師Soumith Chintala說(shuō)：“卡洛琳·陳(Caroline Chan)、阿廖沙·埃夫羅斯(Alyosha Efros)和團(tuán)隊(duì)將舞蹈動(dòng)作從一個(gè)主題轉(zhuǎn)移到另一個(gè)主題。只有這樣我才能跳得好。了不起的工作! ! !”

未來(lái)研究方向

用時(shí)間相干的輸入和專(zhuān)門(mén)為運(yùn)動(dòng)傳輸優(yōu)化的表示來(lái)替換姿態(tài)棒圖。

可能的應(yīng)用

“跟我做”在制作營(yíng)銷(xiāo)和宣傳視頻時(shí)，可能會(huì)應(yīng)用動(dòng)作轉(zhuǎn)移來(lái)替換主題。

代碼

本研究論文的PyTorch實(shí)現(xiàn)可在GitHub上獲得：

https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow

10、用于高保真自然圖像合成的大規(guī)模GAN訓(xùn)練

標(biāo)題：Large Scale GAN Training For High Fidelity Natural Image Synthesis

By Andrew Brock，Jeff Donahue，Karen Simonyan（2018）

https://arxiv.org/abs/1809.11096

論文摘要

盡管生成圖像建模最近取得了進(jìn)展，但從ImageNet等復(fù)雜數(shù)據(jù)集成功生成高分辨率、多樣化的樣本仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。為此，我們?cè)谧畲蟮囊?guī)模下進(jìn)行了生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練，并研究了這種規(guī)模下的不穩(wěn)定性。我們發(fā)現(xiàn)，將正交正則化應(yīng)用于發(fā)生器，使其服從于一個(gè)簡(jiǎn)單的“截?cái)嗉记伞?，可以允許通過(guò)截?cái)酀撛诳臻g來(lái)精細(xì)控制樣本保真度和多樣性之間的權(quán)衡。我們的修改使得模型在類(lèi)條件圖像合成中達(dá)到了新的技術(shù)水平。當(dāng)我們?cè)贗mageNet上以128×128分辨率進(jìn)行訓(xùn)練時(shí)，我們的模型（BigGAN）的初始得分（IS）為166.3，F(xiàn)rechet初始距離（FID）為9.6。

概覽

DeepMind團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)前的技術(shù)足以從現(xiàn)有數(shù)據(jù)集(如ImageNet和JFT-300M)合成高分辨率、多樣化的圖像。他們特別指出，生成對(duì)抗網(wǎng)絡(luò)(GANs)可以生成看起來(lái)非常逼真的圖像，如果它們?cè)诜浅４蟮姆秶鷥?nèi)進(jìn)行訓(xùn)練，即使用比以前實(shí)驗(yàn)多2到4倍的參數(shù)和8倍的批處理大小。這些大規(guī)模的GAN，或BigGAN，是類(lèi)條件圖像合成的最新技術(shù)。

核心思想

隨著批（batch）大小和參數(shù)數(shù)量的增加，GAN的性能更好。

將正交正則化應(yīng)用到生成器中，使模型響應(yīng)特定的技術(shù)（“截?cái)嗉记伞保?，該技術(shù)提供了對(duì)樣本保真度和多樣性之間的權(quán)衡的控制。

最重要的成果

證明GAN可以從scaling中獲益；

構(gòu)建允許顯式、細(xì)粒度地控制樣本多樣性和保真度之間權(quán)衡的模型；

發(fā)現(xiàn)大規(guī)模GAN的不穩(wěn)定性；

BigGAN在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練：初始得分（IS）為166.3，之前的最佳IS為52.52；Frechet Inception Distance (FID)為9.6，之前最好的FID為18.65。

AI社區(qū)的評(píng)價(jià)

該論文正在為ICLR 2019做準(zhǔn)備；

自從Big Hub上線BigGAN發(fā)生器之后，來(lái)自世界各地的AI研究人員正在玩BigGAN，來(lái)生成狗，手表，比基尼圖像，蒙娜麗莎，海濱以及更多主題。

未來(lái)研究方向

遷移到更大的數(shù)據(jù)集以減少GAN穩(wěn)定性問(wèn)題；

探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性。

可能的應(yīng)用

取代昂貴的手工媒體創(chuàng)作，用于廣告和電子商務(wù)的目的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103661
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1709

瀏覽量
46782
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134638

原文標(biāo)題：必讀！2018最具突破性計(jì)算機(jī)視覺(jué)論文Top 10

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

2018年以來(lái)最重要的10篇計(jì)算機(jī)視覺(jué)/圖像生成相關(guān)的研究

評(píng)論