狼友视频在线播放,在线播放伊人激情,男女交配视频日韩网站

浙大、悉尼大學等高校研究員提出MirrorGAN，作為全局-局部注意和語義保持的文本-圖像-文本框架，解決文本描述和視覺內(nèi)容之間的語義一致性問題，并在COCO數(shù)據(jù)集上刷新了記錄。

GAN又開辟了新疆界。

去年英偉達的StyleGAN在生成高質(zhì)量和視覺逼真的圖像，騙過了無數(shù)雙眼睛，隨后一大批假臉、假貓、假房源隨之興起，可見GAN的威力。

StyleGAN生成假臉

雖然GAN在圖像方面已經(jīng)取得了重大進展，但是保證文本描述和視覺內(nèi)容之間的語義一致性上仍然是非常具有挑戰(zhàn)性的。

最近，來自浙江大學、悉尼大學等高校的研究人員，提出一種新穎的全局-局部注意和語義保持的文本-圖像-文本(text-to-image-to-text)框架來解決這個問題，這種框架稱為MirrorGAN。

MirrorGAN有多強？

在目前較為主流的數(shù)據(jù)集COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集上，MirrorGAN都取得了最好成績。

目前，論文已被CVPR2019接收。

MirrorGAN：解決文本和視覺之間語義一致性

文本生成圖像（T2I）在許多應用領域具有巨大的潛力，已經(jīng)成為自然語言處理和計算機視覺領域的一個活躍的研究領域。

與基本圖像生成問題相反，T2I生成以文本描述為條件，而不是僅從噪聲開始。利用GAN的強大功能，業(yè)界已經(jīng)提出了不同的T2I方法來生成視覺上逼真的和文本相關(guān)的圖像。這些方法都利用鑒別器來區(qū)分生成的圖像和相應的文本對以及ground-truth圖像和相應的文本對。

然而，由于文本和圖像之間的區(qū)域差異，當僅依賴于這樣的鑒別器時，對每對內(nèi)的基礎語義一致性進行建模是困難且低效的。

近年來，針對這一問題，人們利用注意機制來引導生成器在生成不同的圖像區(qū)域時關(guān)注不同的單詞。然而，由于文本和圖像模式的多樣性，僅使用單詞級的注意并不能確保全局語義的一致性。如圖1(b)所示：

圖1 (a)鏡像結(jié)構(gòu)的說明，體現(xiàn)了通過重新描述學習文本到圖像生成的思想；(b)-(c)前人的研究成果與本文提出的MirrorGAN分別生成的語義不一致和一致的圖像/重新描述。

T2I生成可以看作是圖像標題(或圖像到文本生成，I2T)的逆問題，它生成給定圖像的文本描述。考慮到處理每個任務都需要對這兩個領域的底層語義進行建模和對齊，因此在統(tǒng)一的框架中對這兩個任務進行建模以利用底層的雙重規(guī)則是自然和合理的。

如圖1 (a)和(c)所示，如果T2I生成的圖像在語義上與給定的文本描述一致，則I2T對其重新描述應該與給定的文本描述具有完全相同的語義。換句話說，生成的圖像應該像一面鏡子，準確地反映底層文本語義。

基于這一觀察結(jié)果，論文提出了一個新的文本-圖像-文本的框架——MirrorGAN來改進T2I生成，它利用了通過重新描述學習T2I生成的思想。

解剖MirrorGAN三大核心模塊

對于T2I這一任務來說，主要的目標有兩個：

視覺真實性；

語義

且二者需要保持一致性。

MirrorGAN利用了“文本到圖像的重新描述學習生成”的思想，主要由三個模塊組成：

語義文本嵌入模塊(STEM)；

級聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊(GLAM);

語義文本再生與對齊模塊(STREAM)。

STEM生成單詞級和句子級的嵌入；GLAM有一個級聯(lián)的架構(gòu)，用于從粗尺度到細尺度生成目標圖像，利用局部詞注意和全局句子注意，逐步增強生成圖像的多樣性和語義一致性；STREAM試圖從生成的圖像中重新生成文本描述，該圖像在語義上與給定的文本描述保持一致。

圖2 MirrorGAN原理圖

如圖2所示，MirrorGAN通過集成T2I和I2T來體現(xiàn)鏡像結(jié)構(gòu)。

它利用了通過重新描述來學習T2I生成的想法。生成圖像后，MirrorGAN會重新生成其描述，該描述將其基礎語義與給定的文本描述對齊。

以下是MirrorGAN三個模塊組成：STEM，GLAM和STREAM。

STEM：語義文本嵌入模塊

首先，引入語義文本嵌入模塊，將給定的文本描述嵌入到局部詞級特征和全局句級特征中。

如圖2最左邊所示(即上圖)，使用一個遞歸神經(jīng)網(wǎng)絡(RNN)從給定的文本描述中提取語義嵌入T，包括一個嵌入w的單詞和一個嵌入s的句子。

GLAM：級聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊

接下來，通過連續(xù)疊加三個圖像生成網(wǎng)絡，構(gòu)造了一個多級級聯(lián)發(fā)生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本結(jié)構(gòu)，因為它在生成逼真的圖像方面有很好的性能。

使用{F0，F(xiàn)1，…，F(xiàn)m-1}來表示m個視覺特征變換器，并使用{G0，G1，…，Gm-1}來表示m個圖像生成器。每個階段中的視覺特征Fi和生成的圖像Ii可以表示為：

STREAM：語義文本再生與對齊模塊

如上所述，MirrorGAN包括語義文本再生和對齊模塊（STREAM），以從生成的圖像重新生成文本描述，其在語義上與給定的文本描述對齊。

具體來說，采用了廣泛使用的基于編碼器解碼器的圖像標題框架作為基本的STREAM架構(gòu)。

圖像編碼器是在ImageNet上預先訓練的卷積神經(jīng)網(wǎng)絡(CNN)，解碼器是RNN。由末級生成器生成的圖像Im-1輸入CNN編碼器和RNN解碼器如下：

實驗結(jié)果：COCO數(shù)據(jù)集上成績最佳

那么，MirrorGAN的性能有多強呢？

首先來看一下MirrorGAN與其它最先進的T2I方法的比較，包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的數(shù)據(jù)集是目前較為主流的數(shù)據(jù)集，分別是COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集：

CUB鳥類數(shù)據(jù)集包含8,855個訓練圖像和2,933個屬于200個類別的測試圖像，每個鳥類圖像有10個文本描述；

OCO數(shù)據(jù)集包含82,783個訓練圖像和40,504個驗證圖像，每個圖像有5個文本描述。

結(jié)果如表1所示：

表1 在CUB和COCO數(shù)據(jù)集上，MirrorGAN和其它先進方法的結(jié)果比較

表2展示了AttnGAN和MirrorGAN在CUB和COCO數(shù)據(jù)集上的R精度得分。

表2 在CUB和COCO數(shù)據(jù)集上，MirrorGAN和AttnGAN的R精度得分。

在所有實驗比較中，MirrorGAN都表現(xiàn)出了更大的優(yōu)勢，這表明了本文提出的文本到圖像到文本的框架和全局到本地的協(xié)作關(guān)注模塊的優(yōu)越性，因為MirrorGAN生成的高質(zhì)量圖像具有與輸入文本描述一致的語義。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GaN

GaN

+關(guān)注

關(guān)注
19

文章
2209

瀏覽量
76815
鑒別器

鑒別器

+關(guān)注

關(guān)注
0

文章
8

瀏覽量
8831
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25449

原文標題：MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀錄

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

GAN又開辟了新疆界，MirrorGAN有多強？

評論

搜索歷史

GAN又開辟了新疆界，MirrorGAN有多強？

評論

GAN又開辟了新疆界，MirrorGAN有多強？