九草成人视频在线观,日韩一级免费黄片

微軟和京東最近出了一個(gè)黑科技：說一句話就能生成圖片！在這項(xiàng)研究中，研究人員提出了一種新的機(jī)器學(xué)習(xí)框架——ObjGAN，可以通過關(guān)注文本描述中最相關(guān)的單詞和預(yù)先生成的語義布局（semantic layout）來合成顯著對(duì)象。

不會(huì)PS還想做圖？可以的！

近期，由紐約州立大學(xué)奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實(shí)現(xiàn)這個(gè)需求：只需要輸入一句話，就可以生成圖片！

輸入：

輸出：

在這項(xiàng)研究中，研究人員提出了一種新的機(jī)器學(xué)習(xí)框架——ObjGAN，可以通過關(guān)注文本描述中最相關(guān)的單詞和預(yù)先生成的語義布局（semantic layout）來合成顯著對(duì)象。

此外，他們還提出了一種新的基于Fast R-CNN的關(guān)于對(duì)象（object-wise）鑒別器，用來提供關(guān)于合成對(duì)象是否與文本描述和預(yù)先生成的布局匹配的對(duì)象識(shí)別信號(hào)。

論文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項(xiàng)工作已經(jīng)發(fā)表在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域頂會(huì)CVPR 2019。

這篇論文的合著作者表示，與之前最先進(jìn)的技術(shù)相比，他們的方法大大提高了圖像質(zhì)量：

我們的生成器能夠利用細(xì)粒度的單詞和對(duì)象級(jí)（object-level）信息逐步細(xì)化合成圖像。

大量的實(shí)驗(yàn)證明了ObjGAN在復(fù)雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片！

根據(jù)文本的描述來生成圖像，可以說是機(jī)器學(xué)習(xí)中一項(xiàng)非常重要的任務(wù)。

這項(xiàng)任務(wù)需要處理自然語言描述中模糊和不完整的信息，并且還需要跨視覺和語言模式來進(jìn)行學(xué)習(xí)。

自從GAN提出后，這項(xiàng)任務(wù)在結(jié)果上取得了較好的成績，但是目前這些基于GAN的方法有一個(gè)缺點(diǎn)：

大多數(shù)圖像合成方法都是基于全局句子向量來合成圖像，而全局句子向量可能會(huì)丟失單詞級(jí)別（word-level）的重要細(xì)粒度信息，從而阻礙高質(zhì)量圖像的生成。

大多數(shù)方法都沒有在圖像中明確地建模對(duì)象及其關(guān)系，因此難以生成復(fù)雜的場景。

圖1 頂部：AttnGAN及其網(wǎng)格注意力可視化；中部：修改前人工作的結(jié)果；底部：ObjGAN及其對(duì)象驅(qū)動(dòng)的注意力可視化

舉個(gè)例子，如果要根據(jù)“幾個(gè)人穿滑雪服的人在雪地里”這句話生成一張圖片，那么需要對(duì)不同的對(duì)象（人、滑雪服）及其交互（穿滑雪服的人）進(jìn)行建模，還需要填充缺失的信息（例如背景中的巖石）。

圖1的第一行是由AttnGAN生成的圖像，雖然圖像中包含了人和雪的紋理，但是人的形狀是扭曲的，圖像布局在語義上是沒有意義的。

為了解決這個(gè)問題，首先從文本構(gòu)造語義布局，然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知，雖然細(xì)粒度的word/objectlevel信息仍然沒有很好的用于生成。因此，合成的圖像沒有包含足夠的細(xì)節(jié)讓它們看起來更加真實(shí)。

本研究的目標(biāo)就是生成具有語義意義（semantically meaningful）的布局和現(xiàn)實(shí)對(duì)象的高質(zhì)量復(fù)雜圖像。

為此，研究人員提出了一種新穎的對(duì)象驅(qū)動(dòng)的注意力生成對(duì)抗網(wǎng)絡(luò)（Object-driven Attentive Generative Adversarial Networks，Obj-GAN），該網(wǎng)絡(luò)能夠有效地捕獲和利用細(xì)粒度的word/objectlevel信息進(jìn)行文本到圖像的合成。

ObjGAN由一對(duì)兒對(duì)象驅(qū)動(dòng)的注意力圖像生成器和object-wise判別器組成，并采用了一種新的對(duì)象驅(qū)動(dòng)注意機(jī)制。

圖2 對(duì)象驅(qū)動(dòng)的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預(yù)先生成的語義布局為輸入，通過多階段由粗到精的過程合成高分辨率圖像。

在每個(gè)階段，生成器通過關(guān)注與該邊界框中的對(duì)象最相關(guān)的單詞來合成邊界框內(nèi)的圖像區(qū)域，如圖1的底部行所示。

更具體地說，它使用一個(gè)新的對(duì)象驅(qū)動(dòng)的注意層，使用類標(biāo)簽查詢句子中的單詞，形成一個(gè)單詞上下文向量，如圖4所示，然后根據(jù)類標(biāo)簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對(duì)象驅(qū)動(dòng)的注意力

Object-wise判別器會(huì)對(duì)每個(gè)邊界框進(jìn)行檢查，確保生成的對(duì)象確實(shí)與預(yù)先生成的語義布局是匹配的。

同時(shí)，為了有效地計(jì)算所有邊界框的識(shí)別損失，object-wise判別器基于一個(gè)Fast-RNN，并且每個(gè)邊界框都有一個(gè)二院交叉熵?fù)p失。

實(shí)驗(yàn)結(jié)果

研究人員在實(shí)驗(yàn)過程中采用的數(shù)據(jù)集是COCO數(shù)據(jù)集。它包含80個(gè)對(duì)象類，其中每個(gè)圖像與對(duì)象注釋（即，邊界框和形狀）和5個(gè)文本描述相關(guān)聯(lián)。

在評(píng)價(jià)指標(biāo)方面，研究人員采用 Inception score（IS）和Frechet Inception distance（FID） score作為定量評(píng)價(jià)指標(biāo)。結(jié)果如下表所示：

表1

接下來，是采用不同方法生成圖像的結(jié)果與實(shí)際圖像的對(duì)比結(jié)果：

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進(jìn)行定性比較

圖7 與P-AttnGAN的定性比較。每個(gè)方法的注意力圖顯示在生成的圖像旁邊。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴