一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

GAN又開辟了新疆界,MirrorGAN有多強?

DPVg_AI_era ? 來源:lp ? 2019-03-18 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

浙大、悉尼大學等高校研究員提出MirrorGAN,作為全局-局部注意和語義保持的文本-圖像-文本框架,解決文本描述和視覺內(nèi)容之間的語義一致性問題,并在COCO數(shù)據(jù)集上刷新了記錄。

GAN又開辟了新疆界。

去年英偉達的StyleGAN在生成高質(zhì)量和視覺逼真的圖像,騙過了無數(shù)雙眼睛,隨后一大批假臉、假貓、假房源隨之興起,可見GAN的威力。

StyleGAN生成假臉

雖然GAN在圖像方面已經(jīng)取得了重大進展,但是保證文本描述和視覺內(nèi)容之間的語義一致性上仍然是非常具有挑戰(zhàn)性的。

最近,來自浙江大學、悉尼大學等高校的研究人員,提出一種新穎的全局-局部注意和語義保持的文本-圖像-文本(text-to-image-to-text)框架來解決這個問題,這種框架稱為MirrorGAN。

MirrorGAN有多強?

在目前較為主流的數(shù)據(jù)集COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集上,MirrorGAN都取得了最好成績。

目前,論文已被CVPR2019接收。

MirrorGAN:解決文本和視覺之間語義一致性

文本生成圖像(T2I)在許多應用領域具有巨大的潛力,已經(jīng)成為自然語言處理和計算機視覺領域的一個活躍的研究領域。

與基本圖像生成問題相反,T2I生成以文本描述為條件,而不是僅從噪聲開始。利用GAN的強大功能,業(yè)界已經(jīng)提出了不同的T2I方法來生成視覺上逼真的和文本相關(guān)的圖像。這些方法都利用鑒別器來區(qū)分生成的圖像和相應的文本對以及ground-truth圖像和相應的文本對。

然而,由于文本和圖像之間的區(qū)域差異,當僅依賴于這樣的鑒別器時,對每對內(nèi)的基礎語義一致性進行建模是困難且低效的。

近年來,針對這一問題,人們利用注意機制來引導生成器在生成不同的圖像區(qū)域時關(guān)注不同的單詞。然而,由于文本和圖像模式的多樣性,僅使用單詞級的注意并不能確保全局語義的一致性。如圖1(b)所示:

圖1 (a)鏡像結(jié)構(gòu)的說明,體現(xiàn)了通過重新描述學習文本到圖像生成的思想;(b)-(c)前人的研究成果與本文提出的MirrorGAN分別生成的語義不一致和一致的圖像/重新描述。

T2I生成可以看作是圖像標題(或圖像到文本生成,I2T)的逆問題,它生成給定圖像的文本描述。考慮到處理每個任務都需要對這兩個領域的底層語義進行建模和對齊,因此在統(tǒng)一的框架中對這兩個任務進行建模以利用底層的雙重規(guī)則是自然和合理的。

如圖1 (a)和(c)所示,如果T2I生成的圖像在語義上與給定的文本描述一致,則I2T對其重新描述應該與給定的文本描述具有完全相同的語義。換句話說,生成的圖像應該像一面鏡子,準確地反映底層文本語義。

基于這一觀察結(jié)果,論文提出了一個新的文本-圖像-文本的框架——MirrorGAN來改進T2I生成,它利用了通過重新描述學習T2I生成的思想。

解剖MirrorGAN三大核心模塊

對于T2I這一任務來說,主要的目標有兩個:

視覺真實性;

語義

且二者需要保持一致性。

MirrorGAN利用了“文本到圖像的重新描述學習生成”的思想,主要由三個模塊組成:

語義文本嵌入模塊(STEM);

級聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊(GLAM);

語義文本再生與對齊模塊(STREAM)。

STEM生成單詞級和句子級的嵌入;GLAM有一個級聯(lián)的架構(gòu),用于從粗尺度到細尺度生成目標圖像,利用局部詞注意和全局句子注意,逐步增強生成圖像的多樣性和語義一致性;STREAM試圖從生成的圖像中重新生成文本描述,該圖像在語義上與給定的文本描述保持一致。

圖2 MirrorGAN原理圖

如圖2所示,MirrorGAN通過集成T2I和I2T來體現(xiàn)鏡像結(jié)構(gòu)。

它利用了通過重新描述來學習T2I生成的想法。 生成圖像后,MirrorGAN會重新生成其描述,該描述將其基礎語義與給定的文本描述對齊。

以下是MirrorGAN三個模塊組成:STEM,GLAM和STREAM。

STEM:語義文本嵌入模塊

首先,引入語義文本嵌入模塊,將給定的文本描述嵌入到局部詞級特征和全局句級特征中。

如圖2最左邊所示(即上圖),使用一個遞歸神經(jīng)網(wǎng)絡(RNN)從給定的文本描述中提取語義嵌入T,包括一個嵌入w的單詞和一個嵌入s的句子。

GLAM:級聯(lián)圖像生成的全局-局部協(xié)同關(guān)注模塊

接下來,通過連續(xù)疊加三個圖像生成網(wǎng)絡,構(gòu)造了一個多級級聯(lián)發(fā)生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本結(jié)構(gòu),因為它在生成逼真的圖像方面有很好的性能。

使用{F0,F(xiàn)1,…,F(xiàn)m-1}來表示m個視覺特征變換器,并使用{G0,G1,…,Gm-1}來表示m個圖像生成器。 每個階段中的視覺特征Fi和生成的圖像Ii可以表示為:

STREAM:語義文本再生與對齊模塊

如上所述,MirrorGAN包括語義文本再生和對齊模塊(STREAM),以從生成的圖像重新生成文本描述,其在語義上與給定的文本描述對齊。

具體來說,采用了廣泛使用的基于編碼器解碼器的圖像標題框架作為基本的STREAM架構(gòu)。

圖像編碼器是在ImageNet上預先訓練的卷積神經(jīng)網(wǎng)絡(CNN),解碼器是RNN。由末級生成器生成的圖像Im-1輸入CNN編碼器和RNN解碼器如下:

實驗結(jié)果:COCO數(shù)據(jù)集上成績最佳

那么,MirrorGAN的性能有多強呢?

首先來看一下MirrorGAN與其它最先進的T2I方法的比較,包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的數(shù)據(jù)集是目前較為主流的數(shù)據(jù)集,分別是COCO數(shù)據(jù)集和CUB鳥類數(shù)據(jù)集:

CUB鳥類數(shù)據(jù)集包含8,855個訓練圖像和2,933個屬于200個類別的測試圖像,每個鳥類圖像有10個文本描述;

OCO數(shù)據(jù)集包含82,783個訓練圖像和40,504個驗證圖像,每個圖像有5個文本描述。

結(jié)果如表1所示:

表1 在CUB和COCO數(shù)據(jù)集上,MirrorGAN和其它先進方法的結(jié)果比較

表2展示了AttnGAN和MirrorGAN在CUB和COCO數(shù)據(jù)集上的R精度得分。

表2 在CUB和COCO數(shù)據(jù)集上,MirrorGAN和AttnGAN的R精度得分。

在所有實驗比較中,MirrorGAN都表現(xiàn)出了更大的優(yōu)勢,這表明了本文提出的文本到圖像到文本的框架和全局到本地的協(xié)作關(guān)注模塊的優(yōu)越性,因為MirrorGAN生成的高質(zhì)量圖像具有與輸入文本描述一致的語義。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2209

    瀏覽量

    76815
  • 鑒別器
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    8831
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25449

原文標題:MirrorGAN出世!浙大等提出文本-圖像新框架,刷新COCO紀錄

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    下班

    下班,剛畢業(yè)的很苦逼,對不起你,USC///
    發(fā)表于 01-08 20:43

    小劉老師,我是新疆的學生,但是看你好多資料都是網(wǎng)盤下載新疆無法用網(wǎng)盤下載啊

    小劉老師,我是新疆的學生,但是看你好多資料都是網(wǎng)盤下載新疆無法用網(wǎng)盤下載???還有其他的辦法么?
    發(fā)表于 12-11 11:55

    小劉老師,我是新疆的學生,但是看你好多資料都是網(wǎng)盤下載新疆無法用網(wǎng)盤下載???還有其他的辦法么?

    小劉老師,我是新疆的學生,但是看你好多資料都是網(wǎng)盤下載新疆無法用網(wǎng)盤下載啊?還有其他的辦法么?
    發(fā)表于 12-11 12:38

    TI助力GaN技術(shù)的推廣應用

    全新的電源應用在同等的電壓下以更高的轉(zhuǎn)換頻率運行。這意味著,在同樣的條件下,GaN可實現(xiàn)比基于硅材料的解決方案更高的效率。TI日前發(fā)布LMG5200,隨著這款全集成式原型機的推出,工程師們能夠輕松地將
    發(fā)表于 09-10 15:02

    51單片機如何開辟??臻g?

    新唐N76E003可以開辟256byte的局部數(shù)組,但是我想知道51單片機和STM32的區(qū)別,STM32的??臻g是自己設置的,局部變量存放在棧中,如果局部變量定義的變量大于開辟的棧的大小,就會覆蓋
    發(fā)表于 12-07 09:33

    基于GaN的開關(guān)器件

    和電機控制中。他們的接受度和可信度正在逐漸提高。(請注意,基于GaN的射頻功放或功放也取得了很大的成功,但與GaN器件具有不同的應用場合,超出了本文的范圍。)本文探討了GaN器件的潛力,GaN
    發(fā)表于 06-21 08:27

    2020年河北gan部網(wǎng)絡學院開始

    2020年河北gan部網(wǎng)絡學院開始,預約學習可聯(lián)系我
    發(fā)表于 02-21 20:43

    新疆紅棗質(zhì)量認證+區(qū)塊鏈溯源解決方案

    最近新疆棉花事件引發(fā)眾人高度的關(guān)注,據(jù)新聞報告顯示新疆某商場要求H&M撤離,成都大悅城將H&M的商標摘下。然而,新疆不止有棉花,還有肉制品、馕、水果主要有:庫爾勒香梨、哈密瓜
    發(fā)表于 04-03 15:19

    DMA開辟緩存怎么使用動態(tài)內(nèi)存?

    開辟20kb左右的緩存空間,如果直接用全局變量數(shù)組,在不需要用到DMA時,那這20k的內(nèi)存就一直不能釋放,好浪費。若使用malloc來開辟動態(tài)內(nèi)存,應該是放在堆區(qū)吧?堆區(qū)不是默認只有512字節(jié)?還要修改啟動文件的堆大???
    發(fā)表于 10-23 06:53

    rt1052性能有多強?

    rt1052性能有多強
    發(fā)表于 10-27 06:17

    新疆為什么禁飛無人機_新疆無人機禁飛區(qū)域

    本文開始對無人機進行了簡單介紹,其次闡述新疆為什么禁飛無人機及新疆無人機禁飛的區(qū)域,最后介紹了無人機大陸禁飛區(qū)的查詢方法。
    發(fā)表于 03-06 13:36 ?5.9w次閱讀

    新疆聯(lián)通攜手國網(wǎng)新疆電力成功在電力鐵塔上部署5G基站

    為快速部署5G網(wǎng)絡,新疆聯(lián)通聯(lián)合國網(wǎng)新疆電力在±1100千伏昌吉換流站開展5G基站建設。此次在昌吉換流站及其外送輸電鐵塔率先開展的基于NSA方式的5G基站建設,實現(xiàn)5G信號扇區(qū)覆蓋。
    發(fā)表于 09-03 10:22 ?2623次閱讀

    GaN 為電源應用開辟新領域

    氮化鎵 (GaN) 是一種寬帶隙 (WBG) 半導體,在長期以來由傳統(tǒng)硅 (Si) 基組件主導的多種電源應用中正在獲得動力。高效率、在比硅更高的開關(guān)頻率和溫度下工作的能力以及占用空間小是使這種
    發(fā)表于 08-04 15:11 ?805次閱讀
    <b class='flag-5'>GaN</b> 為電源應用<b class='flag-5'>開辟</b><b class='flag-5'>了</b>新領域

    內(nèi)窺鏡成像探頭為更廣泛的成像應用開辟道路

    研究人員表示,內(nèi)窺鏡成像探頭,特別是用于側(cè)視的探頭,結(jié)合梯度折射率(GRIN)光纖和球面透鏡,“在一定范圍內(nèi),不同孔徑的探頭均表現(xiàn)出優(yōu)異的性能,為更廣泛的成像應用開辟道路”。內(nèi)窺鏡成像探頭的性能可與常用的單聚焦元件探頭相媲美
    的頭像 發(fā)表于 11-07 10:07 ?1186次閱讀

    Molex莫仕連接器的功能究竟有多強大?看他們的行業(yè)應用你就知道!

    KOYUELEC光與電子:Molex莫仕連接器的功能究竟有多強大?看他們的行業(yè)應用你就知道!
    的頭像 發(fā)表于 12-31 12:30 ?1.2w次閱讀