如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題？

Google提出了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)框架來(lái)訓(xùn)練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態(tài)對(duì)比損失問(wèn)題。

從文本到圖像的自動(dòng)生成，如何訓(xùn)練模型僅通過(guò)一段文本描述輸入就能生成具體的圖像，是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類(lèi)型相比，描述性句子是一種更直觀、更靈活的視覺(jué)概念表達(dá)方式。強(qiáng)大的自動(dòng)文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具，用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。

在CVPR 2021中，Google提出了一個(gè)跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)（XMC-GAN），訓(xùn)練用于文本到圖像合成的 GAN 模型，通過(guò)模態(tài)間與模態(tài)內(nèi)的對(duì)比學(xué)習(xí)使圖像和文本之間的互信息最大化，解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題。

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對(duì)比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集：一個(gè)是MS-COCO 圖像描述集合，另外兩個(gè)是用Localized Narratives注釋的數(shù)據(jù)集，一個(gè)是包括MS-COCO 圖像（稱(chēng)為L(zhǎng)N-COCO），另一個(gè)描述開(kāi)放圖像數(shù)據(jù) （LN-OpenImages）。結(jié)果顯示 XMC-GAN生成圖像所描繪的場(chǎng)景相比于使用其它技術(shù)生成的圖像質(zhì)量更高，在每個(gè)方面都達(dá)到了最先進(jìn)的水平。

MS-COCO對(duì)圖像質(zhì)量和文本對(duì)齊的人工評(píng)估

此外，XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評(píng)估，這相比于 MS-COCO 更具有挑戰(zhàn)性，由于數(shù)據(jù)集更大，圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對(duì)于人類(lèi)評(píng)估和定量指標(biāo)，XMC-GAN 在多個(gè)數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)。可以生成與輸入描述非常匹配的高質(zhì)量圖像，包括更長(zhǎng)，更詳細(xì)的敘述，同時(shí)端到端模型的復(fù)雜度也相對(duì)較為簡(jiǎn)單，這代表了從自然語(yǔ)言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41237
GaN

GaN

+關(guān)注

關(guān)注
19

文章
2206

瀏覽量
76765

原文標(biāo)題：XMC-GAN：從文本到圖像的跨模態(tài)對(duì)比學(xué)習(xí)

文章出處：【微信號(hào)：livevideostack，微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

LiveVideoStack
專(zhuān)欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 什么是PWA？什么讓PWA如此強(qiáng)大？
Hot iOS Airplay Screen Mirroring 同屏技術(shù)詳解

New 關(guān)于轉(zhuǎn)碼系統(tǒng)優(yōu)化原理與實(shí)踐
New Enhanced-RTMP協(xié)議如何支持H.265呢？

精選推薦
更多

文章

資料

帖子

CMOS工藝中方塊電阻的主要類(lèi)型和測(cè)試方法

芯長(zhǎng)征科技
4小時(shí)前

235 閱讀

用于電動(dòng)汽車(chē)供電網(wǎng)絡(luò)的高壓母線轉(zhuǎn)換器48V電源模塊

Vicor
4小時(shí)前

266 閱讀

Copilot操作指南（一）：使用圖片生成原理圖符號(hào)、PCB封裝

KiCad
7小時(shí)前

59 閱讀

如何構(gòu)建帶有VGA輸出的低分辨率熱成像

FPGA研究院
7小時(shí)前

320 閱讀

如何為EMC設(shè)計(jì)選擇PCB疊層結(jié)構(gòu)

Altium
8小時(shí)前

365 閱讀

帶你進(jìn)入工控之門(mén)——學(xué)一種變頻器

李偉
559

10積分

83下載

磁盤(pán)陣列技術(shù)原理

陶瓷肥貓
1.79 MB

免費(fèi)

0下載

Vnlog用于操作ASCII表中數(shù)據(jù)的工具包

陳韻瑄
0.16 MB

2積分

1下載

輸入選擇器開(kāi)源項(xiàng)目

康桃花
0.08 MB

2積分

2下載

Segger J-link到Tag-Connect TC2050適配器

tr4578
0.02 MB

2積分

9下載

匠芯創(chuàng)D133CBS RISC-V KunLun Pi V1.0開(kāi)發(fā)板開(kāi)發(fā)資料

ElecFans小喇叭
18小時(shí)前

53 閱讀

HarmonyOS AI輔助編程工具（CodeGenie）代碼續(xù)寫(xiě)

李洋水蛟龍
18小時(shí)前

59 閱讀

【沁恒CH585開(kāi)發(fā)板免費(fèi)試用體驗(yàn)】手機(jī)控制小臺(tái)燈亮度與小風(fēng)扇轉(zhuǎn)速

yinwuqing
18小時(shí)前

72 閱讀

【嘉楠堪智K230開(kāi)發(fā)板試用體驗(yàn)】K230 AI 功能體驗(yàn)

杯pp
18小時(shí)前

67 閱讀

【Milk-V Duo S 開(kāi)發(fā)板免費(fèi)體驗(yàn)】ISP功能AE測(cè)試

jf_1137202360
18小時(shí)前

177 閱讀

推薦專(zhuān)欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題？

評(píng)論

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題？