一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不會(huì)PS還想做圖?微軟、京東出黑科技:說一句話就能生成圖片!

DPVg_AI_era ? 來源:YXQ ? 2019-06-24 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟和京東最近出了一個(gè)黑科技:說一句話就能生成圖片!在這項(xiàng)研究中,研究人員提出了一種新的機(jī)器學(xué)習(xí)框架——ObjGAN,可以通過關(guān)注文本描述中最相關(guān)的單詞和預(yù)先生成的語義布局(semantic layout)來合成顯著對(duì)象。

不會(huì)PS還想做圖?可以的!

近期,由紐約州立大學(xué)奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實(shí)現(xiàn)這個(gè)需求:只需要輸入一句話,就可以生成圖片!

輸入:

輸出:

在這項(xiàng)研究中,研究人員提出了一種新的機(jī)器學(xué)習(xí)框架——ObjGAN,可以通過關(guān)注文本描述中最相關(guān)的單詞和預(yù)先生成的語義布局(semantic layout)來合成顯著對(duì)象。

此外,他們還提出了一種新的基于Fast R-CNN的關(guān)于對(duì)象(object-wise)鑒別器,用來提供關(guān)于合成對(duì)象是否與文本描述和預(yù)先生成的布局匹配的對(duì)象識(shí)別信號(hào)。

論文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項(xiàng)工作已經(jīng)發(fā)表在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域頂會(huì)CVPR 2019。

這篇論文的合著作者表示,與之前最先進(jìn)的技術(shù)相比,他們的方法大大提高了圖像質(zhì)量:

我們的生成器能夠利用細(xì)粒度的單詞和對(duì)象級(jí)(object-level)信息逐步細(xì)化合成圖像。

大量的實(shí)驗(yàn)證明了ObjGAN在復(fù)雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片!

根據(jù)文本的描述來生成圖像,可以說是機(jī)器學(xué)習(xí)中一項(xiàng)非常重要的任務(wù)。

這項(xiàng)任務(wù)需要處理自然語言描述中模糊和不完整的信息,并且還需要跨視覺和語言模式來進(jìn)行學(xué)習(xí)。

自從GAN提出后,這項(xiàng)任務(wù)在結(jié)果上取得了較好的成績,但是目前這些基于GAN的方法有一個(gè)缺點(diǎn):

大多數(shù)圖像合成方法都是基于全局句子向量來合成圖像,而全局句子向量可能會(huì)丟失單詞級(jí)別(word-level)的重要細(xì)粒度信息,從而阻礙高質(zhì)量圖像的生成。

大多數(shù)方法都沒有在圖像中明確地建模對(duì)象及其關(guān)系,因此難以生成復(fù)雜的場景。

圖1 頂部:AttnGAN及其網(wǎng)格注意力可視化;中部:修改前人工作的結(jié)果;底部:ObjGAN及其對(duì)象驅(qū)動(dòng)的注意力可視化

舉個(gè)例子,如果要根據(jù)“幾個(gè)人穿滑雪服的人在雪地里”這句話生成一張圖片,那么需要對(duì)不同的對(duì)象(人、滑雪服)及其交互(穿滑雪服的人)進(jìn)行建模,還需要填充缺失的信息(例如背景中的巖石)。

圖1的第一行是由AttnGAN生成的圖像,雖然圖像中包含了人和雪的紋理,但是人的形狀是扭曲的,圖像布局在語義上是沒有意義的。

為了解決這個(gè)問題,首先從文本構(gòu)造語義布局,然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知,雖然細(xì)粒度的word/objectlevel信息仍然沒有很好的用于生成。因此,合成的圖像沒有包含足夠的細(xì)節(jié)讓它們看起來更加真實(shí)。

本研究的目標(biāo)就是生成具有語義意義(semantically meaningful)的布局和現(xiàn)實(shí)對(duì)象的高質(zhì)量復(fù)雜圖像。

為此,研究人員提出了一種新穎的對(duì)象驅(qū)動(dòng)的注意力生成對(duì)抗網(wǎng)絡(luò)(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),該網(wǎng)絡(luò)能夠有效地捕獲和利用細(xì)粒度的word/objectlevel信息進(jìn)行文本到圖像的合成。

ObjGAN由一對(duì)兒對(duì)象驅(qū)動(dòng)的注意力圖像生成器和object-wise判別器組成,并采用了一種新的對(duì)象驅(qū)動(dòng)注意機(jī)制。

圖2 對(duì)象驅(qū)動(dòng)的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預(yù)先生成的語義布局為輸入,通過多階段由粗到精的過程合成高分辨率圖像。

在每個(gè)階段,生成器通過關(guān)注與該邊界框中的對(duì)象最相關(guān)的單詞來合成邊界框內(nèi)的圖像區(qū)域,如圖1的底部行所示。

更具體地說,它使用一個(gè)新的對(duì)象驅(qū)動(dòng)的注意層,使用類標(biāo)簽查詢句子中的單詞,形成一個(gè)單詞上下文向量,如圖4所示,然后根據(jù)類標(biāo)簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對(duì)象驅(qū)動(dòng)的注意力

Object-wise判別器會(huì)對(duì)每個(gè)邊界框進(jìn)行檢查,確保生成的對(duì)象確實(shí)與預(yù)先生成的語義布局是匹配的。

同時(shí),為了有效地計(jì)算所有邊界框的識(shí)別損失,object-wise判別器基于一個(gè)Fast-RNN,并且每個(gè)邊界框都有一個(gè)二院交叉熵?fù)p失。

實(shí)驗(yàn)結(jié)果

研究人員在實(shí)驗(yàn)過程中采用的數(shù)據(jù)集是COCO數(shù)據(jù)集。它包含80個(gè)對(duì)象類,其中每個(gè)圖像與對(duì)象注釋(即,邊界框和形狀)和5個(gè)文本描述相關(guān)聯(lián)。

在評(píng)價(jià)指標(biāo)方面,研究人員采用 Inception score(IS)和Frechet Inception distance(FID) score作為定量評(píng)價(jià)指標(biāo)。結(jié)果如下表所示:

表1

接下來,是采用不同方法生成圖像的結(jié)果與實(shí)際圖像的對(duì)比結(jié)果:

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進(jìn)行定性比較

圖7 與P-AttnGAN的定性比較。 每個(gè)方法的注意力圖顯示在生成的圖像旁邊。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105714
  • 京東方
    +關(guān)注

    關(guān)注

    25

    文章

    1541

    瀏覽量

    61041

原文標(biāo)題:CVPR 2019:微軟最新提出ObjGAN,輸入一句話秒生成圖片

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一句話PPT“的榮耀YOYO,AI生產(chǎn)力有多強(qiáng)?

    釋放AI生產(chǎn)力,榮耀讓智能體告別發(fā)布會(huì)炫技
    的頭像 發(fā)表于 07-14 14:15 ?309次閱讀
    “<b class='flag-5'>一句話</b>秒<b class='flag-5'>出</b>PPT“的榮耀YOYO,AI生產(chǎn)力有多強(qiáng)?

    CYW55513是否支持linux4.4?

    開始支持55513的驅(qū)動(dòng)版本是Infineon Linux Wi-Fi驅(qū)動(dòng)程序(FMAC)(v2024_1115) 但在發(fā)行說明中有一句話 從內(nèi)核版本 4.14 到內(nèi)核版本 6.1.97 的反向移植支持 說明backport是不支持4.4的,我想確認(rèn)下是否有驅(qū)動(dòng)能支持l
    發(fā)表于 06-05 07:26

    使用FX3 SDK發(fā)布源代碼是否違反許可?

    使用 FX3 SDK 發(fā)布源代碼是否違反許可? CYPRESS?EZ-USB? FX3 SDK1.3licenselicense.txt ”4. 專有權(quán)利; 到“您同意對(duì)源代碼保密?!?那里寫著一句話,所以我想問下以確定。
    發(fā)表于 05-08 06:54

    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    派上,拿起聽筒、撥號(hào),就能享受由AI驅(qū)動(dòng)的對(duì)話,仿佛回到了傳統(tǒng)的電話時(shí)代。樹莓派負(fù)責(zé)語音識(shí)別、文本生成和語音播放,ChatGPT會(huì)記住通話中的每一句話。這意味著你
    的頭像 發(fā)表于 04-13 09:04 ?1418次閱讀
    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    想讀ADS1248寄存器寫入的值,是否必須改變SPI工作模式?

    我在ADS1248手冊的53頁看到這樣的一句話,It is not possible to use the full-duplex nature of the SPI interface when
    發(fā)表于 01-09 07:45

    使用ADS1220設(shè)計(jì)款電路用來采集個(gè)電阻橋式傳感器,使用內(nèi)部的2.048V基準(zhǔn)作為基準(zhǔn)電壓?

    請(qǐng)教個(gè)問題。我使用ADS1220設(shè)計(jì)款電路用來采集個(gè)電阻橋式傳感器。設(shè)計(jì)的時(shí)候我想使用內(nèi)部的2.048V基準(zhǔn)作為基準(zhǔn)電壓,以下為電路。 但是我在看技術(shù)手冊的時(shí)候,有這么
    發(fā)表于 01-06 06:00

    福田汽車2025合作伙伴大會(huì)有哪些看點(diǎn)

    2024行將收官,各商用車企業(yè)的年會(huì)也將召開,日前商用汽車新聞傳媒收到福田汽車2025全球合作伙伴大會(huì)的邀請(qǐng)函,著實(shí)震驚,只因開頭第一句話:把不可能變成可能!
    的頭像 發(fā)表于 12-02 14:39 ?672次閱讀

    晶科能源N型TOPCon技術(shù)為什么能領(lǐng)跑行業(yè)

    晶科能源在N型TOPCon的領(lǐng)導(dǎo)者地位,用一句話形容就是:領(lǐng)先行業(yè)6個(gè)月!
    的頭像 發(fā)表于 11-21 11:08 ?789次閱讀
    晶科能源N型TOPCon技術(shù)為什么能領(lǐng)跑行業(yè)

    開關(guān)電源布線 一句話:要運(yùn)行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    開關(guān)電源在布線上最大的特點(diǎn)是拓?fù)湟鸬母哳l(高壓)強(qiáng)電流與控制級(jí)的弱電信號(hào)交織在起,首先要保證強(qiáng)電流的存在不干擾電源內(nèi)部的控制信號(hào),其次要盡量減少對(duì)外部的干擾(EMC)。一句話:要運(yùn)行最穩(wěn)定、波形
    的頭像 發(fā)表于 10-28 14:06 ?1839次閱讀
    開關(guān)電源布線 <b class='flag-5'>一句話</b>:要運(yùn)行最穩(wěn)定、波形最漂亮、電磁兼容性最好

    求助,關(guān)于TLE2141的供電問題求解

    在TLE2141的DATASHEET中,在供電方面有一句話,Single or Split Supply . . . 4 V to 44 V,此句話不甚明確,雖然DATASHEET中有例子,可證明 此運(yùn)放可5V單電源供電,我本人仍有疑問,40V單電源供電可否,請(qǐng)各位大拿
    發(fā)表于 09-09 06:46

    想把差分信號(hào)轉(zhuǎn)為單端信號(hào),不是音頻信號(hào),OPA365是否還可以使用呢?

    我想請(qǐng)教下,想把差分信號(hào)轉(zhuǎn)為單端信號(hào)(頻段在100-600KHz),不是音頻信號(hào),這款芯片是否還可以使用呢?另:用TINA想仿真OPA365對(duì)于所需頻段差分信號(hào)得的放大效果是否滿足實(shí)用性,但是搭建不通。可能剛上手,玩不轉(zhuǎn)這款軟件。所以想取捷徑,問問諸位,我的第一句話可否回答
    發(fā)表于 08-27 06:33

    知網(wǎng)狀告AI搜索:搜到我家論文題目和摘要,你侵權(quán)了!

    創(chuàng)業(yè)團(tuán)隊(duì)秘塔AI搜索,被知網(wǎng)給告了!足足28頁的侵權(quán)告知函,總結(jié)一句話就是:貴司的AI搜索,能搜到我家的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),且沒經(jīng)我司許可,嚴(yán)重侵權(quán)。
    的頭像 發(fā)表于 08-16 17:47 ?619次閱讀
    知網(wǎng)狀告AI搜索:搜到我家論文題目和摘要,你侵權(quán)了!

    如何設(shè)計(jì)RC去耦的R和C的值?

    如何設(shè)計(jì)RC去耦的R和C的值,最后一句話的意思是負(fù)載電流的變化決定R和C的值,能舉個(gè)例子怎么計(jì)算這個(gè)值嗎?
    發(fā)表于 08-14 07:47

    深入淺系列之代碼可讀性

    ”,這是對(duì)我最大的鼓勵(lì)。 、老生常談,到底啥是可讀性 一句話:見名知其義。有人好的代碼必然有清晰完整的注釋,我不否認(rèn);也有人代碼即注釋,是代碼簡潔之道的最高境界,我也不否認(rèn)。但我
    的頭像 發(fā)表于 08-09 16:00 ?521次閱讀

    Elasticsearch Mapping類型修改

    ”,這是對(duì)我最大的鼓勵(lì)。 、老生常談,到底啥是可讀性 一句話:見名知其義。有人好的代碼必然有清晰完整的注釋,我不否認(rèn);也有人代碼即注釋,是代碼簡潔之道的最高境界,我也不否認(rèn)。但我
    的頭像 發(fā)表于 08-09 16:00 ?267次閱讀