一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GLIGEN在開放世界泛化方面的有效性

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-05-29 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CVPR 2023:GLIGEN: Open-Set Grounded Text-to-Image Generation

1. 論文信息

論文題目:GLIGEN: Open-Set Grounded Text-to-Image Generation

作者:Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao,Chunyuan Li, Yong Jae Lee

論文鏈接:https://arxiv.org/abs/2301.07093

代碼地址:https://github.com/gligen/GLIGEN

2. 引言

首先介紹一下open-set Grounded Text2Img Generation,它是一個框架,它可以根據(jù)文本描述和定位指令生成圖像。定位指令提供有關(guān)圖像的附加信息,例如邊界框、深度圖、語義地圖等。所提出的框架可以在不同類型的定位指令上進行訓練,例如檢測數(shù)據(jù)、檢測+字幕數(shù)據(jù)和定位數(shù)據(jù)。該模型在COCO2014數(shù)據(jù)集上進行評估,同時在圖像質(zhì)量和定位準確性方面均取得了最先進的性能。本文的一個限制是,雖然到目前為止的描述集中于使用文本作為實體e和邊界框作為l(本文的主要setting),但是提出的定位指導是以一般形式表示的。然而,提出的框架可以擴展到其他定位條件。

如何做到這些呢?近年來,圖像生成研究取得了巨大進展。過去幾年,GANs是最先進的技術(shù),其latent space和conditional inputs已經(jīng)得到了深入研究,以實現(xiàn)可控的修改和生成。文本條件自回歸和擴散模型已經(jīng)展示出驚人的圖像質(zhì)量和概念覆蓋,這是由于它們更穩(wěn)定的學習目標和基于網(wǎng)絡(luò)圖像-文本對數(shù)據(jù)的大規(guī)模訓練所致。這些模型甚至引起了公眾的關(guān)注,因為它們具有實用的用例(例如藝術(shù)設(shè)計和創(chuàng)作)。盡管取得了令人興奮的進展,但現(xiàn)有的大規(guī)模文本到圖像生成模型不能以除文本之外的其他輸入模態(tài)為條件,因此缺乏精確定位概念、使用參考圖像或其他條件輸入來控制生成過程的能力。目前的輸入,即僅限自然語言,限制了信息表達的方式。例如,使用文本描述一個物體的精確位置是困難的,而邊界框/關(guān)鍵點可以很容易地實現(xiàn)這一點。雖然存在以其他輸入模態(tài)進行修復、布局到圖像生成等的條件擴散模型和GANs,但它們很少將這些輸入組合起來進行可控的文本到圖像生成。

此外,先前的生成模型(不論生成模型家族)通常是在每個任務(wù)特定的數(shù)據(jù)集上獨立訓練的。相比之下,在識別領(lǐng)域,長期以來的范例是以在大規(guī)模圖像數(shù)據(jù)或圖像-文本對上預訓練的基礎(chǔ)模型為起點構(gòu)建識別模型。由于擴散模型已經(jīng)在數(shù)十億個圖像-文本對上進行了訓練,自然而然的問題是:我們能否在現(xiàn)有預訓練的擴散模型基礎(chǔ)上構(gòu)建新的條件輸入模態(tài)?通過這種方式,類似于識別文獻,由于預訓練模型已經(jīng)具有豐富的概念知識,我們可能能夠在其他生成任務(wù)上實現(xiàn)更好的性能,同時獲得對現(xiàn)有文本到圖像生成模型的更多可控性。

基于上述目標,我們提出了一種方法,為預訓練的文本到圖像擴散模型提供新的基礎(chǔ)條件輸入。我們?nèi)匀槐A粑谋緲祟}作為輸入,但還啟用其他輸入模態(tài),如邊界框用于定位概念、引用圖像用于定位、部分關(guān)鍵點定位等。關(guān)鍵挑戰(zhàn)是在學習注入新的定位信息的同時保留預訓練模型的原始豐富概念知識。為了防止知識遺忘,我們建議凍結(jié)原始模型權(quán)重,并添加新的可訓練門控Transformer層,以接收新的定位輸入(例如邊界框)。在訓練期間,我們逐漸使用門控機制將新的定位信息融合到預訓練模型中。這種設(shè)計可在生成過程中實現(xiàn)靈活性,以提高質(zhì)量和可控性;例如,我們展示了在前半部分采用全模型(所有層)進行采樣步驟,而在后半部分僅使用原始層(不包括門控Transformer層)可以導致生成結(jié)果準確反映基礎(chǔ)條件,同時具有高品質(zhì)圖像。

3. 方法

3.1 Grounding Instruction Input

定位指令輸入是提供有關(guān)圖像的信息的附加輸入,例如邊界框、深度圖、語義地圖等。該輸入表示為一系列定位tokens,其中每個tokens對應(yīng)于特定類型的定位信息。定位指令輸入包括以下步驟:

從輸入序列中提取定位tokens。

將每個tokens映射到其對應(yīng)的定位信息。

75cee5e6-fcf8-11ed-90ce-dac502259ad0.png

對于每個使用邊界框表示的定位文本實體,我們將位置信息表示為l = [αmin, βmin, αmax, βmax],其中包含其左上角和右下角坐標。對于文本實體e,我們使用相同的預訓練文本編碼器來獲取其文本特征ftext(e)(圖2中的淺綠色標記),然后將其與其邊界框信息融合以生成定位令tokens:

而keypoints相較于bounding box有什么特點呢?keypoints比bounding box的泛化能力要差,因為關(guān)鍵點表示物體的部分,在不同類別之間不能總是共享。另一方面,邊界框僅指定圖像中物體的粗略位置和大小,并可以跨所有對象類別共享。這意味著,雖然關(guān)鍵點比邊界框提供了更細粒度的控制,但它們的泛化能力較差。本文的作者還提到,他們測試了人類學習的關(guān)鍵點定位信息是否可以轉(zhuǎn)移到其他非人型類別,如貓或燈,用于關(guān)鍵點定位生成,但他們發(fā)現(xiàn)即使使用了計劃采樣,他們的模型在這些情況下也會遇到困難。

從Closed-set轉(zhuǎn)換成Open-set:相較于open set的方法,現(xiàn)有的這種close-set環(huán)境下的布局到圖像生成方法僅適用于封閉集設(shè)置,限制了模型推廣到新實體的能力,也缺乏語言指令的語義結(jié)構(gòu)。提出的定位指令采用通用形式,可以擴展到其他定位條件,例如圖像提示、關(guān)鍵點和空間對齊條件。圖像提示可以用于描述更抽象和精細的概念,而關(guān)鍵點和空間對齊條件則提供了更細粒度的可控性。而如圖所示,采用了UNet的結(jié)構(gòu),其可以通過將條件映射輸入到第一個卷積層中來加速。

3.2 Continual Learning for Grounded Generation

基于連續(xù)學習的定位生成是一種方法,使生成模型能夠從新的定位信息中學習而不會忘記以前學習的信息?;谶B續(xù)學習的定位生成的步驟包括:

在大型圖像和captioning數(shù)據(jù)集上預訓練生成模型。

在包含額外定位信息的較小圖像和captioning數(shù)據(jù)集上fine-tuning模型。

使用回放緩沖區(qū)存儲之前學習的信息,并在學習新的定位信息時使用它來防止遺忘。

75ec5f40-fcf8-11ed-90ce-dac502259ad0.png

使用連續(xù)學習方法訓練模型,平衡學習新信息的重要性和保留以前學習的信息。

使用生成模型將文本描述與提取的定位信息相結(jié)合生成最終圖像。

76224da8-fcf8-11ed-90ce-dac502259ad0.png

為了加快推理過程中的節(jié)奏,本文還提出了一種新的迭代模式,Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一種技術(shù),通過設(shè)置一個稱為beta的參數(shù)來安排推理時間的采樣,其中beta可以設(shè)置為1(使用額外的定位信息)或0(降低到原始預訓練擴散模型)。這允許模型在不同階段利用不同的知識。通過將tau設(shè)置為0.2,可以使用計劃采樣來改善圖像質(zhì)量,并擴展模型以生成具有類似人形形狀的其他對象。

計劃采樣的主要好處是提高了視覺效果的質(zhì)量,因為粗略的概念位置和輪廓在早期階段被確定,后續(xù)階段則是細節(jié)的精細化處理。它還可以讓我們將在一個領(lǐng)域(人類關(guān)鍵點)訓練的模型擴展到其他領(lǐng)域(猴子卡通人物),如圖1所示。

4. 實驗

7631b4a0-fcf8-11ed-90ce-dac502259ad0.png

這段突出顯示的文本呈現(xiàn)了表格1,該表格顯示了在COCO2014驗證集上圖像質(zhì)量和布局對應(yīng)性的評估結(jié)果。表格中的數(shù)字來自相應(yīng)的論文,是在COCO數(shù)據(jù)集上進行微調(diào)的模型。GLIGEN是建立在之上的模型。COCO2014數(shù)據(jù)集是文本到圖像生成領(lǐng)域中使用的標準基準,用于在封閉集設(shè)置中評估模型的生成質(zhì)量和定位準確性。評估不同類型的定位指令以查看它們對模型性能的影響。比較的指標就是Inception Score(IS)、Fréchet Inception Distance(FID)和Layout Distance Metric(LDM)這些常用的生成模型客觀性評價指標。IS衡量生成圖像的質(zhì)量,F(xiàn)ID衡量生成圖像與真實圖像的相似性,而LDM衡量生成的圖像與給定布局的對應(yīng)性。然后比較了使用COCO2014數(shù)據(jù)集的不同論文的結(jié)果,例如StackGAN++、AttnGAN和DM-GAN。這些論文對上述指標得分的表現(xiàn)不同。是在COCO數(shù)據(jù)集上進行微調(diào)的模型,它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型,它的得分比表格中提到的其他模型都要好??梢姳疚奶岢龇椒ǖ挠行?。

結(jié)合實驗來看,本文提出的方法,在性能和泛化性上,都有特別出彩的點。

5. 討論

本文的貢獻在于提出了一種新的文本到圖像生成方法GLIGEN,它賦予了現(xiàn)有的文本到圖像擴散模型新的定位可控性。該模型使用邊界框輸入實現(xiàn)了開放世界的定位文本到圖像生成,即合成訓練中未觀察到的新的局部概念。該模型在布局到圖像任務(wù)的零樣本表現(xiàn)顯著優(yōu)于之前的最新技術(shù)水平,展示了在大型預訓練生成模型的基礎(chǔ)上進行下游任務(wù)建模的強大能力。本文總結(jié)認為,GLIGEN是推進文本到圖像合成領(lǐng)域和擴展預訓練模型在各種應(yīng)用中能力的有前途的方向。

本文的一個limitation是,所提出的GLIGEN模型需要大量的訓練數(shù)據(jù)才能實現(xiàn)良好的性能。另一個限制是,模型的性能高度依賴于提供的定位信息的質(zhì)量。此外,模型生成具有細節(jié)的圖像的能力也受到限制。作者建議未來的工作重點應(yīng)該放在改進模型處理復雜定位信息和生成更逼真、更詳細圖像的能力上。

6. 結(jié)論

GLIGEN是本文提出的一種方法,用于擴展預訓練的文本到圖像擴散模型的定位能力。該方法使用邊界框、關(guān)鍵點、參考圖像和空間對齊條件(例如邊緣圖、深度圖等)來從文本描述生成圖像。該模型使用多層感知機來提取定位信息,并將其與文本描述相結(jié)合生成最終圖像?;谶B續(xù)學習的定位生成被用于允許模型從新的定位信息中學習而不會忘記以前學習的信息。作者展示了GLIGEN在開放世界泛化方面的有效性,并表明它可以輕松擴展到其他定位條件。本文總結(jié)認為,GLIGEN是推進文本到圖像合成領(lǐng)域和擴展預訓練模型在各種應(yīng)用中能力的有前途的方向。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • LDM
    LDM
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    10735
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50442
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25457

原文標題:論文解讀 Open-Set Grounded Text-to-Image Generation

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    1553B總線產(chǎn)品有效性測試(VTP)平臺

    MIL-STD-1553B標準,針對電氣參數(shù)測試、協(xié)議兼容測試、噪聲抑制測試三大方面,制定了包括測試目的、連接結(jié)構(gòu)、測試內(nèi)容和通過準則等內(nèi)容的測試細則,可有效而全面地解決1553B總線產(chǎn)品設(shè)計定型前
    發(fā)表于 01-20 16:01

    神奇的數(shù)據(jù)有效性的使用

    數(shù)據(jù)有效性的使用
    發(fā)表于 06-24 16:59

    CS的有效性可以改編?

    1. “如果SD卡在接收復位命令過程中CS低電平有效,則進入SPI模式,否則工作SD 總線模式?!边@個不太理解,CS的有效性可以改編嗎,如何實現(xiàn)??2. 我的SD卡和LCD都是用SPI讀寫,我在讀
    發(fā)表于 05-21 06:50

    ATPG有效性是什么意思

    Automatic Test Pattern Generation(ATPG)ATPG有效性是衡量測試錯誤覆蓋了的重要指標。測試是向一個處于已知狀態(tài)的對象施加確定的輸入激勵,并測量其確定的輸出響應(yīng)
    發(fā)表于 07-29 08:47

    特征選擇減少預測推理時間方面的有效性展示

    。特征選擇是大多數(shù)機器學習管道中的一個重要步驟,主要用于提高性能。當減少特征時,就是降低了模型的復雜,從而降低了訓練和驗證的時間。在這篇文章中,我們展示了特征選擇減少預測推理時間方面的有效
    發(fā)表于 09-07 14:46

    壓縮機故障率的有效性估計和維修周期的確定

    壓縮機故障率的有效性估計和維修周期的確定
    發(fā)表于 05-21 15:01 ?19次下載

    高斯混合模型對乳腺癌診斷的有效性初探

    計算機輔助醫(yī)療診斷是計算機應(yīng)用的一個熱門方向。本文旨在探討基于EM 算法的高斯混合模型乳腺癌診斷方面的有效性。通過與現(xiàn)在流行的BP 神經(jīng)網(wǎng)絡(luò)輔助醫(yī)療診斷方法的比較
    發(fā)表于 01-09 11:54 ?24次下載

    新的模糊聚類有效性指標

    新的模糊聚類有效性指標_趙娜娜
    發(fā)表于 01-07 20:32 ?0次下載

    如何檢查Oracle數(shù)據(jù)庫備份文件是否有效?備份文件有效性檢測系統(tǒng)設(shè)計資料概述

    從Oracle 數(shù)據(jù)庫的備份文件是否有效的角度出發(fā),針對企業(yè)往往只注重如何制定完善的生產(chǎn)數(shù)據(jù)備份設(shè)計方案,而忽視對備份數(shù)據(jù)有效性進行檢測這一問題。依據(jù)備份檢測原理并考慮實際生產(chǎn)環(huán)境,設(shè)計了
    發(fā)表于 09-07 17:14 ?5次下載
    如何檢查Oracle數(shù)據(jù)庫備份文件是否<b class='flag-5'>有效</b>?備份文件<b class='flag-5'>有效性</b>檢測系統(tǒng)設(shè)計資料概述

    什么是欺詐證明和有效性證明

    欺詐證明提出證據(jù),表明狀態(tài)轉(zhuǎn)換是不正確的。它們反映了對世界的樂觀看法:假設(shè)區(qū)塊代表L2數(shù)據(jù)的正確狀態(tài),直到被證明不是這樣。但實際上,一個已提交的區(qū)塊可能包含錯誤的狀態(tài)轉(zhuǎn)換。 有效性證明則提出
    發(fā)表于 01-28 10:46 ?2762次閱讀

    PLC冗余系統(tǒng)的可行有效性分析

    結(jié)合客戶需求,通過熱備硬件和軟件冗余程序設(shè)計控制系統(tǒng)冗余方案。從熱備硬件和冗余程序設(shè)計的角度分別分析了冗余系統(tǒng)的可靠和系統(tǒng)主備站切換時間,實踐證明冗余系統(tǒng)的可行有效性.
    發(fā)表于 10-30 16:26 ?10次下載
    PLC冗余系統(tǒng)的可行<b class='flag-5'>性</b>和<b class='flag-5'>有效性</b>分析

    利用人工智能測試藥物對新冠的治療有效性

    利用人工智能來測試藥物對新冠的治療有效性和安全
    的頭像 發(fā)表于 11-29 09:34 ?2391次閱讀

    Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案

    Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案(電源技術(shù)投稿難度)-該文檔為Oracle數(shù)據(jù)庫備份文件有效性檢測設(shè)計方案講解文檔,是一份不錯的參考資料,感興趣的可以下載看看,,,,,,,,,,,
    發(fā)表于 09-24 16:58 ?2次下載
    Oracle數(shù)據(jù)庫備份文件<b class='flag-5'>有效性</b>檢測設(shè)計方案

    合成數(shù)據(jù)的不合理有效性

    電子發(fā)燒友網(wǎng)站提供《合成數(shù)據(jù)的不合理有效性.zip》資料免費下載
    發(fā)表于 07-13 09:29 ?0次下載
    合成數(shù)據(jù)的不合理<b class='flag-5'>有效性</b>

    adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換?

    adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換?adc采集溫度基準電壓紋波太大有什么影響? ADC采集的電壓值數(shù)值真正的有效性轉(zhuǎn)換,需要考慮多個因素。首先需要明確的是,ADC采集到的數(shù)字量表示的是一種電壓值
    的頭像 發(fā)表于 10-17 18:17 ?1973次閱讀