狠狠狠狠干蜜臀,日韩巨乳美女乳头久久,一级香蕉视频在线观看视频

CVPR 2023：GLIGEN: Open-Set Grounded Text-to-Image Generation

1. 論文信息

論文題目：GLIGEN: Open-Set Grounded Text-to-Image Generation

作者：Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao,Chunyuan Li, Yong Jae Lee

論文鏈接：https://arxiv.org/abs/2301.07093

代碼地址：https://github.com/gligen/GLIGEN

2. 引言

首先介紹一下open-set Grounded Text2Img Generation，它是一個框架，它可以根據(jù)文本描述和定位指令生成圖像。定位指令提供有關(guān)圖像的附加信息，例如邊界框、深度圖、語義地圖等。所提出的框架可以在不同類型的定位指令上進行訓練，例如檢測數(shù)據(jù)、檢測+字幕數(shù)據(jù)和定位數(shù)據(jù)。該模型在COCO2014數(shù)據(jù)集上進行評估，同時在圖像質(zhì)量和定位準確性方面均取得了最先進的性能。本文的一個限制是，雖然到目前為止的描述集中于使用文本作為實體e和邊界框作為l（本文的主要setting），但是提出的定位指導是以一般形式表示的。然而，提出的框架可以擴展到其他定位條件。

如何做到這些呢？近年來，圖像生成研究取得了巨大進展。過去幾年，GANs是最先進的技術(shù)，其latent space和conditional inputs已經(jīng)得到了深入研究，以實現(xiàn)可控的修改和生成。文本條件自回歸和擴散模型已經(jīng)展示出驚人的圖像質(zhì)量和概念覆蓋，這是由于它們更穩(wěn)定的學習目標和基于網(wǎng)絡(luò)圖像-文本對數(shù)據(jù)的大規(guī)模訓練所致。這些模型甚至引起了公眾的關(guān)注，因為它們具有實用的用例（例如藝術(shù)設(shè)計和創(chuàng)作）。盡管取得了令人興奮的進展，但現(xiàn)有的大規(guī)模文本到圖像生成模型不能以除文本之外的其他輸入模態(tài)為條件，因此缺乏精確定位概念、使用參考圖像或其他條件輸入來控制生成過程的能力。目前的輸入，即僅限自然語言，限制了信息表達的方式。例如，使用文本描述一個物體的精確位置是困難的，而邊界框/關(guān)鍵點可以很容易地實現(xiàn)這一點。雖然存在以其他輸入模態(tài)進行修復、布局到圖像生成等的條件擴散模型和GANs，但它們很少將這些輸入組合起來進行可控的文本到圖像生成。

此外，先前的生成模型（不論生成模型家族）通常是在每個任務(wù)特定的數(shù)據(jù)集上獨立訓練的。相比之下，在識別領(lǐng)域，長期以來的范例是以在大規(guī)模圖像數(shù)據(jù)或圖像-文本對上預訓練的基礎(chǔ)模型為起點構(gòu)建識別模型。由于擴散模型已經(jīng)在數(shù)十億個圖像-文本對上進行了訓練，自然而然的問題是：我們能否在現(xiàn)有預訓練的擴散模型基礎(chǔ)上構(gòu)建新的條件輸入模態(tài)？通過這種方式，類似于識別文獻，由于預訓練模型已經(jīng)具有豐富的概念知識，我們可能能夠在其他生成任務(wù)上實現(xiàn)更好的性能，同時獲得對現(xiàn)有文本到圖像生成模型的更多可控性。

基于上述目標，我們提出了一種方法，為預訓練的文本到圖像擴散模型提供新的基礎(chǔ)條件輸入。我們?nèi)匀槐Ａ粑谋緲祟}作為輸入，但還啟用其他輸入模態(tài)，如邊界框用于定位概念、引用圖像用于定位、部分關(guān)鍵點定位等。關(guān)鍵挑戰(zhàn)是在學習注入新的定位信息的同時保留預訓練模型的原始豐富概念知識。為了防止知識遺忘，我們建議凍結(jié)原始模型權(quán)重，并添加新的可訓練門控Transformer層，以接收新的定位輸入（例如邊界框）。在訓練期間，我們逐漸使用門控機制將新的定位信息融合到預訓練模型中。這種設(shè)計可在生成過程中實現(xiàn)靈活性，以提高質(zhì)量和可控性；例如，我們展示了在前半部分采用全模型（所有層）進行采樣步驟，而在后半部分僅使用原始層（不包括門控Transformer層）可以導致生成結(jié)果準確反映基礎(chǔ)條件，同時具有高品質(zhì)圖像。

3. 方法

3.1 Grounding Instruction Input

定位指令輸入是提供有關(guān)圖像的信息的附加輸入，例如邊界框、深度圖、語義地圖等。該輸入表示為一系列定位tokens，其中每個tokens對應(yīng)于特定類型的定位信息。定位指令輸入包括以下步驟：

從輸入序列中提取定位tokens。

將每個tokens映射到其對應(yīng)的定位信息。

對于每個使用邊界框表示的定位文本實體，我們將位置信息表示為l = [αmin, βmin, αmax, βmax]，其中包含其左上角和右下角坐標。對于文本實體e，我們使用相同的預訓練文本編碼器來獲取其文本特征ftext（e）（圖2中的淺綠色標記），然后將其與其邊界框信息融合以生成定位令tokens：

而keypoints相較于bounding box有什么特點呢？keypoints比bounding box的泛化能力要差，因為關(guān)鍵點表示物體的部分，在不同類別之間不能總是共享。另一方面，邊界框僅指定圖像中物體的粗略位置和大小，并可以跨所有對象類別共享。這意味著，雖然關(guān)鍵點比邊界框提供了更細粒度的控制，但它們的泛化能力較差。本文的作者還提到，他們測試了人類學習的關(guān)鍵點定位信息是否可以轉(zhuǎn)移到其他非人型類別，如貓或燈，用于關(guān)鍵點定位生成，但他們發(fā)現(xiàn)即使使用了計劃采樣，他們的模型在這些情況下也會遇到困難。

從Closed-set轉(zhuǎn)換成Open-set：相較于open set的方法，現(xiàn)有的這種close-set環(huán)境下的布局到圖像生成方法僅適用于封閉集設(shè)置，限制了模型推廣到新實體的能力，也缺乏語言指令的語義結(jié)構(gòu)。提出的定位指令采用通用形式，可以擴展到其他定位條件，例如圖像提示、關(guān)鍵點和空間對齊條件。圖像提示可以用于描述更抽象和精細的概念，而關(guān)鍵點和空間對齊條件則提供了更細粒度的可控性。而如圖所示，采用了UNet的結(jié)構(gòu)，其可以通過將條件映射輸入到第一個卷積層中來加速。

3.2 Continual Learning for Grounded Generation

基于連續(xù)學習的定位生成是一種方法，使生成模型能夠從新的定位信息中學習而不會忘記以前學習的信息?；谶B續(xù)學習的定位生成的步驟包括：

在大型圖像和captioning數(shù)據(jù)集上預訓練生成模型。

在包含額外定位信息的較小圖像和captioning數(shù)據(jù)集上fine-tuning模型。

使用回放緩沖區(qū)存儲之前學習的信息，并在學習新的定位信息時使用它來防止遺忘。

使用連續(xù)學習方法訓練模型，平衡學習新信息的重要性和保留以前學習的信息。

使用生成模型將文本描述與提取的定位信息相結(jié)合生成最終圖像。

為了加快推理過程中的節(jié)奏，本文還提出了一種新的迭代模式，Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一種技術(shù)，通過設(shè)置一個稱為beta的參數(shù)來安排推理時間的采樣，其中beta可以設(shè)置為1（使用額外的定位信息）或0（降低到原始預訓練擴散模型）。這允許模型在不同階段利用不同的知識。通過將tau設(shè)置為0.2，可以使用計劃采樣來改善圖像質(zhì)量，并擴展模型以生成具有類似人形形狀的其他對象。

計劃采樣的主要好處是提高了視覺效果的質(zhì)量，因為粗略的概念位置和輪廓在早期階段被確定，后續(xù)階段則是細節(jié)的精細化處理。它還可以讓我們將在一個領(lǐng)域（人類關(guān)鍵點）訓練的模型擴展到其他領(lǐng)域（猴子卡通人物），如圖1所示。

4. 實驗

這段突出顯示的文本呈現(xiàn)了表格1，該表格顯示了在COCO2014驗證集上圖像質(zhì)量和布局對應(yīng)性的評估結(jié)果。表格中的數(shù)字來自相應(yīng)的論文，是在COCO數(shù)據(jù)集上進行微調(diào)的模型。GLIGEN是建立在之上的模型。COCO2014數(shù)據(jù)集是文本到圖像生成領(lǐng)域中使用的標準基準，用于在封閉集設(shè)置中評估模型的生成質(zhì)量和定位準確性。評估不同類型的定位指令以查看它們對模型性能的影響。比較的指標就是Inception Score（IS）、Fréchet Inception Distance（FID）和Layout Distance Metric（LDM）這些常用的生成模型客觀性評價指標。IS衡量生成圖像的質(zhì)量，F(xiàn)ID衡量生成圖像與真實圖像的相似性，而LDM衡量生成的圖像與給定布局的對應(yīng)性。然后比較了使用COCO2014數(shù)據(jù)集的不同論文的結(jié)果，例如StackGAN++、AttnGAN和DM-GAN。這些論文對上述指標得分的表現(xiàn)不同。是在COCO數(shù)據(jù)集上進行微調(diào)的模型，它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型，它的得分比表格中提到的其他模型都要好?？梢姳疚奶岢龇椒ǖ挠行?。

結(jié)合實驗來看，本文提出的方法，在性能和泛化性上，都有特別出彩的點。

5. 討論

本文的貢獻在于提出了一種新的文本到圖像生成方法GLIGEN，它賦予了現(xiàn)有的文本到圖像擴散模型新的定位可控性。該模型使用邊界框輸入實現(xiàn)了開放世界的定位文本到圖像生成，即合成訓練中未觀察到的新的局部概念。該模型在布局到圖像任務(wù)的零樣本表現(xiàn)顯著優(yōu)于之前的最新技術(shù)水平，展示了在大型預訓練生成模型的基礎(chǔ)上進行下游任務(wù)建模的強大能力。本文總結(jié)認為，GLIGEN是推進文本到圖像合成領(lǐng)域和擴展預訓練模型在各種應(yīng)用中能力的有前途的方向。

本文的一個limitation是，所提出的GLIGEN模型需要大量的訓練數(shù)據(jù)才能實現(xiàn)良好的性能。另一個限制是，模型的性能高度依賴于提供的定位信息的質(zhì)量。此外，模型生成具有細節(jié)的圖像的能力也受到限制。作者建議未來的工作重點應(yīng)該放在改進模型處理復雜定位信息和生成更逼真、更詳細圖像的能力上。

6. 結(jié)論

GLIGEN是本文提出的一種方法，用于擴展預訓練的文本到圖像擴散模型的定位能力。該方法使用邊界框、關(guān)鍵點、參考圖像和空間對齊條件（例如邊緣圖、深度圖等）來從文本描述生成圖像。該模型使用多層感知機來提取定位信息，并將其與文本描述相結(jié)合生成最終圖像?；谶B續(xù)學習的定位生成被用于允許模型從新的定位信息中學習而不會忘記以前學習的信息。作者展示了GLIGEN在開放世界泛化方面的有效性，并表明它可以輕松擴展到其他定位條件。本文總結(jié)認為，GLIGEN是推進文本到圖像合成領(lǐng)域和擴展預訓練模型在各種應(yīng)用中能力的有前途的方向。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

LDM

LDM

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
10735
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50442
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25457

原文標題：論文解讀 Open-Set Grounded Text-to-Image Generation

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

GLIGEN在開放世界泛化方面的有效性

評論