一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來(lái)源:CVer ? 2023-09-26 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文簡(jiǎn)介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過(guò)額外添加的空間條件如人體姿態(tài)、目標(biāo)框來(lái)控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件,上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說(shuō)如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺(jué)先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來(lái)建模上述視覺(jué)先驗(yàn)。因此,我們可以從學(xué)習(xí)好的先驗(yàn)中通過(guò)Prompt從多個(gè)層面,例如表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼)、物體類別、大小和數(shù)量,來(lái)采樣空間限制條件。我們?cè)O(shè)想,隨著可控?cái)U(kuò)散模型生成能力的提升,以此可以針對(duì)性地生成圖像用于特定場(chǎng)景下的數(shù)據(jù)補(bǔ)充,例如擁擠場(chǎng)景下的人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)。

方法介紹

表1 訓(xùn)練數(shù)據(jù)

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文從當(dāng)前公開(kāi)的數(shù)據(jù)集中整理收集了七種數(shù)據(jù),如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺(jué)先驗(yàn)并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過(guò)程中,我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3},并通過(guò)極大化似然來(lái)學(xué)習(xí)視覺(jué)先驗(yàn),如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出,如下圖所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

圖1 定制序列輸出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50425
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25447
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    7037

原文標(biāo)題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新知|Verizon與AT&T也可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實(shí)現(xiàn)了通過(guò)衛(wèi)星的視頻通話。很顯然,Verizon與AT&T的這一舉措是針對(duì)此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?466次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    rt-thread studio debug生成了elf &amp;amp;amp; map,為什么不生成反匯編?

    開(kāi)發(fā)中crash后dump出了現(xiàn)場(chǎng),需要通過(guò)反匯編文件確定crash的lr &amp;amp; pc,大部分使用rtthread studio的環(huán)境是windows,在windows下倒反匯編文件
    發(fā)表于 06-11 06:42

    雙模載波芯片CN8513&amp;amp;amp;CN8514在智能家居中的創(chuàng)新應(yīng)用

    雙模載波芯片CN8513&amp;CN8514在智能家居中的創(chuàng)新應(yīng)用
    的頭像 發(fā)表于 02-10 09:43 ?476次閱讀
    雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514在智能家居中的創(chuàng)新應(yīng)用

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514應(yīng)用于智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514應(yīng)用于智能樓宇
    的頭像 發(fā)表于 01-09 10:01 ?552次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514應(yīng)用于智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514用于智能抄表系統(tǒng)

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514用于智能抄表系統(tǒng)
    的頭像 發(fā)表于 01-03 10:04 ?1270次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514用于智能抄表系統(tǒng)

    宏集X7 &amp;amp; X10系列手持HMI——突破限制,賦能工業(yè)現(xiàn)場(chǎng)

    全新宏集X7 &amp; X10系列手持HMI重磅上市!您打破傳統(tǒng)人機(jī)交互的空間限制,實(shí)現(xiàn)更高效、更安全的生產(chǎn)操作
    的頭像 發(fā)表于 12-24 17:38 ?567次閱讀
    宏集X7 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; X10系列手持HMI——突破限制,賦能工業(yè)現(xiàn)場(chǎng)

    如何判斷產(chǎn)品需不需要做AT&amp;amp;amp;T認(rèn)證?AT&amp;amp;amp;T測(cè)試內(nèi)容和要求分享

    隨著經(jīng)濟(jì)全球化的發(fā)展,國(guó)內(nèi)越來(lái)越多產(chǎn)品廠商選擇將自家產(chǎn)品出口到北美市場(chǎng),而這時(shí)候各位廠商都會(huì)面臨產(chǎn)品需不需要做AT&amp;T的問(wèn)題。今天英利檢測(cè)針對(duì)這一問(wèn)題整理了一些關(guān)于AT&amp;T認(rèn)證中
    的頭像 發(fā)表于 12-23 17:46 ?628次閱讀
    如何判斷產(chǎn)品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T測(cè)試內(nèi)容和要求分享

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    北美運(yùn)營(yíng)商AT&amp;T的認(rèn)證測(cè)試內(nèi)容涵蓋了多個(gè)方面,以確保設(shè)備和服務(wù)的質(zhì)量、兼容性以及用戶體驗(yàn)。在AT&amp;T的認(rèn)證測(cè)試中,VoLTE(VoiceoverLTE)測(cè)試項(xiàng)是一個(gè)重要的組成部分
    的頭像 發(fā)表于 12-06 16:52 ?602次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證的測(cè)試內(nèi)容有哪些?

    北美運(yùn)營(yíng)商AT&amp;T的認(rèn)證測(cè)試內(nèi)容涵蓋了多個(gè)方面,以確保設(shè)備和服務(wù)的質(zhì)量、兼容性以及用戶體驗(yàn)。以下是英利檢測(cè)整合的AT&amp;T認(rèn)證的主要測(cè)試內(nèi)容:基礎(chǔ)認(rèn)證測(cè)試聯(lián)邦通信委員會(huì)(FCC
    的頭像 發(fā)表于 11-12 17:39 ?834次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的測(cè)試內(nèi)容有哪些?

    能力再次提升! 迅RK3588/RK3568開(kāi)發(fā)板&amp;amp;amp;核心板新增定制分區(qū)鏡像

    能力再次提升! 迅RK3588/RK3568開(kāi)發(fā)板&amp;核心板新增定制分區(qū)鏡像
    的頭像 發(fā)表于 11-06 15:11 ?1429次閱讀
    能力再次提升! 迅<b class='flag-5'>為</b>RK3588/RK3568開(kāi)發(fā)板&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;核心板新增<b class='flag-5'>定制</b>分區(qū)鏡像

    視覺(jué)傳感器 | 這些常見(jiàn)的Q&amp;amp;amp;A!今天統(tǒng)一回答!

    明治的視覺(jué)傳感器功能豐富,集相機(jī)、光源、鏡頭一體,搭載先進(jìn)的算法,可被握在手心的小巧尺寸,是狹小空間的視覺(jué)檢測(cè)神器。備利用傳感器與光學(xué)元件獲取被測(cè)物的圖像,通過(guò)設(shè)備內(nèi)置的深度學(xué)習(xí)算法實(shí)現(xiàn)有無(wú)檢測(cè)
    的頭像 發(fā)表于 11-05 08:03 ?788次閱讀
    視覺(jué)傳感器 |  這些常見(jiàn)的Q&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;A!今天統(tǒng)一回答!

    itop-3568開(kāi)發(fā)板AMP雙系統(tǒng)使用手冊(cè)之燒寫AMP鏡像

    itop-3568開(kāi)發(fā)板AMP雙系統(tǒng)使用手冊(cè)之燒寫AMP鏡像
    的頭像 發(fā)表于 11-04 15:00 ?1264次閱讀
    迅<b class='flag-5'>為</b>itop-3568開(kāi)發(fā)板<b class='flag-5'>AMP</b>雙系統(tǒng)使用手冊(cè)之燒寫<b class='flag-5'>AMP</b>鏡像

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證的費(fèi)用受哪些因素影響

    申請(qǐng)北美運(yùn)營(yíng)商AT&amp;T認(rèn)證的價(jià)格因多種因素而異,包括產(chǎn)品類型、認(rèn)證范圍、測(cè)試難度等。一般來(lái)說(shuō),申請(qǐng)AT&amp;T認(rèn)證的費(fèi)用可能相對(duì)較高,因?yàn)锳T&amp;T作為北美地區(qū)的主要電信運(yùn)營(yíng)商,其
    的頭像 發(fā)表于 10-16 17:10 ?644次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的費(fèi)用受哪些因素影響

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    01直播介紹直播時(shí)間2024/10/281430直播內(nèi)容1.onsemiLV/MVMOSFET產(chǎn)品優(yōu)勢(shì)&amp;市場(chǎng)地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發(fā)表于 10-13 08:06 ?910次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

    思瑞浦車規(guī)級(jí)產(chǎn)品矩陣,全面覆蓋汽車級(jí)CAN&amp;amp;amp;LIN、LDO需求

    聚焦高性能模擬芯片和嵌入式處理器近期,思瑞浦廣大工程師帶來(lái)了《思瑞浦車規(guī)級(jí)產(chǎn)品矩陣,全面覆蓋汽車級(jí)CAN&amp;LIN、LDO需求》的在線研討會(huì)直播,重點(diǎn)介紹了思瑞浦汽車產(chǎn)品布局與技術(shù)優(yōu)勢(shì),同時(shí)
    的頭像 發(fā)表于 09-21 08:10 ?1127次閱讀
    思瑞浦車規(guī)級(jí)產(chǎn)品矩陣,全面覆蓋汽車級(jí)CAN&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;LIN、LDO需求