一区二区三区四区五区六,黄色小电影日本国产

新的研究正在通過一個(gè)文本引導(dǎo)的圖像編輯工具來提升生成式 AI 的創(chuàng)造性潛能。這項(xiàng)創(chuàng)新性的研究提出了一個(gè)使用即插即用擴(kuò)散特征（PnP DFs）的框架，可引導(dǎo)實(shí)現(xiàn)逼真而精確的圖像生成。通過這項(xiàng)研究，視覺內(nèi)容創(chuàng)作者只需一張?zhí)崾緢D片和幾個(gè)描述性詞語，就能將圖像轉(zhuǎn)化為視覺內(nèi)容。

可靠輕松編輯并生成內(nèi)容的能力有助于藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者不斷擴(kuò)展創(chuàng)意的可能性。這也將為那些依賴動(dòng)畫、視覺設(shè)計(jì)和圖像編輯的行業(yè)賦能。

這項(xiàng)研究的首席作者、魏茲曼科學(xué)研究院博士研究生 Narek Tumanyan 表示：“最新的文本到圖像生成模型標(biāo)志著數(shù)字內(nèi)容創(chuàng)作進(jìn)入了一個(gè)新時(shí)代。然而，將它們應(yīng)用于現(xiàn)實(shí)世界的主要挑戰(zhàn)在于缺乏用戶可控性，這在很大程度上局限于‘僅通過輸入文本來引導(dǎo)圖像生成’。我們的工作是最早為用戶提供圖像布局控制權(quán)的方法之一?！?/p>

生成式 AI 的最新突破為開發(fā)強(qiáng)大的文本到圖像模型提供了新方法。然而，復(fù)雜性、模糊性以及對(duì)定制內(nèi)容的需求限制了當(dāng)前渲染技術(shù)的發(fā)展。

這項(xiàng)研究引入了一種新方法，使用 PnP DFs 來改進(jìn)圖像編輯和生成過程，使創(chuàng)作者對(duì)最終產(chǎn)物有更大的控制權(quán)。

研究人員從一個(gè)簡單的問題入手：擴(kuò)散模型如何表現(xiàn)并捕捉圖像的形狀或輪廓？研究探索了圖像在生成過程中不斷演變的內(nèi)部表征，并研究了這些表征如何對(duì)形狀和語義信息進(jìn)行編碼。

這種新方法通過理解如何在預(yù)訓(xùn)練的文本到圖像模型中編碼空間信息來控制生成的圖像布局，而無需訓(xùn)練新的擴(kuò)散模型或?qū)ζ溥M(jìn)行微調(diào)。在生成過程中，模型從引導(dǎo)圖像中提取擴(kuò)散特征，并將其注入到整個(gè)過程中的每一個(gè)步驟，從而對(duì)新圖像的結(jié)構(gòu)進(jìn)行精細(xì)控制。

通過融合這些空間特征，擴(kuò)散模型可以完善新圖像，使其與引導(dǎo)結(jié)構(gòu)相匹配。它會(huì)反復(fù)進(jìn)行此過程，更新圖像特征，直到生成一張既保留引導(dǎo)圖像布局、又與文本提示相匹配的最終圖像。

作者寫道：“這就產(chǎn)生了一種簡單而有效的方法，即從引導(dǎo)圖像中提取的特征直接注入到轉(zhuǎn)化圖像的生成過程中，無需進(jìn)行訓(xùn)練或微調(diào)?！?/p>

這種方法為更先進(jìn)的可控生成和操作方法鋪平了道路。

視頻. 在 2023 年國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議（CVPR）上展示的“文本驅(qū)動(dòng)的圖像到圖像翻譯的即插即用擴(kuò)散特征”研究概述

研究人員使用 cuDNN 加速的 PyTorch 框架在單個(gè) NVIDIA A100 GPU 上開發(fā)并測(cè)試了這個(gè) PNP 模型。該團(tuán)隊(duì)表示，GPU 的大容量使他們能夠?qū)Ｗ⒂陂_發(fā)方法。作為 NVIDIA 應(yīng)用研究加速器計(jì)劃的參與者，這些研究人員獲得了一塊 A100 GPU。

該框架部署在 A100 上，能夠在大約 50 秒內(nèi)從引導(dǎo)圖像和文本轉(zhuǎn)換為一個(gè)新圖像。

該過程不僅有高效，而且可靠，能準(zhǔn)確地生成令人驚嘆的圖像。除圖像外，它還適用于轉(zhuǎn)化草圖、繪圖和動(dòng)畫，并能修改照明、色彩和背景。

圖 1.該方法的示例結(jié)果，保留了引導(dǎo)折紙圖像的結(jié)構(gòu)，同時(shí)與目標(biāo)提示的描述相匹配（來源：Tumanyan, Narek 等人/CVPR 2023）

他們的方法還優(yōu)于現(xiàn)有的文本到圖像模型，在保留引導(dǎo)布局和偏離其外觀之間實(shí)現(xiàn)了卓越的平衡。

圖 2.示例結(jié)果，將該模型與 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型進(jìn)行三種不同噪聲水平的比較（來源：Tumanyan, Narek 等人/CVPR 2023）

然而，該模型確實(shí)存在一些局限性。當(dāng)編輯任意顏色的圖像區(qū)域時(shí)，它的表現(xiàn)并不理想，因?yàn)樵撃Ｐ蜔o法從輸入圖像中提取語義信息。

目前，研究人員正在致力于將這種方法擴(kuò)展到文本引導(dǎo)的視頻編輯中。同時(shí)，該研究還證明對(duì)于其他利用擴(kuò)散模型分析圖像內(nèi)部表征的研究也具有重要價(jià)值。

例如，有一項(xiàng)研究正在利用該團(tuán)隊(duì)的研究成果來改進(jìn)計(jì)算機(jī)視覺任務(wù)，例如語義點(diǎn)對(duì)應(yīng)。另一項(xiàng)研究則專注于擴(kuò)展文本到圖像生成的控制，包括物體的形狀、位置和外觀。

這項(xiàng)研究已在 GitHub 上開源。

點(diǎn)擊“閱讀原文”，或掃描下方海報(bào)二維碼，在 8 月 8日聆聽NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場發(fā)表的 NVIDIA 主題演講，了解 NVIDIA 的新技術(shù)，包括屢獲殊榮的研究，OpenUSD 開發(fā)，以及最新的 AI 內(nèi)容創(chuàng)作解決方案。

原文標(biāo)題：生成式 AI 研究通過引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3935

瀏覽量
93429

原文標(biāo)題：生成式 AI 研究通過引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

生成式 AI 研究通過引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

評(píng)論