一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth

CVer ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-14 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth,能夠適應(yīng)用戶(hù)特定的圖像生成需求。

近來(lái),文本到圖像模型成為一個(gè)熱門(mén)的研究方向,無(wú)論是自然景觀大片,還是新奇的場(chǎng)景圖像,都可能使用簡(jiǎn)單的文本描述自動(dòng)生成的。

其中,渲染天馬行空的的想象場(chǎng)景是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要在新的場(chǎng)景中合成特定主題(物體、動(dòng)物等)的實(shí)例,以便它們自然無(wú)縫地融入場(chǎng)景。

一些大型文本到圖像模型基于用自然語(yǔ)言編寫(xiě)的文本提示(prompt)實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成。這些模型的主要優(yōu)點(diǎn)是從大量的圖像 - 文本描述對(duì)中學(xué)到強(qiáng)大的語(yǔ)義先驗(yàn),例如將「dog」這個(gè)詞與可以在圖像中以不同姿勢(shì)出現(xiàn)的各種狗的實(shí)例關(guān)聯(lián)在一起。

雖然這些模型的合成能力是前所未有的,但它們?nèi)狈δ7陆o定參考主題的能力,以及在不同場(chǎng)景中合成主題相同、實(shí)例不同的新圖像的能力??梢?jiàn),已有模型的輸出域的表達(dá)能力有限。

dc9e274e-636c-11ed-8abf-dac502259ad0.png

為了解決這個(gè)問(wèn)題,來(lái)自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth,能夠適應(yīng)用戶(hù)特定的圖像生成需求。

dcf735a0-636c-11ed-8abf-dac502259ad0.png

論文地址:https://arxiv.org/abs/2208.12242

項(xiàng)目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標(biāo)是擴(kuò)展模型的語(yǔ)言 - 視覺(jué)字典,使其將新詞匯與用戶(hù)想要生成的特定主題綁定。一旦新字典嵌入到模型中,它就可以使用這些詞來(lái)合成特定主題的新穎逼真的圖像,同時(shí)在不同的場(chǎng)景中進(jìn)行情境化,保留關(guān)鍵識(shí)別特征,效果如下圖 1 所示。

dd172b76-636c-11ed-8abf-dac502259ad0.png

具體來(lái)說(shuō),該研究將給定主題的圖像植入模型的輸出域,以便可以使用唯一標(biāo)識(shí)符對(duì)其進(jìn)行合成。為此,該研究提出了一種用稀有 token 標(biāo)識(shí)符表示給定主題的方法,并微調(diào)了一個(gè)預(yù)訓(xùn)練的、基于擴(kuò)散的文本到圖像框架,該框架分兩步運(yùn)行;從文本生成低分辨率圖像,然后應(yīng)用超分辨率(SR)擴(kuò)散模型。

首先該研究使用包含唯一標(biāo)識(shí)符(帶有主題類(lèi)名,例如「A [V] dog」)的輸入圖像和文本提示微調(diào)低分辨率文本到圖像模型。為了防止模型將類(lèi)名與特定實(shí)例過(guò)擬合和語(yǔ)義漂移,該研究提出了一種自生的、特定于類(lèi)的先驗(yàn)保存(preservation)損失,它利用嵌入模型中類(lèi)的先驗(yàn)語(yǔ)義,鼓勵(lì)模型生成給定主題下同一類(lèi)中的不同實(shí)例。

第二步,該研究使用輸入圖像的低分辨率和高分辨率版本對(duì)超分辨率組件進(jìn)行微調(diào)。這允許模型對(duì)場(chǎng)景主題中小而重要細(xì)節(jié)保持高保真度。

我們來(lái)看一下該研究提出的具體方法。

方法介紹

給定 3-5 張捕獲的圖像,這些圖像沒(méi)有文字描述,本文旨在生成具有高細(xì)節(jié)保真度和由文本提示引導(dǎo)變化的新圖像。該研究不對(duì)輸入圖像施加任何限制,并且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出圖像可對(duì)原始圖像進(jìn)行修改,如主題的位置,更改主題的屬性如顏色、形狀,并可以修改主體的姿勢(shì)、表情、材質(zhì)以及其他語(yǔ)義修改。

更具體的說(shuō),本文方法將一個(gè)主題(例如,一只特定的狗)和相應(yīng)類(lèi)名(例如,狗類(lèi)別)的一些圖像(通常 3 - 5 張圖)作為輸入,并返回一個(gè)經(jīng)過(guò)微調(diào) / 個(gè)性化的文本到圖像模型,該模型編碼了一個(gè)引用主題的唯一標(biāo)識(shí)符。然后,在推理時(shí),可以在不同的句子中植入唯一標(biāo)識(shí)符來(lái)合成不同語(yǔ)境中的主題。

dd7a6d9e-636c-11ed-8abf-dac502259ad0.png

該研究的第一個(gè)任務(wù)是將主題實(shí)例植入到模型的輸出域,并將主題與唯一標(biāo)識(shí)符綁定。該研究提出了設(shè)計(jì)標(biāo)識(shí)符的方法,此外還設(shè)計(jì)了一種監(jiān)督模型微調(diào)過(guò)程的新方法。

為了解決圖像過(guò)擬合以及語(yǔ)言漂移問(wèn)題,該研究還提出了一種損失( Prior-Preservation Loss ),通過(guò)鼓勵(lì)擴(kuò)散模型不斷生成與主題相同的類(lèi)的不同實(shí)例,從而減輕模型過(guò)擬合、語(yǔ)言漂移等問(wèn)題。

為了保留圖像細(xì)節(jié),該研究發(fā)現(xiàn)應(yīng)該對(duì)模型的超分辨率(SR)組件進(jìn)行微調(diào),本文在經(jīng)過(guò)預(yù)訓(xùn)練的 Imagen 模型的基礎(chǔ)上來(lái)完成。具體過(guò)程如圖 4 所示,給定同一主題的 3-5 張圖像,之后通過(guò)兩個(gè)步驟微調(diào)文本到圖像的擴(kuò)散模型:

ddc37d68-636c-11ed-8abf-dac502259ad0.png

稀有 token 標(biāo)識(shí)符表示主題

該研究將主題的所有輸入圖像標(biāo)記為「a [identifier] [class noun]」,其中 [identifier] 是鏈接到主題的唯一標(biāo)識(shí)符,而 [class noun] 是主題的粗略類(lèi)別描述符 (例如貓、狗、手表等)。該研究在句子中特別使用了類(lèi)描述符,以便將類(lèi)的先驗(yàn)與主題聯(lián)系起來(lái)。

效果展示

下面是 Dreambooth 一個(gè)穩(wěn)定擴(kuò)散的實(shí)現(xiàn)(參考項(xiàng)目鏈接)。定性結(jié)果:訓(xùn)練圖像來(lái)自「Textual Inversion」庫(kù):

de33066a-636c-11ed-8abf-dac502259ad0.jpg

訓(xùn)練完成后,在「photo of a sks container」提示下,模型生成的集裝箱照片如下:

de5d67fc-636c-11ed-8abf-dac502259ad0.png

在提示中加個(gè)位置「photo of a sks container on the beach」,集裝箱出現(xiàn)在沙灘上;

de843bd4-636c-11ed-8abf-dac502259ad0.png

綠色的集裝箱顏色太單一了,想加點(diǎn)紅色,輸入提示「photo of a red sks container」就能搞定:

df404126-636c-11ed-8abf-dac502259ad0.png

輸入提示「a dog on top of sks container」就能讓小狗坐在箱子里:

df684b8a-636c-11ed-8abf-dac502259ad0.png

下面是論文中展示的一些結(jié)果。生成不同畫(huà)家風(fēng)格的關(guān)于狗狗的藝術(shù)圖:

df943bdc-636c-11ed-8abf-dac502259ad0.png

該研究還可以合成輸入圖像中沒(méi)有出現(xiàn)的各種表情,展示了模型的外推能力:

dfcd19a2-636c-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41233
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3517

    瀏覽量

    50383

原文標(biāo)題:谷歌提出DreamBooth:新擴(kuò)散模型!只需3張圖一句話(huà),AI就能定制照片級(jí)圖像!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用API提升電商用戶(hù)體驗(yàn):個(gè)性化推薦系統(tǒng)

    ? 在當(dāng)今競(jìng)爭(zhēng)激烈的電商環(huán)境中,個(gè)性化推薦系統(tǒng)已成為提升用戶(hù)粘性和轉(zhuǎn)化率的核心工具。通過(guò)API(Application Programming Interface)集成,電商平臺(tái)能夠高效接入先進(jìn)
    的頭像 發(fā)表于 07-14 14:45 ?18次閱讀
    利用API提升電商用戶(hù)體驗(yàn):<b class='flag-5'>個(gè)性化</b>推薦系統(tǒng)

    2025年電商API發(fā)展趨勢(shì):智能個(gè)性化

    體驗(yàn)與商業(yè)生態(tài)。 、智能趨勢(shì):從自動(dòng)自主決策 AI驅(qū)動(dòng)的實(shí)時(shí)決策 API將深度集成機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)動(dòng)態(tài)定價(jià)、庫(kù)存預(yù)測(cè)與風(fēng)險(xiǎn)管控。例
    的頭像 發(fā)表于 07-11 14:26 ?105次閱讀
    2025年電商API發(fā)展趨勢(shì):智能<b class='flag-5'>化</b>與<b class='flag-5'>個(gè)性化</b>

    無(wú)法使用OpenVINO?在 GPU 設(shè)備上運(yùn)行穩(wěn)定擴(kuò)散文本圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    EM儲(chǔ)能網(wǎng)關(guān) ZWS智慧儲(chǔ)能云應(yīng)用(13) — 企業(yè)個(gè)性化配置

    儲(chǔ)能公有云平臺(tái),企業(yè)用戶(hù)如何自主個(gè)性化配置?ZWS智慧儲(chǔ)能云通過(guò)靈活的多級(jí)配置功能,實(shí)現(xiàn)個(gè)性化系統(tǒng)配置,幫助強(qiáng)化儲(chǔ)能企業(yè)獨(dú)特性。簡(jiǎn)介儲(chǔ)能企業(yè)在使用智慧儲(chǔ)能云平臺(tái)時(shí),常面臨企業(yè)個(gè)性化和品牌展示
    的頭像 發(fā)表于 05-23 11:39 ?170次閱讀
    EM儲(chǔ)能網(wǎng)關(guān) ZWS智慧儲(chǔ)能云應(yīng)用(13) — 企業(yè)<b class='flag-5'>個(gè)性化</b>配置

    個(gè)性化醫(yī)療的挑戰(zhàn),微流液體監(jiān)測(cè)

    現(xiàn)代醫(yī)學(xué)已能夠極大改善全球人口的生活質(zhì)量。脊髓灰質(zhì)炎、梅毒、肺結(jié)核或鼠疫等疾病幾乎已經(jīng)根除,并且可以成功治療或治愈。下個(gè)里程碑則是個(gè)性化醫(yī)療。這門(mén)新穎的學(xué)科針對(duì)的并非廣泛人群,而是專(zhuān)注于個(gè)體患者
    的頭像 發(fā)表于 05-19 13:25 ?157次閱讀
    <b class='flag-5'>個(gè)性化</b>醫(yī)療的挑戰(zhàn),微流液體監(jiān)測(cè)

    Melexis LED驅(qū)動(dòng)方案助力汽車(chē)制造商打造個(gè)性化車(chē)內(nèi)空間

    汽車(chē)內(nèi)飾氛圍燈,早已不再是簡(jiǎn)單的照明工具,更是提升駕乘體驗(yàn)、展現(xiàn)個(gè)性化風(fēng)格的重要元素。從靜態(tài)的色彩點(diǎn)綴動(dòng)態(tài)的燈光秀,車(chē)內(nèi)燈光正變得越來(lái)越智能、復(fù)雜。面對(duì)這趨勢(shì),Melexis提供
    的頭像 發(fā)表于 02-21 17:04 ?1671次閱讀

    電梯按需維保:個(gè)性化定制的電梯維護(hù)方案

    需求。電梯按需維保作為一種新興的維保模式,正逐漸受到關(guān)注和青睞。 電梯按需維保的概念 電梯按需維保是指根據(jù)電梯的實(shí)際使用情況和運(yùn)行狀態(tài),制定個(gè)性化的維保計(jì)劃。這種模式摒棄了傳統(tǒng)的固定周期維保方式,而是通過(guò)實(shí)
    的頭像 發(fā)表于 02-19 17:37 ?453次閱讀

    文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像文本。
    的頭像 發(fā)表于 02-12 11:13 ?1742次閱讀
    <b class='flag-5'>一</b>文詳解視覺(jué)語(yǔ)言<b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    今天學(xué)習(xí)大模型RAG 檢索增強(qiáng)生成技術(shù)Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)。這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系,使得計(jì)算機(jī)能夠更好地處
    發(fā)表于 01-17 19:53

    ComplexHeatmap包:個(gè)性化熱圖繪制利器

    雕琢。 官方介紹網(wǎng)站: https://jokergoo.github.io/ComplexHeatmap-reference/book/ 下面來(lái)介紹幾個(gè)簡(jiǎn)單又實(shí)用的個(gè)性化調(diào)整: 可指定分群數(shù),對(duì)熱圖
    的頭像 發(fā)表于 12-31 11:17 ?414次閱讀
    ComplexHeatmap包:<b class='flag-5'>個(gè)性化</b>熱圖繪制利器

    語(yǔ)音芯片賦能可穿戴設(shè)備:開(kāi)啟個(gè)性化音頻新體驗(yàn)

    語(yǔ)音芯片與可穿戴設(shè)備合作,帶來(lái)定制音效、智能降噪、個(gè)性化推薦、語(yǔ)音交互及跨設(shè)備共享等,引領(lǐng)個(gè)性化音頻時(shí)代,提升用戶(hù)聽(tīng)覺(jué)體驗(yàn)。
    的頭像 發(fā)表于 12-14 15:44 ?924次閱讀

    智慧路燈照明管理系統(tǒng),呈現(xiàn)個(gè)性化城市照明效果

    【智慧城市】智慧路燈照明管理系統(tǒng),呈現(xiàn)個(gè)性化城市照明效果
    的頭像 發(fā)表于 10-28 14:39 ?825次閱讀
    智慧路燈照明管理系統(tǒng),呈現(xiàn)<b class='flag-5'>個(gè)性化</b>城市照明效果

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過(guò)去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型
    的頭像 發(fā)表于 10-28 09:30 ?1377次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    以AI破解個(gè)性化客服難題

    文匯集多個(gè)行業(yè)借助 AI 實(shí)現(xiàn)的個(gè)性化客服實(shí)踐
    的頭像 發(fā)表于 10-25 09:06 ?2393次閱讀
    以AI破解<b class='flag-5'>個(gè)性化</b>客服難題

    Meta發(fā)布Imagine Yourself AI模型,重塑個(gè)性化圖像生成未來(lái)

    Meta公司近日在人工智能領(lǐng)域邁出了重要步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這突破性技術(shù)為個(gè)性化圖像
    的頭像 發(fā)表于 08-26 10:59 ?998次閱讀