一级二级三级高清视频,日本三级中文字幕,国产精品久久久久久无码一区二区

來(lái)自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth，能夠適應(yīng)用戶(hù)特定的圖像生成需求。

近來(lái)，文本到圖像模型成為一個(gè)熱門(mén)的研究方向，無(wú)論是自然景觀大片，還是新奇的場(chǎng)景圖像，都可能使用簡(jiǎn)單的文本描述自動(dòng)生成的。

其中，渲染天馬行空的的想象場(chǎng)景是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，需要在新的場(chǎng)景中合成特定主題（物體、動(dòng)物等）的實(shí)例，以便它們自然無(wú)縫地融入場(chǎng)景。

一些大型文本到圖像模型基于用自然語(yǔ)言編寫(xiě)的文本提示（prompt）實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成。這些模型的主要優(yōu)點(diǎn)是從大量的圖像 - 文本描述對(duì)中學(xué)到強(qiáng)大的語(yǔ)義先驗(yàn)，例如將「dog」這個(gè)詞與可以在圖像中以不同姿勢(shì)出現(xiàn)的各種狗的實(shí)例關(guān)聯(lián)在一起。

雖然這些模型的合成能力是前所未有的，但它們?nèi)狈δ７陆o定參考主題的能力，以及在不同場(chǎng)景中合成主題相同、實(shí)例不同的新圖像的能力?？梢?jiàn)，已有模型的輸出域的表達(dá)能力有限。

為了解決這個(gè)問(wèn)題，來(lái)自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth，能夠適應(yīng)用戶(hù)特定的圖像生成需求。

論文地址：https://arxiv.org/abs/2208.12242

項(xiàng)目地址：https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標(biāo)是擴(kuò)展模型的語(yǔ)言 - 視覺(jué)字典，使其將新詞匯與用戶(hù)想要生成的特定主題綁定。一旦新字典嵌入到模型中，它就可以使用這些詞來(lái)合成特定主題的新穎逼真的圖像，同時(shí)在不同的場(chǎng)景中進(jìn)行情境化，保留關(guān)鍵識(shí)別特征，效果如下圖 1 所示。

具體來(lái)說(shuō)，該研究將給定主題的圖像植入模型的輸出域，以便可以使用唯一標(biāo)識(shí)符對(duì)其進(jìn)行合成。為此，該研究提出了一種用稀有 token 標(biāo)識(shí)符表示給定主題的方法，并微調(diào)了一個(gè)預(yù)訓(xùn)練的、基于擴(kuò)散的文本到圖像框架，該框架分兩步運(yùn)行；從文本生成低分辨率圖像，然后應(yīng)用超分辨率（SR）擴(kuò)散模型。

首先該研究使用包含唯一標(biāo)識(shí)符（帶有主題類(lèi)名，例如「A [V] dog」）的輸入圖像和文本提示微調(diào)低分辨率文本到圖像模型。為了防止模型將類(lèi)名與特定實(shí)例過(guò)擬合和語(yǔ)義漂移，該研究提出了一種自生的、特定于類(lèi)的先驗(yàn)保存（preservation）損失，它利用嵌入模型中類(lèi)的先驗(yàn)語(yǔ)義，鼓勵(lì)模型生成給定主題下同一類(lèi)中的不同實(shí)例。

第二步，該研究使用輸入圖像的低分辨率和高分辨率版本對(duì)超分辨率組件進(jìn)行微調(diào)。這允許模型對(duì)場(chǎng)景主題中小而重要細(xì)節(jié)保持高保真度。

我們來(lái)看一下該研究提出的具體方法。

方法介紹

給定 3-5 張捕獲的圖像，這些圖像沒(méi)有文字描述，本文旨在生成具有高細(xì)節(jié)保真度和由文本提示引導(dǎo)變化的新圖像。該研究不對(duì)輸入圖像施加任何限制，并且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出圖像可對(duì)原始圖像進(jìn)行修改，如主題的位置，更改主題的屬性如顏色、形狀，并可以修改主體的姿勢(shì)、表情、材質(zhì)以及其他語(yǔ)義修改。

更具體的說(shuō)，本文方法將一個(gè)主題（例如，一只特定的狗）和相應(yīng)類(lèi)名（例如，狗類(lèi)別）的一些圖像（通常 3 - 5 張圖）作為輸入，并返回一個(gè)經(jīng)過(guò)微調(diào) / 個(gè)性化的文本到圖像模型，該模型編碼了一個(gè)引用主題的唯一標(biāo)識(shí)符。然后，在推理時(shí)，可以在不同的句子中植入唯一標(biāo)識(shí)符來(lái)合成不同語(yǔ)境中的主題。

該研究的第一個(gè)任務(wù)是將主題實(shí)例植入到模型的輸出域，并將主題與唯一標(biāo)識(shí)符綁定。該研究提出了設(shè)計(jì)標(biāo)識(shí)符的方法，此外還設(shè)計(jì)了一種監(jiān)督模型微調(diào)過(guò)程的新方法。

為了解決圖像過(guò)擬合以及語(yǔ)言漂移問(wèn)題，該研究還提出了一種損失（ Prior-Preservation Loss ），通過(guò)鼓勵(lì)擴(kuò)散模型不斷生成與主題相同的類(lèi)的不同實(shí)例，從而減輕模型過(guò)擬合、語(yǔ)言漂移等問(wèn)題。

為了保留圖像細(xì)節(jié)，該研究發(fā)現(xiàn)應(yīng)該對(duì)模型的超分辨率（SR）組件進(jìn)行微調(diào)，本文在經(jīng)過(guò)預(yù)訓(xùn)練的 Imagen 模型的基礎(chǔ)上來(lái)完成。具體過(guò)程如圖 4 所示，給定同一主題的 3-5 張圖像，之后通過(guò)兩個(gè)步驟微調(diào)文本到圖像的擴(kuò)散模型：

稀有 token 標(biāo)識(shí)符表示主題

該研究將主題的所有輸入圖像標(biāo)記為「a [identifier] [class noun]」，其中 [identifier] 是鏈接到主題的唯一標(biāo)識(shí)符，而 [class noun] 是主題的粗略類(lèi)別描述符（例如貓、狗、手表等）。該研究在句子中特別使用了類(lèi)描述符，以便將類(lèi)的先驗(yàn)與主題聯(lián)系起來(lái)。

效果展示

下面是 Dreambooth 一個(gè)穩(wěn)定擴(kuò)散的實(shí)現(xiàn)（參考項(xiàng)目鏈接）。定性結(jié)果：訓(xùn)練圖像來(lái)自「Textual Inversion」庫(kù)：

訓(xùn)練完成后，在「photo of a sks container」提示下，模型生成的集裝箱照片如下：

在提示中加個(gè)位置「photo of a sks container on the beach」，集裝箱出現(xiàn)在沙灘上；

綠色的集裝箱顏色太單一了，想加點(diǎn)紅色，輸入提示「photo of a red sks container」就能搞定：

輸入提示「a dog on top of sks container」就能讓小狗坐在箱子里：

下面是論文中展示的一些結(jié)果。生成不同畫(huà)家風(fēng)格的關(guān)于狗狗的藝術(shù)圖：

該研究還可以合成輸入圖像中沒(méi)有出現(xiàn)的各種表情，展示了模型的外推能力：

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴