一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新晉圖像生成王者擴(kuò)散模型

OpenCV學(xué)堂 ? 來源:StyleGAN ? 作者:StyleGAN ? 2022-06-06 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

新晉圖像生成王者擴(kuò)散模型,剛剛誕生沒多久。

有關(guān)它的理論和實(shí)踐都還在“野蠻生長(zhǎng)”。

來自英偉達(dá)StyleGAN的原班作者們站了出來,嘗試給出了一些設(shè)計(jì)擴(kuò)散模型的竅門和準(zhǔn)則,結(jié)果模型的質(zhì)量和效率都有所改進(jìn),比如將現(xiàn)有ImageNet-64模型的FID分?jǐn)?shù)從2.07提高到接近SOTA的1.55分。

c89fd514-e4df-11ec-ba43-dac502259ad0.png

他們這一工作成果迅速得到了業(yè)界大佬的認(rèn)同。

DeepMind研究員就稱贊道:這篇論文簡(jiǎn)直就是訓(xùn)練擴(kuò)散模型的人必看,妥妥的一座金礦。

c8eb9008-e4df-11ec-ba43-dac502259ad0.png

三大貢獻(xiàn)顯著提高模型質(zhì)量和效率

我們從以下幾個(gè)方面來看StyleGAN作者們對(duì)擴(kuò)散模型所做的三大貢獻(xiàn):

用通用框架表示擴(kuò)散模型

在這部分,作者的貢獻(xiàn)主要為從實(shí)踐的角度觀察模型背后的理論,重點(diǎn)關(guān)注出現(xiàn)在訓(xùn)練和采樣階段的“有形”對(duì)象和算法,更好地了解了組件是如何連接在一起的,以及它們?cè)谡麄€(gè)系統(tǒng)的設(shè)計(jì)中可以使用的自由度(degrees of freedom)。

精華就是下面這張表:

c9384056-e4df-11ec-ba43-dac502259ad0.png

該表給出了在他們的框架中復(fù)現(xiàn)三種模型的確定變體的公式。

(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實(shí)現(xiàn)了SOTA性能,還來自不同的理論基礎(chǔ)。)

這些公式讓組件之間原則上沒有隱含的依賴關(guān)系,在合理范圍內(nèi)選擇任意單個(gè)公示都可以得出一個(gè)功能模型。

隨機(jī)采樣和確定性采樣的改進(jìn)

作者的第二組貢獻(xiàn)涉及擴(kuò)散模型合成圖像的采樣過程。

他們確定了最佳的時(shí)間離散化(time discretization),對(duì)采樣過程應(yīng)用了更高階的Runge–Kutta方法,并在三個(gè)預(yù)訓(xùn)練模型上評(píng)估不同的方法,分析了隨機(jī)性在采樣過程中的有用性。

結(jié)果在合成過程中所需的采樣步驟數(shù)量顯著減少,改進(jìn)的采樣器可以用作幾個(gè)廣泛使用的擴(kuò)散模型的直接替代品。

先看確定性采樣。用到的三個(gè)測(cè)試模型還是上面的那三個(gè),來自不同的理論框架和模型族。

作者首先使用原始的采樣器(sampler)實(shí)現(xiàn)測(cè)量這些模型的基線結(jié)果,然后使用表1中的公式將這些采樣方法引入他們的統(tǒng)一框架,再進(jìn)行改進(jìn)。

接著根據(jù)在50000張生成圖像和所有可用真實(shí)圖像之間計(jì)算的FID分?jǐn)?shù)來評(píng)估質(zhì)量。

c9765d6e-e4df-11ec-ba43-dac502259ad0.png

可以看到,原始的的確定性采樣器以藍(lán)色顯示,在他們的統(tǒng)一框架(橙色)中重新實(shí)現(xiàn)這些方法會(huì)產(chǎn)生類似或更好的結(jié)果。

作者解釋,這些差異是由于原始實(shí)現(xiàn)中的某些疏忽,加上作者對(duì)離散噪聲級(jí)的處理更仔細(xì)造成的。

確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機(jī)采樣相比,它輸出的圖像質(zhì)量確實(shí)更差。

不過作者很好奇,假設(shè)ODE(常微分方程)和SDE(隨機(jī)微分方程)在理論上恢復(fù)相同的分布,隨機(jī)性的作用到底是什么?

在此他們提出了一種新的隨機(jī)采樣器,它將現(xiàn)有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結(jié)合。

最終模型性能提升顯著,而且僅通過對(duì)采樣器的改進(jìn),就能夠讓ImageNet-64模型原來的FID分?jǐn)?shù)從2.07提高到1.55,接近SOTA水平。

c9a2bbd4-e4df-11ec-ba43-dac502259ad0.png

預(yù)處理和訓(xùn)練

作者的第三組貢獻(xiàn)主要為分?jǐn)?shù)建模(score-modeling)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

這部分繼續(xù)依賴常用的網(wǎng)絡(luò)體系結(jié)構(gòu)(DDPM、NCSN),作者通過對(duì)擴(kuò)散模型設(shè)置中網(wǎng)絡(luò)的輸入、輸出和損失函數(shù)的預(yù)處理進(jìn)行了原則性分析,得出了改進(jìn)訓(xùn)練動(dòng)態(tài)的最佳實(shí)踐。

比如使用依賴于σ(noise level)的跳躍連接對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)處理,使其能夠估計(jì)y(signal)或n(noise),或介于兩者之間的東西。

下表具體展示了模型彩英不同訓(xùn)練配置得到的FID分?jǐn)?shù)。

c9fe22bc-e4df-11ec-ba43-dac502259ad0.png

作者從基線訓(xùn)練配置開始,使用確定性采樣器(稱為配置A),重新調(diào)整了基本超參數(shù)(配置B),并通過移除最低分辨率層,并將最高分辨率層的容量加倍來提高模型的表達(dá)能力(配置C)。

然后用預(yù)處理(配置D)替換原來的{cin,cout,cnoise,cskip}選項(xiàng)。這使結(jié)果基本保持不變,但VE在64×64分辨率下有很大改善。該預(yù)處理方法的主要好處不是改善FID本身,而是使訓(xùn)練更加穩(wěn)健,從而將重點(diǎn)轉(zhuǎn)向重新設(shè)計(jì)損失函數(shù)又不會(huì)產(chǎn)生不利影響。

VP和VE只在Fθ的架構(gòu)上有所不同(配置E和F)。

除此之外,作者還建議改進(jìn)訓(xùn)練期間的噪聲級(jí)分布,并發(fā)現(xiàn)通常與GANs一起使用的無泄漏風(fēng)險(xiǎn)增強(qiáng)(non-leaking augmentation)操作也有利于擴(kuò)散模型。

比如從上表中,我們可以看到:有條件和無條件CIFAR-10的最新FID分別達(dá)到了1.79和1.97,打破了之前的記錄(1.85和2.1046)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95405
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50434

原文標(biāo)題:DeepMind谷歌研究員力薦:擴(kuò)散模型效率&生成質(zhì)量提升竅門,來自StyleGAN原作者

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無法使用OpenVINO?在 GPU 設(shè)備上運(yùn)行穩(wěn)定擴(kuò)散文本到圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本到圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個(gè)
    的頭像 發(fā)表于 06-05 09:24 ?389次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?444次閱讀

    ?Diffusion生成式動(dòng)作引擎技術(shù)解析

    Diffusion生成式動(dòng)作引擎 Diffusion生成式動(dòng)作引擎是一種基于擴(kuò)散模型(Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?1841次閱讀

    DeepSeek大模型如何推動(dòng)“AI+物流”融合創(chuàng)新

    在人工智能技術(shù)的迭代浪潮中,大模型(Large Language Models, LLM)正從文本生成、圖像創(chuàng)作走向垂直行業(yè)賦能。2025年新年,國(guó)產(chǎn) AI 大模型 DeepSeek
    的頭像 發(fā)表于 02-28 16:36 ?689次閱讀

    AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    電子發(fā)燒友網(wǎng)站提供《AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?.pdf》資料免費(fèi)下載
    發(fā)表于 01-13 14:21 ?0次下載
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    基于移動(dòng)自回歸的時(shí)序擴(kuò)散預(yù)測(cè)模型

    回歸取得了比傳統(tǒng)基于噪聲的擴(kuò)散模型更好的生成效果,并且獲得了人工智能頂級(jí)會(huì)議 NeurIPS 2024 的 best paper。 然而在時(shí)間序列預(yù)測(cè)領(lǐng)域,當(dāng)前主流的擴(kuò)散方法還是傳統(tǒng)的
    的頭像 發(fā)表于 01-03 14:05 ?896次閱讀
    基于移動(dòng)自回歸的時(shí)序<b class='flag-5'>擴(kuò)散</b>預(yù)測(cè)<b class='flag-5'>模型</b>

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示
    的頭像 發(fā)表于 01-03 10:38 ?902次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>圖像</b>

    Google兩款先進(jìn)生成式AI模型登陸Vertex AI平臺(tái)

    新的 AI 模型,包括最先進(jìn)的視頻生成模型Veo以及最高品質(zhì)的圖像生成模型Imagen 3。近日
    的頭像 發(fā)表于 12-30 09:56 ?627次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    引入GPT這樣的大模型后,情況發(fā)生了根本性的變化。只需提供適當(dāng)?shù)奶崾驹~以及封裝好的機(jī)器人函數(shù)庫(kù),大模型便能靈活地生成控制代碼,極大地簡(jiǎn)化了開發(fā)過程,并提高了自動(dòng)化水平。 此外,大模型
    發(fā)表于 12-29 23:04

    浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題

    隨著擴(kuò)散生成模型的發(fā)展,人工智能步入了屬于?AIGC?的新紀(jì)元。擴(kuò)散生成模型可以對(duì)初始高斯噪聲進(jìn)
    的頭像 發(fā)表于 11-27 09:21 ?696次閱讀
    浙大、微信提出精確反演采樣器新范式,徹底解決<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>反演問題

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?1388次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    NVIDIA CorrDiff生成式AI模型能夠精準(zhǔn)預(yù)測(cè)臺(tái)風(fēng)

    在 NVIDIA GPU 上運(yùn)行的一個(gè)擴(kuò)散模型向天氣預(yù)報(bào)工作者展示了加速計(jì)算如何實(shí)現(xiàn)新的用途并提升能效。
    的頭像 發(fā)表于 09-13 17:13 ?1296次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計(jì)資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作領(lǐng)域邁入了一個(gè)全新的高度
    的頭像 發(fā)表于 08-30 16:23 ?1590次閱讀

    Meta發(fā)布Imagine Yourself AI模型,重塑個(gè)性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要一步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這一突破性技術(shù)為個(gè)性化圖像生成領(lǐng)域帶來了前所未有的變革。在社交媒體與虛擬現(xiàn)實(shí)技術(shù)
    的頭像 發(fā)表于 08-26 10:59 ?1009次閱讀