一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Discrete Diffusion的模型不可知分割細(xì)化

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2024-01-19 15:14 ? 次閱讀

這次這篇文章介紹一篇很有意思的工作:SegRefiner,來自 NeurIPS, 2023,目前代碼已開源。

SegRefiner 提出一種新的的任務(wù)解釋,將分割細(xì)化視為一個數(shù)據(jù)生成過程。因此,細(xì)化可以通過一系列去噪擴(kuò)散步驟來實現(xiàn),其中 Coarse Mask 是 Ground Truth 的噪聲版本。此外,為了處理二值掩模,進(jìn)一步設(shè)計了一種新穎的離散擴(kuò)散過程,在該過程中,每個像素執(zhí)行單向隨機(jī)狀態(tài)轉(zhuǎn)換。所提出的過程可以在訓(xùn)練期間逐漸將 Ground Truth 轉(zhuǎn)換為 Coarse Mask,并在推理期間使用 Coarse Mask 作為采樣起點。換句話說,SegRefiner 將掩模細(xì)化任務(wù)表述為一個條件生成問題,其中輸入圖像(指原圖)作為條件,用于迭代更新/細(xì)化 Coarse Mask 中的錯誤預(yù)測。

SegRefiner 是模型不可知的,因此適用于不同的分割模型和任務(wù)。SegRefiner 驗證的任務(wù)包括:語義分割,實例分割和二分圖像分割。

相關(guān)工作

分割細(xì)化的目標(biāo)是提高現(xiàn)有分割模型中掩模的質(zhì)量。一些工作專注于增強(qiáng)特定的分割模型。還有一些模型不可知方法的細(xì)化方法,這些策略強(qiáng)調(diào)使用多種形式的輸入,包括整個圖像、邊界補(bǔ)丁和邊緣條帶等。盡管這些技術(shù)可以細(xì)化來自不同模型的粗糙掩模,但它們的適用性仍然局限于特定的分割任務(wù)。

擴(kuò)散模型在檢測和分割任務(wù)中的應(yīng)用也成為越來越多研究的焦點,這些研究主要遵循 DDPM 的高斯擴(kuò)散過程,并利用額外的圖像編碼器來提取圖像特征作為生成掩模的條件。SegRefiner 是第一個將擴(kuò)散模型應(yīng)用于圖像分割細(xì)化任務(wù)的工作,它還在基于擴(kuò)散的分割任務(wù)中首次放棄連續(xù)的高斯假設(shè),轉(zhuǎn)而采用新設(shè)計的離散擴(kuò)散過程。

Forward diffusion process

在介紹前向過程之前,先看一下整體框架的實現(xiàn):

158fc404-b2e0-11ee-8b88-92fbcf53809c.png請?zhí)砑訄D片描述

右側(cè)是提出的 transition sample 模塊,它基于輸入狀態(tài)轉(zhuǎn)換概率從當(dāng)前掩模中隨機(jī)采樣像素,并改變它們的值以匹配目標(biāo)掩模中的值(也就是完成我們在引言中提到的“每個像素執(zhí)行單向隨機(jī)狀態(tài)轉(zhuǎn)換”)??催@張框架圖的時候,注意區(qū)分不同 pipeline 的顏色區(qū)分,這里吐槽一下,我第一看 transition sample 沒有清楚的看到三種輸入。

在訓(xùn)練期間,轉(zhuǎn)換樣本模塊將 Ground Truth 轉(zhuǎn)換為 Coarse Mask,因此 Coarse Mask 是目標(biāo)掩模。在推理過程中,目標(biāo)掩模指的是預(yù)測的細(xì)致掩模,這個模塊根據(jù)預(yù)測的細(xì)致掩模和轉(zhuǎn)換概率在每個時間步中更新 Coarse Mask 中的值。

接下來仔細(xì)介紹下前向過程:

這種方法涉及將一個精細(xì)的 mask 逐漸轉(zhuǎn)變?yōu)橐粋€更粗糙的 mask,包含以下關(guān)鍵要素:

起始狀態(tài) (mo):與 ground truth 的精細(xì) mask 相對應(yīng)。

目標(biāo)狀態(tài) (mr):一個粗糙的 mask。

中間狀態(tài) (mt):隨著時間步 t 的增加,逐漸從 mo 向 mr 演變的中間狀態(tài)。

轉(zhuǎn)移采樣模塊

引入了“轉(zhuǎn)移采樣”模塊,該模塊負(fù)責(zé)根據(jù)當(dāng)前 mask mt、粗 mask mr 以及狀態(tài)轉(zhuǎn)移概率來進(jìn)行狀態(tài)的轉(zhuǎn)移。狀態(tài)的轉(zhuǎn)移是單向的,保證了最終會收斂到粗糙 mask mr。

重參數(shù)技巧

此外,SegRefiner 還提到了重參數(shù)技巧(reparameterization trick),通過引入二元隨機(jī)變量 x 來描述這一過程。該過程允許直接獲取任何中間時間步的 mask mt,而無需逐步采樣。具體表述為:

定義 x 表示為一個 one-hot 向量,表示中間掩模 mt 中像素 (i, j) 的狀態(tài)。

設(shè)置 xi = [1, 0] 和 xi = [0, 1] 分別表示精細(xì)狀態(tài)和粗糙狀態(tài)。

因此,前向過程可以表示為公式:

where

為超參數(shù),而 對應(yīng)了上述的狀態(tài)轉(zhuǎn)移概率。狀態(tài)轉(zhuǎn)移矩陣 的邊緣分布可以表示為:

整體上還是遵循 DDPM,但是引入 二元隨機(jī)變量 x 。

Reverse diffusion process

將粗糙 mask mr 逐漸修正為精細(xì) mask mo。

由于此時精細(xì) mask mo 和狀態(tài)轉(zhuǎn)移概率未知,對照著 SegRefiner 框架圖來看,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò) 來預(yù)測精細(xì) ,表示為:

其中 I 是相應(yīng)的圖像。

和 分別表示預(yù)測的精細(xì) mask 和其置信度分?jǐn)?shù)。相應(yīng)的, 可視作 中每個像素處于“精細(xì)狀態(tài)”的概率。

反向狀態(tài)轉(zhuǎn)移概率

根據(jù)前向過程的設(shè)定和貝葉斯定理,延續(xù) DDPM 的方法,我們可以由前向過程的后驗概率和預(yù)測的 得到反向過程的概率分布,表示為:

where

其中 為反向過程的狀態(tài)轉(zhuǎn)移概率。

迭代修正過程

給定粗糙 mask mr 以及相應(yīng)的圖像 I,首先將所有像素初始化為粗糙狀態(tài) xi = [1, 0]。通過不斷迭代地狀態(tài)轉(zhuǎn)移,逐漸修正 m_T 中的預(yù)測值。

推理過程

給定一個粗糙的掩模和其對應(yīng)的圖像,我們首先初始化所有像素為粗糙狀態(tài)。我們在以下步驟之間迭代:

前向過程:以獲取 和 。

計算反向狀態(tài)轉(zhuǎn)移矩陣: 并得到 。

計算精細(xì)化的掩模:基于 , 和 計算精細(xì)化的掩模 。

這個過程(1)-(3)迭代進(jìn)行,直到獲得精細(xì)的掩模。

實驗

分別訓(xùn)練了 LR-SegRefiner 和 HR-SegRefiner,數(shù)據(jù)集和具體的 settings 在上 。

定性對比其他方法,覺得對比 U-Net 和 ISNet 的效果的確很明顯。

總結(jié)

SegRefiner 是首個基于擴(kuò)散的圖像分割細(xì)化方法,采用了離散擴(kuò)散過程。SegRefiner 執(zhí)行模型不可知的分割細(xì)化,并在各種分割任務(wù)的細(xì)化中取得了強(qiáng)有力的實證結(jié)果。雖然它在準(zhǔn)確度上取得了顯著的提升,但其局限性在于擴(kuò)散過程由于多步迭代策略而導(dǎo)致推理速度變慢。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3533

    瀏覽量

    43306
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3464

    瀏覽量

    49832
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4880

    瀏覽量

    70025

原文標(biāo)題:基于 Discrete Diffusion 的模型不可知分割細(xì)化

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于多級混合模型的圖像分割方法

    本文研究了典型的基于區(qū)域的圖像分割方法主動形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分析了算法適用條件和各自的優(yōu)缺點。結(jié)合snake 模型
    發(fā)表于 07-08 09:58 ?20次下載

    基于改進(jìn)活動輪廓模型的圖像分割

    基于改進(jìn)活動輪廓模型的圖像分割_王芳
    發(fā)表于 01-07 19:00 ?0次下載

    谷歌華為中斷合作 三星有機(jī)會借此“松口氣”

    對于華為將有著短期的影響,但長期而言,結(jié)果仍不可知
    的頭像 發(fā)表于 05-21 17:28 ?3956次閱讀
    谷歌華為中斷合作 三星有機(jī)會借此“松口氣”

    電磁屏蔽知識,必不可知!

    電磁屏蔽一般可分為三種:靜電屏蔽、靜磁屏蔽和高頻電磁場屏蔽。三種屏蔽的目的都是防止外界的電磁場進(jìn)入到某個需要保護(hù)的區(qū)域中,原理都是利用屏蔽對外場的感應(yīng)產(chǎn)生的效應(yīng)來抵消外場的影響。但是由于所要屏蔽的場的特性不同,因而對屏蔽殼材料的要求和屏蔽效果也就不相同。 一、 靜電屏蔽 靜電屏蔽的目的是防止外界的靜電場進(jìn)入需要保護(hù)的某個區(qū)域。靜電屏蔽依據(jù)的原理是:在外界靜電場的作用下導(dǎo)體表面電荷將重新分布,直到導(dǎo)體內(nèi)部
    的頭像 發(fā)表于 10-30 18:43 ?2058次閱讀

    基于遙感數(shù)據(jù)的海島邊界快速分割模型

    基于遙感數(shù)據(jù)的海島邊界快速分割模型
    發(fā)表于 06-11 15:32 ?4次下載

    關(guān)于寬禁帶生態(tài)系統(tǒng)的仿真模型驗證

      滿足客戶多樣化的仿真平臺需求對我們很重要。因此,SPICE不可知論的方法至關(guān)重要。不可知論法意思是在行業(yè)標(biāo)準(zhǔn)仿真軟件中只使用最小公分母結(jié)構(gòu),避免依賴仿真器的專有方案。
    的頭像 發(fā)表于 05-09 14:43 ?742次閱讀
    關(guān)于寬禁帶生態(tài)系統(tǒng)的仿真<b class='flag-5'>模型</b>驗證

    使用OpenVINO?在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 開源的 AI 圖像生成模型,實現(xiàn)輸入文字,生成圖像的功能。Stable Diffusion 將 AI 圖像生成提升到了全新高度,將引發(fā)媒體創(chuàng)作領(lǐng)域的革命。
    的頭像 發(fā)表于 05-12 09:10 ?1751次閱讀
    使用OpenVINO?在算力魔方上加速stable <b class='flag-5'>diffusion</b><b class='flag-5'>模型</b>

    SAM分割模型是什么?

    SAM是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像。
    的頭像 發(fā)表于 05-20 09:30 ?2643次閱讀

    近期分割模型發(fā)展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實驗室發(fā)布的一種最先進(jìn)的圖像分割模型,該模型將自然語言處理領(lǐng)域的prompt范式引入計算機(jī)視覺領(lǐng)域,可以通過點擊、框選和自動識別三種交互方式,實現(xiàn)精準(zhǔn)
    的頭像 發(fā)表于 05-22 16:26 ?1106次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發(fā)展情況

    優(yōu)化 Stable Diffusion 在 GKE 上的啟動體驗

    Diffusion 等應(yīng)運而生。Stable Diffusion 是一個文字生成圖像的 Diffusion 模型,它能夠根據(jù)給定任何文本輸入生成逼真的圖像。我們在 GitHub Re
    的頭像 發(fā)表于 06-03 08:35 ?1117次閱讀

    iPhone兩秒出圖,目前已知的最快移動端Stable Diffusion模型來了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通過對網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練流程、損失函數(shù)全方位進(jìn)行優(yōu)化,在 iPhone 14 Pro 上實現(xiàn) 2 秒出圖(512x512
    的頭像 發(fā)表于 06-12 15:25 ?1013次閱讀
    iPhone兩秒出圖,目前已知的最快移動端Stable <b class='flag-5'>Diffusion</b><b class='flag-5'>模型</b>來了

    CLE Diffusion:可控光照增強(qiáng)擴(kuò)散模型

    本文提出了新型的可控光照增強(qiáng)框架,主要采用了條件擴(kuò)散模型來控制任意區(qū)域的任意亮度增強(qiáng)。通過亮度控制模塊(Brightness Control Module)將亮度信息信息融入Diffusion網(wǎng)絡(luò)中,并且設(shè)計了和任務(wù)適配的條件控制信息和損失函數(shù)來增強(qiáng)
    的頭像 發(fā)表于 09-11 17:20 ?1218次閱讀
    CLE <b class='flag-5'>Diffusion</b>:可控光照增強(qiáng)擴(kuò)散<b class='flag-5'>模型</b>

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語義
    的頭像 發(fā)表于 07-09 11:51 ?1573次閱讀

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?400次閱讀
    如何開啟Stable <b class='flag-5'>Diffusion</b> WebUI<b class='flag-5'>模型</b>推理部署

    ?Diffusion生成式動作引擎技術(shù)解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是一種基于擴(kuò)散模型Diffusion Models)的生成式人工智能技術(shù),專注于生成連續(xù)、逼真的人類動作或動畫序列。
    的頭像 發(fā)表于 03-17 15:14 ?904次閱讀