一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像修復(fù)面臨兩個(gè)關(guān)鍵問(wèn)題

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-02 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自羅徹斯特大學(xué)和 Adobe Research 的研究者提出了一種新的生成網(wǎng)絡(luò) CM-GAN,很好地合成了整體結(jié)構(gòu)和局部細(xì)節(jié),在定量和定性評(píng)估方面都顯著優(yōu)于現(xiàn)有 SOTA 方法,如 CoModGAN 和 LaMa。

圖像修復(fù)是指對(duì)圖像缺失區(qū)域進(jìn)行補(bǔ)全,是計(jì)算機(jī)視覺(jué)的基本任務(wù)之一。該方向有許多實(shí)際應(yīng)用,例如物體移除、圖像重定向、圖像合成等。

早期的修復(fù)方法基于圖像塊合成或顏色擴(kuò)散來(lái)填充圖像缺失部分。為了完成更復(fù)雜的圖像結(jié)構(gòu),研究人員開(kāi)始轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的方案,他們利用深度生成網(wǎng)絡(luò)來(lái)預(yù)測(cè)視覺(jué)內(nèi)容和外觀。通過(guò)在大量圖像上進(jìn)行訓(xùn)練,并借助重建和對(duì)抗損失,生成式修復(fù)模型已被證明可以在包括自然圖像和人臉在內(nèi)的各種類(lèi)型輸入數(shù)據(jù)上產(chǎn)生更具視覺(jué)吸引力的結(jié)果。

然而,現(xiàn)有工作只能在完成簡(jiǎn)單的圖像結(jié)構(gòu)方面顯示出良好的結(jié)果,生成整體結(jié)構(gòu)復(fù)雜和細(xì)節(jié)高保真的圖像內(nèi)容仍然是一個(gè)巨大的挑戰(zhàn),特別是當(dāng)圖像空洞(hole)很大的時(shí)候。

從本質(zhì)上講,圖像修復(fù)面臨兩個(gè)關(guān)鍵問(wèn)題:一個(gè)是如何將全局上下文準(zhǔn)確地傳播到不完整區(qū)域,另一個(gè)是合成與全局線索一致的真實(shí)局部細(xì)節(jié)。為了解決全局上下文傳播問(wèn)題,現(xiàn)有網(wǎng)絡(luò)利用編碼器 - 解碼器結(jié)構(gòu)、空洞卷積、上下文注意力或傅里葉卷積來(lái)整合長(zhǎng)程特征依賴(lài),擴(kuò)大有效感受野。此外,兩階段方法和迭代空洞填充依靠預(yù)測(cè)粗略結(jié)果來(lái)增強(qiáng)全局結(jié)構(gòu)。然而,這些模型缺乏一種機(jī)制來(lái)捕獲未掩碼區(qū)域的高級(jí)語(yǔ)義,并有效地將它們傳播到空洞中以合成一個(gè)整體的全局結(jié)構(gòu)。

基于此,來(lái)自羅徹斯特大學(xué)和 Adobe Research 的研究者提出了一種新的生成網(wǎng)絡(luò):CM-GAN(cascaded modulation GAN),該網(wǎng)絡(luò)可以更好地合成整體結(jié)構(gòu)和局部細(xì)節(jié)。CM-GAN 中包括一個(gè)帶有傅里葉卷積塊的編碼器,用于從帶有空洞的輸入圖像中提取多尺度特征表征。CM-GAN 中還有一個(gè)雙流解碼器,該解碼器在每個(gè)尺度層都設(shè)置一個(gè)新型級(jí)聯(lián)的全局空間調(diào)制塊。

在每個(gè)解碼器塊中,研究者首先應(yīng)用全局調(diào)制來(lái)執(zhí)行粗略和語(yǔ)義感知的結(jié)構(gòu)合成,然后進(jìn)行空間調(diào)制來(lái)進(jìn)一步以空間自適應(yīng)方式調(diào)整特征圖。此外,該研究設(shè)計(jì)了一種物體感知訓(xùn)練方案,以防止空洞內(nèi)產(chǎn)生偽影,從而滿(mǎn)足現(xiàn)實(shí)場(chǎng)景中物體移除任務(wù)的需求。該研究進(jìn)行了廣泛的實(shí)驗(yàn)表明,CM-GAN 在定量和定性評(píng)估方面都顯著優(yōu)于現(xiàn)有方法。

eb4e7464-11a6-11ed-ba43-dac502259ad0.png

我們先來(lái)看下圖像修復(fù)效果,與其他方法相比,CM-GAN 可以重建更好的紋理:

CM-GAN 可以合成更好的全局結(jié)構(gòu):

CM-GAN 具有更好的物體邊界:

下面我們來(lái)看下該研究的方法和實(shí)驗(yàn)結(jié)果。

方法

級(jí)聯(lián)調(diào)制 GAN

為了更好地建模圖像補(bǔ)全的全局上下文,該研究提出一種將全局碼調(diào)制與空間碼調(diào)制級(jí)聯(lián)的新機(jī)制。該機(jī)制有助于處理部分無(wú)效的特征,同時(shí)更好地將全局上下文注入空間域內(nèi)。新架構(gòu) CM-GAN 可以很好地綜合整體結(jié)構(gòu)和局部細(xì)節(jié),如下圖 1 所示。

ec6f0872-11a6-11ed-ba43-dac502259ad0.png

如下圖 2(左) 所示,CM-GAN 基于一個(gè)編碼器分支和兩個(gè)并行級(jí)聯(lián)解碼器分支來(lái)生成視覺(jué)輸出。編碼器以部分圖像和掩碼為輸入,生成多尺度特征圖ec9f7962-11a6-11ed-ba43-dac502259ad0.png。

與大多數(shù)編碼器 - 解碼器方法不同,為了完成整體結(jié)構(gòu),該研究從全連接層的最高級(jí)別特征ecaec566-11a6-11ed-ba43-dac502259ad0.png中提取全局樣式代碼 s,然后進(jìn)行ecc36192-11a6-11ed-ba43-dac502259ad0.png歸一化。此外,基于 MLP 的映射網(wǎng)絡(luò)從噪聲中生成樣式代碼 w,以模擬圖像生成的隨機(jī)性。代碼 w 與 s 結(jié)合產(chǎn)生一個(gè)全局代碼 g = [s; w],用于之后的解碼步驟。

全局空間級(jí)聯(lián)調(diào)制。為了在解碼階段更好地連接全局上下文,該研究提出了全局空間級(jí)聯(lián)調(diào)制 (CM,cascaded modulation)。如圖 2(右)所示,解碼階段基于全局調(diào)制塊(GB)和空間調(diào)制塊(SB)兩個(gè)分支,并行上采樣全局特征 F_g 和局部特征 F_s。

ecd1ec94-11a6-11ed-ba43-dac502259ad0.png

與現(xiàn)有方法不同,CM-GAN 引入了一種將全局上下文注入空洞區(qū)域的新方法。在概念層面上,它由每個(gè)尺度的特征之間的級(jí)聯(lián)全局和空間調(diào)制組成,并且自然地集成了全局上下文建模的三種補(bǔ)償機(jī)制:1)特征上采樣;2) 全局調(diào)制;3)空間調(diào)制。

ecf79534-11a6-11ed-ba43-dac502259ad0.png

物體感知訓(xùn)練

為訓(xùn)練生成掩碼的算法至關(guān)重要。本質(zhì)上,采樣的掩碼應(yīng)該類(lèi)似于在實(shí)際用例中繪制的掩碼,并且掩碼應(yīng)避免覆蓋整個(gè)物體或任何新物體的大部分。過(guò)度簡(jiǎn)化的掩碼方案可能會(huì)導(dǎo)致偽影。

為了更好地支持真實(shí)的物體移除用例,同時(shí)防止模型在空洞內(nèi)合成新物體,該研究提出了一種物體感知訓(xùn)練方案,在訓(xùn)練期間生成了更真實(shí)的掩碼,如下圖 4 所示。

ed1dd5c8-11a6-11ed-ba43-dac502259ad0.png

具體來(lái)說(shuō),該研究首先將訓(xùn)練圖像傳遞給 全景分割網(wǎng)絡(luò) PanopticFCN 以生成高度準(zhǔn)確的實(shí)例級(jí)分割注釋?zhuān)缓髮?duì)自由空洞和物體空洞的混合進(jìn)行采樣作為初始掩碼,最后計(jì)算空洞和圖像中每個(gè)實(shí)例之間的重疊率。如果重疊率大于閾值,該方法將前景實(shí)例從空洞中排除;否則,空洞不變并模擬物體完成,其中閾值設(shè)為 0.5。該研究隨機(jī)擴(kuò)展和平移物體掩碼以避免過(guò)度擬合。此外,該研究還擴(kuò)大了實(shí)例分割邊界上的空洞,以避免將空洞附近的背景像素泄漏到修復(fù)區(qū)域中。

訓(xùn)練目標(biāo)與 Masked-R_1 正則化

該模型結(jié)合對(duì)抗性損失和基于分割的感知損失進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,該方法在純粹使用對(duì)抗性損失時(shí)也能取得很好的效果,但加入感知損失可以進(jìn)一步提高性能。

此外,該研究還提出了一種專(zhuān)門(mén)用于穩(wěn)定修復(fù)任務(wù)的對(duì)抗性訓(xùn)練的 masked-R_1 正則化,其中利用掩碼 m 來(lái)避免計(jì)算掩碼外的梯度懲罰。

實(shí)驗(yàn)

該研究在 Places2 數(shù)據(jù)集上以 512 × 512 分辨率進(jìn)行了圖像修復(fù)實(shí)驗(yàn),并給出了模型的定量和定性評(píng)估結(jié)果。

定量評(píng)估:下表 1 為 CM-GAN 與其他掩碼方法的比較。結(jié)果表明,CM-GAN 在 FID、LPIPS、U-IDS 和 P-IDS 方面明顯優(yōu)于其他方法。在感知損失的幫助下,LaMa、CM-GAN 比 CoModGAN 和其他方法獲得了明顯更好的 LPIPS 分?jǐn)?shù),這歸功于預(yù)訓(xùn)練感知模型提供的額外語(yǔ)義指導(dǎo)。與 LaMa/CoModGAN 相比,CM-GAN 將 FID 從 3.864/3.724 降低到 1.628。

ed4300a0-11a6-11ed-ba43-dac502259ad0.png

如下表 3 所示,在有無(wú)微調(diào)的情況下,CM-GAN 在 LaMa 和 CoModGAN 掩碼上都取得了明顯優(yōu)于 LaMa 和 CoModGAN 的性能增益,表明該模型具有泛化能力。值得注意的是,在 CoModGAN 掩碼,物體感知掩碼上訓(xùn)練的 CM-GAN 性能依然優(yōu)于 CoModGAN 掩碼,證實(shí)了 CM-GAN 具有更好的生成能力。

ed64a85e-11a6-11ed-ba43-dac502259ad0.png

定性評(píng)估:圖 5、圖 6、圖 8 展示了 CM-GAN 與 SOTA 方法在合成掩碼方面的可視化比較結(jié)果。ProFill 能夠生成不連貫的全局結(jié)構(gòu),CoModGAN 產(chǎn)生結(jié)構(gòu)偽影和顏色斑點(diǎn),LaMa 在自然場(chǎng)景上容易產(chǎn)生較大的圖像模糊。相比之下,CM-GAN 方法產(chǎn)生了更連貫的語(yǔ)義結(jié)構(gòu)、紋理更清晰,可適用于不同場(chǎng)景。

ed84b0d6-11a6-11ed-ba43-dac502259ad0.png

edc1fa9a-11a6-11ed-ba43-dac502259ad0.png

ede8ae1a-11a6-11ed-ba43-dac502259ad0.jpg

為了驗(yàn)證模型中每個(gè)組件的重要性,該研究進(jìn)行了一組消融實(shí)驗(yàn),所有模型都在 Places2 數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。消融實(shí)驗(yàn)結(jié)果如下表 2 和圖 7 所示。

edf9a03a-11a6-11ed-ba43-dac502259ad0.png

該研究還進(jìn)行了用戶(hù)研究,以更好地評(píng)估 CM-GAN 方法的視覺(jué)生成質(zhì)量,結(jié)果如下表 5 所示。此外,附錄提供了更多的視覺(jué)比較和實(shí)驗(yàn)分析以供讀者參閱。

ee4b8bde-11a6-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:圖像大面積缺失,也能逼真修復(fù),新模型CM-GAN兼顧全局結(jié)構(gòu)和紋理細(xì)節(jié)

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    分析智慧園區(qū)建設(shè)的關(guān)鍵問(wèn)題

    智慧園區(qū)作為城市數(shù)字化轉(zhuǎn)型的重要載體,在快速發(fā)展的同時(shí)面臨著多重挑戰(zhàn),其建設(shè)過(guò)程蘊(yùn)含著深遠(yuǎn)的產(chǎn)業(yè)變革意義。本文將從制約因素和發(fā)展價(jià)值兩個(gè)維度,系統(tǒng)分析智慧園區(qū)建設(shè)的關(guān)鍵問(wèn)題。 一、智慧園區(qū)發(fā)展的主要
    的頭像 發(fā)表于 05-27 11:22 ?167次閱讀

    DLP3310可以外部觸發(fā)兩個(gè)相機(jī)采集圖像嗎?

    請(qǐng)問(wèn)有誰(shuí)用過(guò)TI的DLP3310這款光機(jī)么?請(qǐng)教以下幾個(gè)問(wèn)題: 1.可以外部觸發(fā)兩個(gè)相機(jī)采集圖像嗎?; 2.針對(duì)1920*1080分辨率的24位圖片,其投射的頻率是多少?最快可以達(dá)到多少呢? 3.
    發(fā)表于 03-03 08:29

    使用高速ADC工作中遇到兩個(gè)關(guān)鍵的問(wèn)題求解答

    在最近使用高速ADC工作中遇到兩個(gè)關(guān)鍵的問(wèn)題:一是用DSP產(chǎn)生告訴時(shí)鐘信號(hào)發(fā)生畸形(我們需要用DSP-TMS28335給高速ADC提供至少20M的采樣頻率的時(shí)鐘信號(hào),但是當(dāng)DSP產(chǎn)生10K
    發(fā)表于 01-24 06:51

    兩個(gè)不同頻率晶振靠的近會(huì)怎樣

    晶振的振蕩本質(zhì)上是一種機(jī)械振動(dòng)(在壓電晶體層面)。當(dāng)兩個(gè)晶振靠得很近時(shí),它們的機(jī)械振動(dòng)可能會(huì)相互影響。一個(gè)晶振的振動(dòng)可能會(huì)通過(guò)電路板或者外殼等介質(zhì)傳遞給另一個(gè)晶振,從而改變另一個(gè)晶振的
    的頭像 發(fā)表于 01-20 13:55 ?1631次閱讀
    <b class='flag-5'>兩個(gè)</b>不同頻率晶振靠的近會(huì)怎樣

    使用TVP7002現(xiàn)在遇到兩個(gè)問(wèn)題求解答

    我們使用TVP7002現(xiàn)在遇到兩個(gè)問(wèn)題(VGA轉(zhuǎn)YCbCr 4:2:2,embedded sync, 參考外部27MHz時(shí)鐘) 1 輸入信號(hào)1080P的情況下,有些電腦輸出的1080P圖像很正常
    發(fā)表于 01-01 07:41

    鋰電池品牌廠家影響光伏逆變器效率提升的兩個(gè)關(guān)鍵因素

    電子元器件的質(zhì)量和散熱設(shè)計(jì)是影響光伏逆變器效率提升的兩個(gè)關(guān)鍵因素。我們需要選擇高質(zhì)量的電子元器件,采用合理的散熱設(shè)計(jì),以提高光伏逆變器的效率和可靠性。同時(shí),我們還需要不斷地進(jìn)行技術(shù)創(chuàng)新和優(yōu)化,推動(dòng)光伏逆變器技術(shù)的發(fā)展和進(jìn)步。
    的頭像 發(fā)表于 12-19 15:19 ?500次閱讀
    鋰電池品牌廠家影響光伏逆變器效率提升的<b class='flag-5'>兩個(gè)</b><b class='flag-5'>關(guān)鍵</b>因素

    ads1013有兩個(gè)模擬輸入,可以接不同的兩個(gè)模擬輸入嗎?

    ads1013有兩個(gè)模擬輸入,可以接不同的兩個(gè)模擬輸入嗎,驅(qū)動(dòng)程序中怎么分別讀兩個(gè)模擬輸入的轉(zhuǎn)換結(jié)果?
    發(fā)表于 12-02 08:02

    兩個(gè)開(kāi)關(guān)電源可以并聯(lián)使用嗎

    兩個(gè)開(kāi)關(guān)電源并聯(lián)使用是一個(gè)相對(duì)復(fù)雜的話題,涉及到電子電路設(shè)計(jì)、電源管理、安全規(guī)范等多個(gè)方面。 1. 開(kāi)關(guān)電源的基本原理 開(kāi)關(guān)電源是一種通過(guò)電子開(kāi)關(guān)元件(如晶體管、MOSFET等)快速切換來(lái)控制電流
    的頭像 發(fā)表于 10-09 16:04 ?4836次閱讀

    單相電機(jī)兩個(gè)繞組都在定子上嗎

    單相電機(jī)的兩個(gè)繞組,即起動(dòng)線圈(或稱(chēng)為輔助繞組、副繞組)和運(yùn)行線圈(或稱(chēng)為主繞組),都位于定子上 。這兩個(gè)繞組在電機(jī)中起著關(guān)鍵作用,共同協(xié)作以產(chǎn)生旋轉(zhuǎn)磁場(chǎng),從而使電機(jī)能夠運(yùn)轉(zhuǎn)。 單相電機(jī)通常由一
    的頭像 發(fā)表于 09-03 15:10 ?2195次閱讀

    ad如何設(shè)置兩個(gè)元器件的距離

    在Altium Designer(簡(jiǎn)稱(chēng)AD)中設(shè)置兩個(gè)元器件之間的距離,主要是通過(guò)設(shè)置元器件間的安全間距(Clearance)規(guī)則來(lái)實(shí)現(xiàn)的。這個(gè)規(guī)則定義了元器件之間、元器件與走線之間以及其他設(shè)計(jì)元素
    的頭像 發(fā)表于 09-02 15:31 ?1.7w次閱讀

    功放機(jī)AB兩個(gè)聲道輸出怎么接

    功放機(jī)AB兩個(gè)聲道輸出的接線方式,主要取決于您想要實(shí)現(xiàn)的音頻效果以及音箱的配置。以下將詳細(xì)介紹幾種常見(jiàn)的接線方式,以及它們各自的特點(diǎn)和適用場(chǎng)景。 一、基礎(chǔ)接線方式 在大多數(shù)情況下,功放機(jī)的AB兩個(gè)
    的頭像 發(fā)表于 08-23 10:40 ?9381次閱讀

    單穩(wěn)態(tài)觸發(fā)器的兩個(gè)工作狀態(tài)是什么

    單穩(wěn)態(tài)觸發(fā)器是一種數(shù)字邏輯電路,廣泛應(yīng)用于各種電子設(shè)備和系統(tǒng)中。它具有兩個(gè)工作狀態(tài):穩(wěn)定狀態(tài)和暫態(tài)狀態(tài)。 單穩(wěn)態(tài)觸發(fā)器的工作原理 單穩(wěn)態(tài)觸發(fā)器是一種具有兩個(gè)穩(wěn)定狀態(tài)的觸發(fā)器,其中一個(gè)狀態(tài)是穩(wěn)定狀態(tài)
    的頭像 發(fā)表于 08-22 10:11 ?1167次閱讀

    觸發(fā)器的兩個(gè)穩(wěn)定狀態(tài)分別是什么

    觸發(fā)器作為數(shù)字電路中的基本邏輯單元,具有兩個(gè)穩(wěn)定狀態(tài),這兩個(gè)狀態(tài)通常用于表示二進(jìn)制數(shù)碼中的0和1。
    的頭像 發(fā)表于 08-12 11:01 ?3080次閱讀

    雙穩(wěn)態(tài)電路的兩個(gè)穩(wěn)定狀態(tài)是什么

    雙穩(wěn)態(tài)電路是一種具有兩個(gè)穩(wěn)定狀態(tài)的電子電路,廣泛應(yīng)用于數(shù)字電路、通信系統(tǒng)、存儲(chǔ)器等領(lǐng)域。 雙穩(wěn)態(tài)電路的基本概念 雙穩(wěn)態(tài)電路是一種具有兩個(gè)穩(wěn)定狀態(tài)的電路,即在沒(méi)有外部輸入信號(hào)的情況下,電路可以保持在
    的頭像 發(fā)表于 08-11 15:00 ?2652次閱讀

    雙穩(wěn)態(tài)觸發(fā)器的兩個(gè)基本性質(zhì)是什么

    雙穩(wěn)態(tài)觸發(fā)器(Bistable Trigger)是一種具有兩個(gè)穩(wěn)定狀態(tài)的邏輯電路,廣泛應(yīng)用于數(shù)字電路設(shè)計(jì)中。它具有兩個(gè)基本性質(zhì):記憶性和切換性。 一、雙穩(wěn)態(tài)觸發(fā)器的基本概念 1.1 雙穩(wěn)態(tài)觸發(fā)器
    的頭像 發(fā)表于 08-11 10:08 ?1393次閱讀