編者按:下雨時(shí)拍照總有種朦朧的美感,但是附著在相機(jī)、窗戶上的水滴會(huì)降低背景的能見(jiàn)度,讓照片模糊不清。為了去除照片上的水滴,北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究院的研究人員創(chuàng)建了一種注意力生成對(duì)抗網(wǎng)絡(luò),效果不錯(cuò)。以下是論智對(duì)論文的編譯。
下雨時(shí)拍出的照片模糊是由于雨滴覆蓋的區(qū)域和沒(méi)有雨滴的區(qū)域圖像內(nèi)容不同,同時(shí),雨滴的形狀是球形,光線經(jīng)過(guò)折射會(huì)變成“魚(yú)眼”效果,讓寬廣的景色濃縮到一點(diǎn)。另外,在大多數(shù)情況中,相機(jī)的焦點(diǎn)都在背景上,所以會(huì)讓前景中的雨滴變得模糊。
在這篇文章中,我們解決了這一問(wèn)題。給定一張有雨水的照片,我們的目標(biāo)是讓其變得清晰。大致效果如圖1所示。
圖1
我們的方法是完全自動(dòng)的,相信這能為圖像處理和計(jì)算機(jī)視覺(jué)的應(yīng)用提供幫助,尤其是處理相似的問(wèn)題,例如去除照片上的污漬等。
遇到的困難
通常來(lái)說(shuō),去除水滴的問(wèn)題比較棘手。因?yàn)槭紫任覀儾恢辣挥晁谏w的區(qū)域原本的圖像(本文是根據(jù)單張圖片進(jìn)行還原,沒(méi)有對(duì)照?qǐng)D片)。另外,遮擋區(qū)域背景的信息我們也無(wú)從得知。如果雨滴較大、分布得更密集,問(wèn)題就更加麻煩。為了解決這個(gè)問(wèn)題,我們選擇了生成對(duì)抗網(wǎng)絡(luò)。
雨水是透明的,但是由于它們特殊的形狀和光的折射,雨滴中一個(gè)像素區(qū)域就會(huì)受到整個(gè)環(huán)境的影響,所以使得這個(gè)雨滴和它的背景有很大的差別。在雨滴的某些區(qū)域,尤其是邊緣和透明的地方,通常會(huì)傳達(dá)有關(guān)背景的信息。我們發(fā)現(xiàn)這些信息可以通過(guò)分析用在網(wǎng)絡(luò)中。
我們將含有雨滴的模糊圖像用以下等式表示:
其中I表示輸入圖片,M表示二進(jìn)制掩碼。在該掩碼中,M(x)=1意味著像素x是雨滴的一部分,否則該像素就是背景的一部分。B是背景圖像,R是雨滴帶來(lái)的影響,表示復(fù)雜的背景信息和光折射產(chǎn)生的現(xiàn)象?!驯硎靖鞣N元素相乘。
網(wǎng)絡(luò)結(jié)構(gòu)
圖2展示了我們所提出的網(wǎng)絡(luò)結(jié)構(gòu):
圖2
其中,生成對(duì)抗損失可以表示成:
G表示生成網(wǎng)絡(luò),D表示判別網(wǎng)絡(luò),I是含有雨滴的樣本圖片,之后會(huì)輸入到生成網(wǎng)絡(luò)中,R是未經(jīng)污染的自然圖像。
為了處理這個(gè)復(fù)雜的問(wèn)題,我們的生成網(wǎng)絡(luò)首先會(huì)生成一個(gè)注意力地圖,這是整個(gè)網(wǎng)絡(luò)最重要的部分,因?yàn)樗鼘⒅笇?dǎo)網(wǎng)絡(luò)下一步該關(guān)注哪些區(qū)域。該地圖由一個(gè)包含深度ResNet的循環(huán)網(wǎng)絡(luò)生成,同時(shí)結(jié)合了卷積LSTM和幾個(gè)標(biāo)準(zhǔn)卷積層,我們將其稱為注意力循環(huán)網(wǎng)絡(luò)。
圖3展示了在訓(xùn)練過(guò)程中,我們的網(wǎng)絡(luò)是如何生成注意力地圖的??梢钥吹?,我們的網(wǎng)絡(luò)不僅在確定雨滴的區(qū)域而且還要找出周圍環(huán)境的結(jié)構(gòu)。
圖3
生成網(wǎng)絡(luò)的第二部分是一個(gè)自動(dòng)編碼器,語(yǔ)境自動(dòng)編碼器的目的是生成一張沒(méi)有雨滴的圖片,輸入的照片和注意力地圖會(huì)同時(shí)輸入到該編碼器中。我們的深度自動(dòng)編碼器有16個(gè)conv-relu模塊,同時(shí)還添加了跳躍式連接以防止輸出模糊的圖像。語(yǔ)境自動(dòng)編碼器的結(jié)構(gòu)如圖4所示。
圖4
為了獲得更多語(yǔ)境信息,我們?cè)谧詣?dòng)編碼器的解碼器一端添加了多尺度的損失。每個(gè)損失都比較了卷積層的輸出和對(duì)應(yīng)的標(biāo)準(zhǔn)之間的差異。卷積層的輸入是解碼層的特征。除了這些損失,我們還在自動(dòng)編碼器的最終輸出上應(yīng)用了一個(gè)感知損失,讓其更接近真實(shí)場(chǎng)景。這個(gè)最終的輸出也是生成網(wǎng)絡(luò)的輸出。
之后,判別網(wǎng)絡(luò)就會(huì)檢查上述輸出是否真實(shí)。和其他去水印、去障礙物的方法類似,我們的判別網(wǎng)絡(luò)會(huì)從局部和全局來(lái)進(jìn)行檢查。唯一不同的是,在我們的問(wèn)題中,尤其在測(cè)試階段,有雨滴的目標(biāo)區(qū)域并不會(huì)給出。因此,判別網(wǎng)絡(luò)無(wú)法關(guān)注局部區(qū)域,因?yàn)闆](méi)有可用信息。為了解決這一問(wèn)題,我們用注意力地圖來(lái)引導(dǎo)判別網(wǎng)絡(luò)識(shí)別需要處理的局部區(qū)域。
實(shí)驗(yàn)結(jié)果
表1展示了我們的方法和目前的Eigen13和Pix2Pix之間的對(duì)比:
表1
與其他兩種方法相比,我們的方法PSNR和SSIM分?jǐn)?shù)都比較高,這說(shuō)明我們的方法生成的結(jié)果更接近于真實(shí)場(chǎng)景。
同時(shí)我們還將完整的GAN結(jié)構(gòu)和我們網(wǎng)絡(luò)的部分相對(duì)比:A表示只有自動(dòng)編碼器,沒(méi)有注意力地圖;A+D表示沒(méi)有注意力自動(dòng)編碼器,也沒(méi)有注意力判別器;A+AD表示沒(méi)有注意力自動(dòng)編碼器,但是有注意力判別器;AA+AD表示既有注意力自動(dòng)編碼器也有注意力判別器??梢钥闯?,AA+AD表現(xiàn)得比其他方法要好。
反映在圖像上,如圖6和圖7所示:
圖6
圖7
近距離觀察:
用Google Vision API對(duì)我們的方法進(jìn)行測(cè)試,結(jié)果如下:
可以看到谷歌的這款工具在經(jīng)過(guò)處理后的圖像上能更好地識(shí)別出場(chǎng)景中的物體。
-
編碼器
+關(guān)注
關(guān)注
45文章
3794瀏覽量
137993 -
圖像處理
+關(guān)注
關(guān)注
27文章
1329瀏覽量
58034 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46767
原文標(biāo)題:“拒絕”朦朧美,北大研究者用GAN清除照片中的雨滴
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
圖像生成對(duì)抗生成網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域有什么應(yīng)用

如何使用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行信息隱藏方案資料說(shuō)明

生成對(duì)抗網(wǎng)絡(luò)與其他生成模型之間的權(quán)衡取舍是什么?
循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器序列表征

基于譜歸一化條件生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法

基于自注意力機(jī)制的條件生成對(duì)抗網(wǎng)絡(luò)模型

基于密集卷積生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)方法
基于結(jié)構(gòu)保持生成對(duì)抗網(wǎng)絡(luò)的圖像去噪
基于像素級(jí)生成對(duì)抗網(wǎng)絡(luò)的圖像彩色化模型
一種基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)人機(jī)圖像去霧算法
一種基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)人機(jī)圖像去霧算法
一種新的深度注意力算法

PyTorch教程20.2之深度卷積生成對(duì)抗網(wǎng)絡(luò)

評(píng)論