編者按:去年,英特爾實(shí)驗(yàn)室視覺組主管Vladlen Koltun和斯坦福大學(xué)博士陳啟峰發(fā)表論文Photographic Image Synthesis with Cascaded Refinement Networks,用級聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片。這種合成的圖片是神經(jīng)網(wǎng)絡(luò)“憑空”生成的,也就是說,世界上根本找不到這樣的場景。他們的算法可以看做一個(gè)渲染引擎,輸入一張語義布局,告訴算法哪里有道路、哪里有車、交通燈、行人、樹木,算法就能按照圖中的布局輸出一張逼真的圖像,“好比機(jī)器想象出來的畫面”。
在這篇論文中,英特爾實(shí)驗(yàn)室和香港中文大學(xué)的研究人員共同創(chuàng)造了一種半?yún)?shù)的圖像合成方法,讓基于語義布局的圖像合成更逼真、效果更好。以下是論智對原論文的編譯。
在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事:“公元前五世紀(jì),古希臘畫家宙克西斯(Zeuxis)以日常繪畫和對光影的利用而聞名。他畫了一個(gè)小男孩舉起葡萄的作品,葡萄非常自然、逼真,竟吸引鳥兒前來啄食。然而宙克西斯并不滿意,因?yàn)楫嬌系哪泻⑴e起葡萄的動(dòng)作還不夠逼真,沒有嚇跑鳥兒?!奔夹g(shù)高超的畫家想做出以假亂真的畫已經(jīng)很困難了,機(jī)器可以實(shí)現(xiàn)這個(gè)任務(wù)嗎?
用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行現(xiàn)實(shí)圖像合成為模擬現(xiàn)實(shí)圖像開辟了新方法。在現(xiàn)代數(shù)字藝術(shù)中,能合成非常逼真的圖像的深層網(wǎng)絡(luò)成為一種新工具。通過賦予它們一種視覺想象的形式,證明了它們在AI創(chuàng)造中的有用性。
最近的圖像合成發(fā)展大多得益于基于參數(shù)的模型驅(qū)動(dòng),即能代表所有圖像外觀權(quán)重所有數(shù)據(jù)的深層網(wǎng)絡(luò)。這與人類寫實(shí)畫家的做法完全不同,他們并不是依靠記憶作畫,而是用外部參考當(dāng)做材料來源,再現(xiàn)目標(biāo)物體的外觀細(xì)節(jié)。這也和之前圖像合成的方法不同,傳統(tǒng)的圖像合成方法基于非參數(shù)技術(shù),可以在測試時(shí)使用大規(guī)模數(shù)據(jù)集。從非參數(shù)方法轉(zhuǎn)變?yōu)閰?shù)方法,研究人員發(fā)現(xiàn),端到端的訓(xùn)練有著高度表達(dá)的模型。但它在測試時(shí)放棄了非參數(shù)技術(shù)優(yōu)勢。
在這篇論文中,我們提出了一種半?yún)?shù)的方法(semi-parametric approach),從語義布局中合成近乎真實(shí)的圖像,這種方法被稱作“半?yún)?shù)圖像合成(semi-parametric image synthesis,SIMS)”。半?yún)?shù)合成方法結(jié)合了參數(shù)和非參數(shù)技術(shù)各自的優(yōu)勢,在所提出的方法中,非參數(shù)部分是指一組與照片相對的語義布局訓(xùn)練集中繪制的分段數(shù)據(jù)庫。這些片段用于圖像合成的原始材料,它們通過深度網(wǎng)絡(luò)應(yīng)用在畫布上,之后,畫布會(huì)輸出一張圖像。
Chen和Koltun的研究成果與我們的SIMS方法的成果對比。第一行是輸入的語義布局
實(shí)驗(yàn)概覽
我們的目標(biāo)是基于語義布局L∈{0, 1}h×w×c合成一張逼真的圖像,其中h×w是圖片尺寸,c是語義類別的數(shù)量。下圖是圖像合成第一階段的大致過程:
我們的模型在一對對圖片和其對應(yīng)的語義布局上進(jìn)行訓(xùn)練,圖片集是用于生成不同語義類別的圖像片段存儲庫M,其中的每個(gè)片段Pi都來源于訓(xùn)練圖像,并且屬于一個(gè)語義類別。圖中的a和b兩部分就是一些片段。
在測試時(shí),我們會(huì)得到在訓(xùn)練時(shí)從未見過的語義標(biāo)簽映射L,這個(gè)標(biāo)簽映射會(huì)分解成互相連接的組成部分{Li},對于每個(gè)連接部分,我們都會(huì)根據(jù)形狀、位置和語境,從M中檢索兼容的片段,即上圖b的步驟。而檢索步驟與Li被一個(gè)經(jīng)過訓(xùn)練的空間變壓器網(wǎng)絡(luò)相連接,即圖上的c和d。經(jīng)過轉(zhuǎn)換的片段在畫布上進(jìn)行合成,C∈Rw×h×3,即上圖中的f。由于片段無法與{Li}完美重合,也許會(huì)出現(xiàn)重疊的情況。最后e部分用來進(jìn)行前后排序。
之后,畫布C和輸入的語義布局L一同被輸入合成網(wǎng)絡(luò)f中,網(wǎng)絡(luò)生成最終的圖像被輸出,過程如下圖所示:
這一過程補(bǔ)全了缺失的區(qū)域、調(diào)整檢索到的片段、混合邊界、合成陰影,并且基于畫布和目標(biāo)布局調(diào)整圖像外觀。具體架構(gòu)和訓(xùn)練過程可查看原論文。
為了將我們的方法應(yīng)用到較為粗略的語義布局中,我們訓(xùn)練了一個(gè)級聯(lián)的精煉網(wǎng)絡(luò),用于將粗糙的布局輸入轉(zhuǎn)化成密集的像素級輸出。
實(shí)驗(yàn)過程
數(shù)據(jù)集
本次實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行:Cityscapes、NYU和ADE20K。Cityscapes數(shù)據(jù)集包含的是城市道路景觀照,其中有3000張帶有精細(xì)標(biāo)記的圖像,20000張粗略標(biāo)記的、用于訓(xùn)練的圖像。我們讓模型在這兩種圖像上分別訓(xùn)練,最終在含有500張圖像的驗(yàn)證數(shù)據(jù)集上進(jìn)行測試。
對于NYU數(shù)據(jù)集,我們在前1200張圖像上進(jìn)行訓(xùn)練,剩下的249張圖像用于測試。而ADE20K數(shù)據(jù)集是室外圖片,我們中其中1萬張圖像進(jìn)行訓(xùn)練,1000張圖像進(jìn)行測試。
感知測試
我們將提出的方法和pix2pix以及CRN進(jìn)行了對比,下圖是結(jié)果,表中的每一項(xiàng)都顯示,我們的方法(SIMS)都比由pix2pix和CRN合成的圖像更真實(shí):
語義分割準(zhǔn)確度
接下來,我們分析了合成圖像的真實(shí)性。給定一個(gè)語義布局L,我們用一種可評估的方法合成一張圖像I,該圖像之后會(huì)被輸入到一個(gè)預(yù)訓(xùn)練過的語義分割網(wǎng)絡(luò)(這里我們用PSPNet)。這個(gè)網(wǎng)絡(luò)會(huì)生成一個(gè)語義布局L?,然后我們將L?和L相比較。理論上來說,二者越接近,圖像的真實(shí)程度就越高。比較L和L?有兩種方法:intersection over union(IoU)和總體像素精度。
最終的結(jié)果如下:
我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實(shí)。
圖像數(shù)據(jù)
接著,我們從低級圖像數(shù)據(jù)方面分析圖像的真實(shí)性。我們比較了合成圖像的平均經(jīng)典譜(power spectrum)以及對應(yīng)的數(shù)據(jù)集中的真實(shí)圖像。下圖顯示了三種方法合成圖像的平均經(jīng)典譜:
可以看出,我們的方法生成的平均經(jīng)典譜與真實(shí)圖像的平均經(jīng)典譜非常接近,而其他兩種方法則與真實(shí)圖像有差別。
質(zhì)量結(jié)果
從以下兩張圖中可以看出這三種方法的差別。
結(jié)語
我們所提出的半?yún)?shù)圖像合成方法(SIMS)可以從語義布局中生成圖像,實(shí)驗(yàn)證明這種方法比完全參數(shù)化的技術(shù)生成的圖像更真實(shí)。但是在這之后仍有一些尚未解決的問題。首先,我們的方法在部署時(shí)比完全基于參數(shù)的方法慢很多。另外還要開發(fā)更高效的數(shù)據(jù)機(jī)構(gòu)和算法。其次,其他形式的輸入也應(yīng)該可用,例如語義實(shí)例分割或者文本描述。第三,我們所提出的方法并不是端到端訓(xùn)練的。最后,我們希望這項(xiàng)半?yún)?shù)技術(shù)能應(yīng)用到視頻合成上。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103641 -
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41272 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449
原文標(biāo)題:英特爾實(shí)驗(yàn)室推出半?yún)?shù)圖像合成方法,AI造圖“以假亂真”
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
3D效果逼真的元件封裝庫網(wǎng)盤下載
目標(biāo)檢測和圖像語義分割領(lǐng)域性能評價(jià)指標(biāo)
基于語義報(bào)文的干擾效果評估系統(tǒng)設(shè)計(jì)

如何使用知識圖譜對圖像語義進(jìn)行分析技術(shù)及應(yīng)用研究

DeepFocus,基于AI實(shí)現(xiàn)更逼真的VR圖像
AI工具將低像素的面孔變成逼真的圖像
人體圖像合成制作可信和逼真的人類圖像
分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

基于SEGNET模型的圖像語義分割方法
語義分割標(biāo)注:從認(rèn)知到實(shí)踐
深度學(xué)習(xí)圖像語義分割指標(biāo)介紹

深入理解渲染引擎:打造逼真圖像的關(guān)鍵

評論