一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于語義布局的圖像合成更逼真、效果更好

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-02 08:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:去年,英特爾實(shí)驗(yàn)室視覺組主管Vladlen Koltun和斯坦福大學(xué)博士陳啟峰發(fā)表論文Photographic Image Synthesis with Cascaded Refinement Networks,用級聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片。這種合成的圖片是神經(jīng)網(wǎng)絡(luò)“憑空”生成的,也就是說,世界上根本找不到這樣的場景。他們的算法可以看做一個(gè)渲染引擎,輸入一張語義布局,告訴算法哪里有道路、哪里有車、交通燈、行人、樹木,算法就能按照圖中的布局輸出一張逼真的圖像,“好比機(jī)器想象出來的畫面”。

在這篇論文中,英特爾實(shí)驗(yàn)室和香港中文大學(xué)的研究人員共同創(chuàng)造了一種半?yún)?shù)的圖像合成方法,讓基于語義布局的圖像合成更逼真、效果更好。以下是論智對原論文的編譯。

在古羅馬作家普林尼的作品《自然史》中記述了這樣一則故事:“公元前五世紀(jì),古希臘畫家宙克西斯(Zeuxis)以日常繪畫和對光影的利用而聞名。他畫了一個(gè)小男孩舉起葡萄的作品,葡萄非常自然、逼真,竟吸引鳥兒前來啄食。然而宙克西斯并不滿意,因?yàn)楫嬌系哪泻⑴e起葡萄的動(dòng)作還不夠逼真,沒有嚇跑鳥兒?!奔夹g(shù)高超的畫家想做出以假亂真的畫已經(jīng)很困難了,機(jī)器可以實(shí)現(xiàn)這個(gè)任務(wù)嗎?

用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行現(xiàn)實(shí)圖像合成為模擬現(xiàn)實(shí)圖像開辟了新方法。在現(xiàn)代數(shù)字藝術(shù)中,能合成非常逼真的圖像的深層網(wǎng)絡(luò)成為一種新工具。通過賦予它們一種視覺想象的形式,證明了它們在AI創(chuàng)造中的有用性。

最近的圖像合成發(fā)展大多得益于基于參數(shù)的模型驅(qū)動(dòng),即能代表所有圖像外觀權(quán)重所有數(shù)據(jù)的深層網(wǎng)絡(luò)。這與人類寫實(shí)畫家的做法完全不同,他們并不是依靠記憶作畫,而是用外部參考當(dāng)做材料來源,再現(xiàn)目標(biāo)物體的外觀細(xì)節(jié)。這也和之前圖像合成的方法不同,傳統(tǒng)的圖像合成方法基于非參數(shù)技術(shù),可以在測試時(shí)使用大規(guī)模數(shù)據(jù)集。從非參數(shù)方法轉(zhuǎn)變?yōu)閰?shù)方法,研究人員發(fā)現(xiàn),端到端的訓(xùn)練有著高度表達(dá)的模型。但它在測試時(shí)放棄了非參數(shù)技術(shù)優(yōu)勢。

在這篇論文中,我們提出了一種半?yún)?shù)的方法(semi-parametric approach),從語義布局中合成近乎真實(shí)的圖像,這種方法被稱作“半?yún)?shù)圖像合成(semi-parametric image synthesis,SIMS)”。半?yún)?shù)合成方法結(jié)合了參數(shù)和非參數(shù)技術(shù)各自的優(yōu)勢,在所提出的方法中,非參數(shù)部分是指一組與照片相對的語義布局訓(xùn)練集中繪制的分段數(shù)據(jù)庫。這些片段用于圖像合成的原始材料,它們通過深度網(wǎng)絡(luò)應(yīng)用在畫布上,之后,畫布會(huì)輸出一張圖像。

Chen和Koltun的研究成果與我們的SIMS方法的成果對比。第一行是輸入的語義布局

實(shí)驗(yàn)概覽

我們的目標(biāo)是基于語義布局L∈{0, 1}h×w×c合成一張逼真的圖像,其中h×w是圖片尺寸,c是語義類別的數(shù)量。下圖是圖像合成第一階段的大致過程:

我們的模型在一對對圖片和其對應(yīng)的語義布局上進(jìn)行訓(xùn)練,圖片集是用于生成不同語義類別的圖像片段存儲庫M,其中的每個(gè)片段Pi都來源于訓(xùn)練圖像,并且屬于一個(gè)語義類別。圖中的a和b兩部分就是一些片段。

在測試時(shí),我們會(huì)得到在訓(xùn)練時(shí)從未見過的語義標(biāo)簽映射L,這個(gè)標(biāo)簽映射會(huì)分解成互相連接的組成部分{Li},對于每個(gè)連接部分,我們都會(huì)根據(jù)形狀、位置和語境,從M中檢索兼容的片段,即上圖b的步驟。而檢索步驟與Li被一個(gè)經(jīng)過訓(xùn)練的空間變壓器網(wǎng)絡(luò)相連接,即圖上的c和d。經(jīng)過轉(zhuǎn)換的片段在畫布上進(jìn)行合成,C∈Rw×h×3,即上圖中的f。由于片段無法與{Li}完美重合,也許會(huì)出現(xiàn)重疊的情況。最后e部分用來進(jìn)行前后排序。

之后,畫布C和輸入的語義布局L一同被輸入合成網(wǎng)絡(luò)f中,網(wǎng)絡(luò)生成最終的圖像被輸出,過程如下圖所示:

這一過程補(bǔ)全了缺失的區(qū)域、調(diào)整檢索到的片段、混合邊界、合成陰影,并且基于畫布和目標(biāo)布局調(diào)整圖像外觀。具體架構(gòu)和訓(xùn)練過程可查看原論文。

為了將我們的方法應(yīng)用到較為粗略的語義布局中,我們訓(xùn)練了一個(gè)級聯(lián)的精煉網(wǎng)絡(luò),用于將粗糙的布局輸入轉(zhuǎn)化成密集的像素級輸出。

實(shí)驗(yàn)過程

數(shù)據(jù)集

本次實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行:Cityscapes、NYU和ADE20K。Cityscapes數(shù)據(jù)集包含的是城市道路景觀照,其中有3000張帶有精細(xì)標(biāo)記的圖像,20000張粗略標(biāo)記的、用于訓(xùn)練的圖像。我們讓模型在這兩種圖像上分別訓(xùn)練,最終在含有500張圖像的驗(yàn)證數(shù)據(jù)集上進(jìn)行測試。

對于NYU數(shù)據(jù)集,我們在前1200張圖像上進(jìn)行訓(xùn)練,剩下的249張圖像用于測試。而ADE20K數(shù)據(jù)集是室外圖片,我們中其中1萬張圖像進(jìn)行訓(xùn)練,1000張圖像進(jìn)行測試。

感知測試

我們將提出的方法和pix2pix以及CRN進(jìn)行了對比,下圖是結(jié)果,表中的每一項(xiàng)都顯示,我們的方法(SIMS)都比由pix2pix和CRN合成的圖像更真實(shí):

語義分割準(zhǔn)確度

接下來,我們分析了合成圖像的真實(shí)性。給定一個(gè)語義布局L,我們用一種可評估的方法合成一張圖像I,該圖像之后會(huì)被輸入到一個(gè)預(yù)訓(xùn)練過的語義分割網(wǎng)絡(luò)(這里我們用PSPNet)。這個(gè)網(wǎng)絡(luò)會(huì)生成一個(gè)語義布局L?,然后我們將L?和L相比較。理論上來說,二者越接近,圖像的真實(shí)程度就越高。比較L和L?有兩種方法:intersection over union(IoU)和總體像素精度。

最終的結(jié)果如下:

我們的SIMS方法比pix2pix和CRN生成的圖像更合理、更真實(shí)。

圖像數(shù)據(jù)

接著,我們從低級圖像數(shù)據(jù)方面分析圖像的真實(shí)性。我們比較了合成圖像的平均經(jīng)典譜(power spectrum)以及對應(yīng)的數(shù)據(jù)集中的真實(shí)圖像。下圖顯示了三種方法合成圖像的平均經(jīng)典譜:

可以看出,我們的方法生成的平均經(jīng)典譜與真實(shí)圖像的平均經(jīng)典譜非常接近,而其他兩種方法則與真實(shí)圖像有差別。

質(zhì)量結(jié)果

從以下兩張圖中可以看出這三種方法的差別。

結(jié)語

我們所提出的半?yún)?shù)圖像合成方法(SIMS)可以從語義布局中生成圖像,實(shí)驗(yàn)證明這種方法比完全參數(shù)化的技術(shù)生成的圖像更真實(shí)。但是在這之后仍有一些尚未解決的問題。首先,我們的方法在部署時(shí)比完全基于參數(shù)的方法慢很多。另外還要開發(fā)更高效的數(shù)據(jù)機(jī)構(gòu)和算法。其次,其他形式的輸入也應(yīng)該可用,例如語義實(shí)例分割或者文本描述。第三,我們所提出的方法并不是端到端訓(xùn)練的。最后,我們希望這項(xiàng)半?yún)?shù)技術(shù)能應(yīng)用到視頻合成上。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103641
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41272
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25449

原文標(biāo)題:英特爾實(shí)驗(yàn)室推出半?yún)?shù)圖像合成方法,AI造圖“以假亂真”

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    3D效果逼真的元件封裝庫網(wǎng)盤下載

    `3D效果逼真的元件封裝庫網(wǎng)盤下載網(wǎng)盤下載地址:鏈接: https://pan.baidu.com/s/1iprCUYmzmlH7zIvwWQfwWw 提取碼: n7k4 復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機(jī)App,操作方便哦`
    發(fā)表于 03-07 15:23

    目標(biāo)檢測和圖像語義分割領(lǐng)域性能評價(jià)指標(biāo)

    目標(biāo)檢測和圖像語義分割領(lǐng)域的性能評價(jià)指標(biāo)
    發(fā)表于 05-13 09:57

    基于語義報(bào)文的干擾效果評估系統(tǒng)設(shè)計(jì)

    分析了干擾效果評估試驗(yàn)中存在的若干問題,提出了改進(jìn)的試驗(yàn)方法,在此基礎(chǔ)上設(shè)計(jì)了基于語義報(bào)文的干擾效果評估系統(tǒng),并闡述了系統(tǒng)各個(gè)模塊的功能,重點(diǎn)分析了合成模塊和輔助
    發(fā)表于 08-08 14:42 ?0次下載
    基于<b class='flag-5'>語義</b>報(bào)文的干擾<b class='flag-5'>效果</b>評估系統(tǒng)設(shè)計(jì)

    如何使用知識圖譜對圖像語義進(jìn)行分析技術(shù)及應(yīng)用研究

    圖像語義分析技術(shù)一直是圖像領(lǐng)域的研究難點(diǎn)之一,知識圖譜作為一種智能的知識組織方式,可以幫助用戶迅速、準(zhǔn)確地查詢到所需要的信息。本文首先提出了一種基于知識圖譜的圖像
    發(fā)表于 11-21 17:05 ?17次下載
    如何使用知識圖譜對<b class='flag-5'>圖像</b><b class='flag-5'>語義</b>進(jìn)行分析技術(shù)及應(yīng)用研究

    DeepFocus,基于AI實(shí)現(xiàn)逼真的VR圖像

    DeepFocus是一種基于AI的渲染系統(tǒng),用于在VR中渲染自然逼真的人眼聚焦效果。本文來自Facebook工程博客,LiveVideoStack進(jìn)行了翻譯。感謝阿里巴巴高級算法專家盛驍杰提供的技術(shù)審校。
    的頭像 發(fā)表于 12-29 15:18 ?4133次閱讀

    當(dāng)前生成圖像逼真的BigGAN被谷歌超越!造假效果更為逼真

    當(dāng)前生成圖像逼真的BigGAN被超越了!
    的頭像 發(fā)表于 03-11 15:28 ?4430次閱讀

    AI工具將低像素的面孔變成逼真圖像

    DUL研究人員創(chuàng)建了PULSE(通過潛伏空間探索進(jìn)行照片上采樣),以根據(jù)低像素源數(shù)據(jù)創(chuàng)建逼真圖像。在今年早些時(shí)候分發(fā)的研究論文中,該團(tuán)隊(duì)解釋了他們的方法與早期從8位圖像生成
    的頭像 發(fā)表于 07-07 09:43 ?2626次閱讀

    人體圖像合成制作可信和逼真的人類圖像

    技術(shù)和算法的開發(fā)和精進(jìn)讓AI換臉、AI克隆都成了可實(shí)現(xiàn)的事情。近日,上??萍即髮W(xué)團(tuán)隊(duì)的一項(xiàng)新研究,再一擴(kuò)展了這一領(lǐng)域,其開發(fā)建立了人體圖像合成——人體圖像合成的目的是制作可信和
    的頭像 發(fā)表于 12-14 11:17 ?3682次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法進(jìn)行分析與總結(jié),根據(jù)網(wǎng)
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>語義</b>分割方法

    基于SEGNET模型的圖像語義分割方法

    使用原始 SEGNET模型對圖像進(jìn)行語義分割時(shí),未對圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類別預(yù)測結(jié)果不一致。通過在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    語義分割標(biāo)注:從認(rèn)知到實(shí)踐

    隨著人工智能技術(shù)的不斷發(fā)展,語義分割標(biāo)注已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門話題。語義分割是指將圖像中的每個(gè)像素分配給一個(gè)預(yù)定義的語義類別,以便在計(jì)算機(jī)視覺應(yīng)用中進(jìn)行分類和分析。標(biāo)注
    的頭像 發(fā)表于 04-30 21:20 ?1411次閱讀

    深度學(xué)習(xí)圖像語義分割指標(biāo)介紹

    深度學(xué)習(xí)在圖像語義分割上已經(jīng)取得了重大進(jìn)展與明顯的效果,產(chǎn)生了很多專注于圖像語義分割的模型與基準(zhǔn)數(shù)據(jù)集,這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判模
    發(fā)表于 10-09 15:26 ?651次閱讀
    深度學(xué)習(xí)<b class='flag-5'>圖像</b><b class='flag-5'>語義</b>分割指標(biāo)介紹

    深入理解渲染引擎:打造逼真圖像的關(guān)鍵

    在數(shù)字世界中,圖像渲染是創(chuàng)造逼真視覺效果的核心技術(shù)。渲染引擎,作為這一過程中的關(guān)鍵組件,負(fù)責(zé)將二維或三維的模型、紋理、光照等數(shù)據(jù)轉(zhuǎn)化為人們?nèi)庋劭梢姷亩S圖像。本文將深入探討渲染引擎的工
    的頭像 發(fā)表于 06-29 08:28 ?674次閱讀
    深入理解渲染引擎:打造<b class='flag-5'>逼真</b><b class='flag-5'>圖像</b>的關(guān)鍵

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在
    的頭像 發(fā)表于 07-09 11:51 ?2061次閱讀

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像
    的頭像 發(fā)表于 07-17 09:56 ?918次閱讀