一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于CNN的通用框架來區(qū)別自然圖像NIs與計算機生成圖像CG之間的差異

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-08 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

傳統(tǒng)的肉眼識別方法是很難直接識別出 NIs (自然圖像) 和 CG (計算機生成的圖像)。本文中提出了一種高效的、基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的圖像識別方法。通過大量的實驗來評估模型的性能。實驗結(jié)果表明,該方法優(yōu)于現(xiàn)有的其他識別方法,與傳統(tǒng)方法中采用 CNN 模型來識別圖像,此方法還能借助高級可視化工具。

▌?wù)?/p>

考慮到對現(xiàn)有的 CCNs 從頭開始訓(xùn)練或微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)都具有一定的局限性,這個研究提出了一種更合適的想法:設(shè)計階段在 CNN 模型的底部增加了兩個級聯(lián)卷積層。該網(wǎng)絡(luò)能夠根據(jù)不同大小的圖像輸入,進(jìn)行自適應(yīng)地調(diào)整,同時保持固定的深度,以穩(wěn)定 CNN 結(jié)構(gòu)并實現(xiàn)良好的識別表現(xiàn)。對于所提出的模型,我們采用一種稱為“局部到全局”的策略,即 CNN 能夠獲取局部圖像的識別決策,而全局的識別決策可通過簡單的投票方式獲得。我們通過大量的實驗來評估模型的性能。實驗結(jié)果表明,該方法優(yōu)于現(xiàn)有的其他識別方法,且在后處理的圖像上也具有較好的魯棒性。此外,相比于傳統(tǒng)方法中采用 CNN 模型來識別圖像,我們的方法還能借助高級可視化工具,進(jìn)一步可視化地了解 NIs 與 CG 之間的差異。

▌簡介

當(dāng)前,對 NIs 和 CG 的圖像識別研究已經(jīng)得到了廣泛的關(guān)注。解決這個問題的主要挑戰(zhàn)在于 NIs 與 CG 有近乎相同的寫實性及圖像模式。先前的研究通常都是人工設(shè)計一些可判別的特征,來區(qū)別 NIs 和 CG。但這些方法普遍存在的問題是人為設(shè)計的特征對于給定的圖像識別問題來說,并不一定是最適合的,特別對于一些復(fù)雜的數(shù)據(jù)庫而言,該方法的識別效果更差。

相比于需要先驗知識和假設(shè)條件的傳統(tǒng)方法,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 能夠自動地從數(shù)據(jù)中學(xué)習(xí)目標(biāo)的特征及其抽象表征,這使得它能夠更廣泛適用于一些復(fù)雜的數(shù)據(jù)庫。本文,我們提出一種基于 CNN 的框架來識別 NIs 和 CG。這是一種以端到端的方式進(jìn)行自動特征學(xué)習(xí),而無需進(jìn)行人為設(shè)計圖像特征的框架。我們的工作主要總結(jié)如下:

提出了一種基于 CNN 的 NIs 與 CG 的通用識別框架,通過微調(diào)它能夠自適應(yīng)于不同尺寸的圖像輸入塊。

對微調(diào)訓(xùn)練后的 CNN 模型,我們針對性地設(shè)計了一種改進(jìn)方案以改進(jìn)我們的識別表現(xiàn),這兩種基于 CNN 的方案都優(yōu)于目前最先進(jìn)的方法。

我們的方法在 Google 和 PRCG 數(shù)據(jù)庫上都表現(xiàn)出良好的識別性能,而且對調(diào)整圖像大小和壓縮 JPEG 等后處理操作有強大的魯棒性。

利用可視化工具,我們進(jìn)一步地了解 CNN 模型是如何區(qū)分 NIs 和 CG。

▌數(shù)據(jù)集

我們使用的實驗數(shù)據(jù)包括 Columbia Photo-graphic 與 PRCG 數(shù)據(jù)庫。數(shù)據(jù)庫由三組圖像組成:(1) 從40個 3D 圖形網(wǎng)站中獲取的800張 PRCGs 數(shù)據(jù);(2) 我們所采集的800張 NIs;以及 (3) 從 Google 搜索中獲取的795張攝影圖像。

我們所采集的300張 NIs 是通過小型數(shù)碼相機拍攝的。先前研究的方法都沒有在 Google 與 PRCG 數(shù)據(jù)庫上進(jìn)行過測試,這是因為 Google中的 NIs 與PRCG中的CG圖像起源不同。而我們的研究不僅嘗試解決這個問題,而且還將在 Personal 與 PRCG ,以及 Personal+Google 與 PRCG 兩種不同數(shù)據(jù)庫組合條件下進(jìn)行測試。

▌框架

我們將 NIs 與 CG 的圖像識別問題視為是一個二元分類問題。針對此問題,提出了兩種不同的圖像識別標(biāo)準(zhǔn)框架,如圖1所示:其中,f 是特征提取器,c 代表一個分類器 (如 SVM) 。我們的框架是一個二階段模型,其核心在于特征提取器。通常,特征的提取過程不僅需要耗費大量的時間,且提取出來的特征不一定是我們?nèi)蝿?wù)所需要的,而我們的 CNN 框架能夠以端到端的方式自動學(xué)習(xí)并提取所需特征,這為解決特征提取問題提供了一種思路。因此,我們提出了一種適用的 CNN 模型,并采用以下三種不同的訓(xùn)練方法:(1) 遵循現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu),并從頭開始訓(xùn)練 CNN 模型;(2) 微調(diào)一個預(yù)先在其他數(shù)據(jù)集或另外一個任務(wù)中訓(xùn)練好的、現(xiàn)成的 CNN 網(wǎng)絡(luò);(3) 設(shè)計一個新的網(wǎng)絡(luò),并從頭開始訓(xùn)練。

圖1 兩種不同的圖像識別框架

局部到全局策略

考慮到模型的計算成本,圖片尺寸的多樣性以及圖像識別的性能要求,我們采用一種由局部到全局的策略,來對局部圖像進(jìn)行訓(xùn)練并使用簡單的投票規(guī)則再對全局的圖像進(jìn)行分類。這種由局部到全局的策略是一種基于數(shù)據(jù)增強的思想,也是擴展訓(xùn)練中的常用技巧,尤其是在深度學(xué)習(xí)領(lǐng)域。

對于圖像分類問題,局部策略 (即高精度的局部圖像) 對于圖像識別來說是非常重要的;另一方面,從 CG 上裁剪下來的圖像本質(zhì)仍是 CG,而對 Nis 而言也是如此。因此,我們引入數(shù)據(jù)增強的方法,也就是說,從每次訓(xùn)練中選擇一些固定尺寸的圖像去增強訓(xùn)練數(shù)據(jù)集,并且盡可能地去獲取更高精度的圖像。在實踐階段,我們使用 Maximal Poisson-disk 從每次訓(xùn)練中隨機裁剪一定數(shù)量的圖像來構(gòu)建新的訓(xùn)練數(shù)據(jù)集。在測試階段,從每個測試圖像中裁剪一定數(shù)量的局部圖像,并給每張局部圖像加上特定的標(biāo)簽 ( CG 屬于0,而 NI 屬于1 ),編號較高的標(biāo)簽作為該圖像的預(yù)測結(jié)果。

網(wǎng)絡(luò)結(jié)構(gòu)

我們所采用的網(wǎng)絡(luò)結(jié)構(gòu)由 ConvFilter 層,3個卷積層組,2層 FC 層以及1個softmax 分類層組成,模型的輸入是二進(jìn)制的圖片格式。其結(jié)構(gòu)如下圖2所示:我們的輸入是一張233*233的 RGB 圖像,用綠色方塊表示;紅色方塊代表卷積核,靠近它的數(shù)字代表該卷積核的尺寸,左側(cè)的紅色方塊代表一個7*7的卷積核;特征圖則由陰影部分的長方體所示。

圖2 我們的網(wǎng)絡(luò)結(jié)構(gòu)

▌實驗結(jié)果

實驗設(shè)置與細(xì)節(jié)

我們使用了雙三次插值來調(diào)整所有圖像的大小,調(diào)整后的圖片的較短邊像素值為512,以此確保所有圖像的大小一致性?;谠紨?shù)據(jù)集,我們以 3:1 的分離率來設(shè)置訓(xùn)練集和測試集,并用 MPS 從每張訓(xùn)練數(shù)據(jù)中裁剪出 200 張,以滿足局部到全局策略的需要并達(dá)到擴充訓(xùn)練數(shù)據(jù)的目的。同樣地,從每張測試數(shù)據(jù)中裁剪出 30 張來作為測試集。在訓(xùn)練時,我們采用128的批次大小,學(xué)習(xí)率設(shè)置為0.001,每 30k 次迭代學(xué)習(xí)率就除以10,直到迭代完 90k 次為止。此外,除了 60×60 和 30×30 圖像塊大小的正則化設(shè)置為 5e-5 和 1e-5 外,其余的正則化權(quán)重的默認(rèn)值為 1e-4。

微調(diào) CaffeNet 和卷積濾波器層的性能分析

微調(diào)后的 CaffeNet 的測試結(jié)果如下表 1 所示。我們可以看到,微調(diào)后網(wǎng)絡(luò) (C-1 到 C-7) 的測試性能要優(yōu)于從頭開始訓(xùn)練的網(wǎng)絡(luò) (C-S) 實驗結(jié)果,這可能是由于預(yù)訓(xùn)練期間學(xué)習(xí)大量 NI 對模型的特征學(xué)習(xí)是有益的。而相比于傳統(tǒng)方法 (準(zhǔn)確率最高80.65%),通過微調(diào)后,我們的網(wǎng)絡(luò)性能更佳,準(zhǔn)確率更高。

表1 模型的分類精度,其中 C 表示 CaffeNet,”C-S” 表示從頭開始訓(xùn)練網(wǎng)絡(luò) CaffeNet,”C-N” 表示微調(diào) CaffeNet 后的前 N 層網(wǎng)絡(luò),N 從1到7。

此外,我們還對 ConvFilter 層進(jìn)行了四種不同的配置: (1) 兩個級聯(lián)卷積層;(2) 刪除 convFilter 層;(3) convFilter 層之后接 ReLU 激活層;以及(4) convFilter 層中加入高通濾波器。下表2 顯示了這四種配置相對應(yīng)的模型性能,其中使用兩個級聯(lián)卷積層時模型的準(zhǔn)確率最高。

表2 四種不同配置下的 convFilter 的分類精度

不同尺寸圖像塊上的分類性能

下圖 3 展示了我們的方法與三種人工設(shè)計特征的方法在不同尺寸圖像塊上的分類精度。與其他三種方法相比較,我們的方法在任何圖像塊尺寸上的準(zhǔn)確率都更高,且隨著圖像塊尺寸的縮小,網(wǎng)絡(luò)的分類準(zhǔn)確率會降低。

圖3 我們的方法與三種人工設(shè)計特征的方法在不同尺寸圖像塊上的分類精度表現(xiàn)

后處理的魯棒性分析

有效的圖像識別算法不僅能處理原始數(shù)據(jù),還應(yīng)該在后處理數(shù)據(jù)中具有良好的魯棒性。本文的研究中,我們針對圖像縮放和 JPEG 壓縮這兩種典型的后處理進(jìn)行魯棒性分析。下圖 4 展示了四種分類方法在五種后處理中的分類準(zhǔn)確率表現(xiàn) (實線部分)??梢钥吹剑覀兊哪P蛯τ诤筇幚淼臄?shù)據(jù)具有更強的魯棒性。

圖4 不同分類方法在后處理數(shù)據(jù)上的分類精度表現(xiàn)

局部到全局策略的分析

進(jìn)一步地,我們還分析了局部到全局策略在全尺寸圖像上的分類精度表現(xiàn)。如下表3所示,實驗結(jié)果表明在全尺寸圖像上的模型精度,比在圖像塊上的模型精度要高,并且采用圖像塊投票的方式獲得的全尺寸分類精度要高于直接在全尺寸上圖像得到的分類精度。而投票準(zhǔn)確性對后處理操作的穩(wěn)健性由上圖4中的虛線表示。

表3 局部到全局策略對六種方法的分類準(zhǔn)確率的影響

▌可視化

計算機視覺任務(wù)中,CNN 的訓(xùn)練普遍存在一種現(xiàn)象:即模型在第一層學(xué)習(xí)的卷積核類似于 Gabor 濾波器和 color blobs。我們在下圖 5 展示了模型的卷積可視化結(jié)果,其中 (a) 表示我們模型的第一層卷積核的傅里葉變換 (FFT) 結(jié)果, (b) 表示預(yù)訓(xùn)練的 CaffeNet 的結(jié)果,(c) 是對應(yīng)于 CaffeNet 中第一層的前96個卷積核的可視化結(jié)果,而 (d) 則對應(yīng)于最后的96個結(jié)果。濾波器根據(jù)三個顏色通道 B,G 和 R 被分為3個組,而像素越亮則代表所對應(yīng)的B,G,R的值越高。

圖 5 卷積可視化結(jié)果

▌結(jié)論

本文,我們提出了一種基于 CNN 的通用框架來區(qū)別自然圖像 NIs 與計算機生成圖像 CG 之間的差異,這種方法不僅能夠在 Google 和 PRCG 的數(shù)據(jù)集中進(jìn)行測試,而在后處理時也表現(xiàn)出較好的魯棒性。這些優(yōu)點對于現(xiàn)實生活中的圖像識別任務(wù)是非常有效且重要的。

未來的工作中,我們將嘗試通過引入語義級別的 CNN 集成模型來進(jìn)一步改進(jìn)我們的模型性能。此外,我們還將擴展我們的方法,并應(yīng)用于視頻數(shù)據(jù)的差異性探索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103622
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41264
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22742

原文標(biāo)題:學(xué)術(shù) | 一種新的CNN網(wǎng)絡(luò)可以更高效地區(qū)分自然圖像&生成圖像

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    計算機圖形圖像處理最新應(yīng)用分析

    計算機圖形圖像處理最新應(yīng)用分析 圖形圖像處理是研究計算機除了圖形圖像的原理、方法和技術(shù)的科學(xué)。它是計算機
    發(fā)表于 09-23 14:56

    計算機視覺必讀:區(qū)分目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識別

    深度學(xué)習(xí)目前已成為發(fā)展最快、最令人興奮的機器學(xué)習(xí)領(lǐng)域之。本文以計算機視覺的重要概念為線索,介紹深度學(xué)習(xí)在計算機視覺任務(wù)中的應(yīng)用,包括網(wǎng)絡(luò)壓縮、細(xì)粒度圖像分類、看圖說話、視覺問答、
    發(fā)表于 06-08 08:00

    使用計算機制作,一種方便教學(xué)使用的計算機的制作方法 精選資料推薦

    一種方便教學(xué)使用的計算機的制作方法【技術(shù)領(lǐng)域】[0001]本實用新型涉及一種方便教學(xué)使用的計算機?!颈尘凹夹g(shù)】[0002]現(xiàn)在多使用計算機
    發(fā)表于 09-01 06:28

    計算機圖形學(xué)總覽:圖像圖像的概念辨析

    計算機圖形學(xué)和計算機視覺是同過程的兩個方向。計算機圖形學(xué)將抽象的語義信息轉(zhuǎn)化成圖形,計算機視覺則從圖形中提取抽象的語義信息,
    的頭像 發(fā)表于 08-21 09:10 ?6903次閱讀

    如何使用平穩(wěn)小波域深度殘差CNN進(jìn)行低劑量CT圖像估計

    針對低劑量計算機斷層掃描( LDCT)重建圖像中存在大量噪聲的問題,提出了一種平穩(wěn)小波的深度殘差卷積神經(jīng)網(wǎng)絡(luò)( SWT-CNN)模型,可以從LDCT
    發(fā)表于 12-19 10:39 ?6次下載
    如何使用平穩(wěn)小波域深度殘差<b class='flag-5'>CNN</b>進(jìn)行低劑量CT<b class='flag-5'>圖像</b>估計

    計算機視覺與機器視覺之間有什么差異

    計算機視覺和機器視覺都使用圖像捕獲和分析執(zhí)行人眼無法比擬的速度和準(zhǔn)確度的任務(wù)。
    發(fā)表于 09-11 11:14 ?1337次閱讀

    基于計算機圖像處理方法

    圖像是由像素點組成的矩陣,矩陣的每個點記錄著圖像的RGB值。數(shù)字圖像處理即根據(jù)用戶需求,使用計算機技術(shù)對圖像進(jìn)行處理得到所需效果。
    的頭像 發(fā)表于 03-13 16:32 ?5103次閱讀

    計算機圖形學(xué) 數(shù)字圖像處理和計算機視覺是什么?

    計算機圖形學(xué)(Computer Graphics)講的是圖形,也就是圖形的構(gòu)造方式,是一種從無到有的概念,從數(shù)據(jù)得到圖像。是給定關(guān)于景象結(jié)構(gòu)、表面反射特性、光源配置及相機模型的信息,生成
    的頭像 發(fā)表于 04-04 17:34 ?5171次閱讀
    <b class='flag-5'>計算機</b>圖形學(xué) 數(shù)字<b class='flag-5'>圖像</b>處理和<b class='flag-5'>計算機</b>視覺是什么?

    用于計算機視覺訓(xùn)練的圖像數(shù)據(jù)集

    計算機視覺使計算機能夠理解圖像和視頻的內(nèi)容。計算機視覺的目標(biāo)是使人類視覺系統(tǒng)可以實現(xiàn)任務(wù)自動化。計算機視覺任務(wù)包括
    的頭像 發(fā)表于 02-12 16:13 ?1632次閱讀

    一種具有語義區(qū)域風(fēng)格約束的圖像生成框架

    。文中提出了具有語義區(qū)域風(fēng)格約東的圖像生成框架,利用條件對抗生成網(wǎng)絡(luò)實現(xiàn)了圖像分區(qū)域的自適應(yīng)風(fēng)
    發(fā)表于 04-13 15:47 ?5次下載
    <b class='flag-5'>一種</b>具有語義區(qū)域風(fēng)格約束的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b><b class='flag-5'>框架</b>

    一種全新的遙感圖像描述生成方法

    遙感圖像描述生成是同時涉及計算機視覺和自然語言處理領(lǐng)域的熱門研究話題,其主要工作是對于給定的圖像自動地
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一種</b>全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成</b>方法

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    針對SAR圖像識別軟件,通過改進(jìn) DCGAN模型單生成器與單判別器對抗的結(jié)構(gòu),采用多生成器與單判別器進(jìn)行對抗,設(shè)計了控制各生成生成
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    機器視覺和計算機視覺的區(qū)別

    機器視覺和計算機視覺的區(qū)別 機器視覺和計算機視覺是兩個相關(guān)但不同的概念。雖然許多人使用這兩個術(shù)語描述同樣的事物,但它們在許多方面仍然有所不同。這篇文章將詳細(xì)介紹機器視覺和
    的頭像 發(fā)表于 08-09 16:51 ?2495次閱讀

    計算機視覺和圖像處理的區(qū)別和聯(lián)系

    計算機視覺和圖像處理是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計算機視覺 計算機視覺是
    的頭像 發(fā)表于 07-09 09:16 ?2259次閱讀

    圖像處理器與計算機視覺有什么關(guān)系和區(qū)別

    圖像處理器與計算機視覺是兩個在圖像處理領(lǐng)域緊密相連但又有所區(qū)別的概念。它們之間的關(guān)系和區(qū)別可以從
    的頭像 發(fā)表于 08-14 09:36 ?1048次閱讀