計算機(jī)視覺領(lǐng)域正在從統(tǒng)計方法轉(zhuǎn)向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法。
計算機(jī)視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而,深度學(xué)習(xí)方法正在針對某些特定問題取得最新成果。
在最基本的問題上,最有趣的不僅僅是深度學(xué)習(xí)模型的表現(xiàn);事實上,單個模型可以從圖像中學(xué)習(xí)意義并執(zhí)行視覺任務(wù),從而無需使用專門的手工制作方法。
在這篇文章中,您將發(fā)現(xiàn)九個有趣的計算機(jī)視覺任務(wù),其中深度學(xué)習(xí)方法取得了一些進(jìn)展。
讓我們開始吧。
概觀
在這篇文章中,我們將研究以下使用深度學(xué)習(xí)的計算機(jī)視覺問題:
圖像分類
具有本地化的圖像分類
物體檢測
對象分割
圖像樣式轉(zhuǎn)移
圖像著色
影像重建
圖像超分辨率
圖像合成
其他問題
注意,當(dāng)涉及圖像分類(識別)任務(wù)時,已采用ILSVRC的命名約定。雖然任務(wù)集中在圖像上,但它們可以推廣到視頻幀。
我試圖關(guān)注您可能感興趣的最終用戶問題的類型,而不是深度學(xué)習(xí)能夠做得更好的學(xué)術(shù)問題。
每個示例都提供了問題的描述,示例以及對演示方法和結(jié)果的論文的引用。
圖像分類
圖像分類涉及為整個圖像或照片分配標(biāo)簽。
該問題也被稱為“對象分類”,并且可能更一般地稱為“圖像識別”,盡管后一任務(wù)可以應(yīng)用于與分類圖像內(nèi)容相關(guān)的更廣泛的任務(wù)集。
圖像分類的一些示例包括:
1、將X射線標(biāo)記為癌癥與否(二元分類)。
2、對手寫數(shù)字進(jìn)行分類(多類分類)。
3、為臉部照片指定名稱(多類別分類)。
用作基準(zhǔn)問題的圖像分類的流行示例是MNIST數(shù)據(jù)集。
分類數(shù)字照片的流行真實版本是街景房號(SVHN)數(shù)據(jù)集。
有許多圖像分類任務(wù)涉及對象的照片。兩個流行的例子包括CIFAR-10和CIFAR-100數(shù)據(jù)集,這些數(shù)據(jù)集的照片分別分為10類和100類。
大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)是一項年度競賽,其中團(tuán)隊在從ImageNet數(shù)據(jù)庫中提取的數(shù)據(jù)上競爭一系列計算機(jī)視覺任務(wù)的最佳性能。圖像分類方面的許多重要進(jìn)步來自于發(fā)布在該挑戰(zhàn)或來自該挑戰(zhàn)的任務(wù)的論文,最值得注意的是關(guān)于圖像分類任務(wù)的早期論文。例如:
使用深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類,2012。
用于大規(guī)模圖像識別的非常深的卷積網(wǎng)絡(luò),2014。
圍繞卷積更深入,2015年。
圖像識別的深度殘留學(xué)習(xí),2015年。
具有本地化的圖像分類
具有本地化的圖像分類涉及為圖像分配類標(biāo)簽并通過邊界框(在對象周圍繪制框)來顯示圖像中對象的位置。
這是一個更具挑戰(zhàn)性的圖像分類版本。
本地化圖像分類的一些示例包括:
1.將X射線標(biāo)記為癌癥或在癌癥區(qū)域周圍畫一個盒子。
2.在每個場景中對動物的照片進(jìn)行分類并在動物周圍畫一個盒子。
用于具有定位的圖像分類的經(jīng)典數(shù)據(jù)集是PASCAL視覺對象類數(shù)據(jù)集,或簡稱為PASCAL VOC(例如VOC 2012)。這些是多年來在計算機(jī)視覺挑戰(zhàn)中使用的數(shù)據(jù)集。
該任務(wù)可以涉及在圖像中的同一對象的多個示例周圍添加邊界框。因此,該任務(wù)有時可稱為“對象檢測”。
用于本地化圖像分類的ILSVRC2016數(shù)據(jù)集是一個流行的數(shù)據(jù)集,包含150,000張照片和1000種對象。
關(guān)于本地化圖像分類的論文的一些例子包括:
選擇性搜索對象識別,2013年。
用于精確對象檢測和語義分割的豐富特征層次結(jié)構(gòu),2014年。
快速R-CNN,2015年。
物體檢測
物體檢測是具有定位的圖像分類的任務(wù),盡管圖像可能包含需要定位和分類的多個對象。
與簡單的圖像分類或具有定位的圖像分類相比,這是一項更具挑戰(zhàn)性的任務(wù),因為在不同類型的圖像中通常存在多個對象。
通常,使用并展示用于具有定位的圖像分類的技術(shù)用于對象檢測。
對象檢測的一些示例包括:
繪制邊界框并標(biāo)記街道場景中的每個對象。
繪制邊界框并在室內(nèi)照片中標(biāo)記每個對象。
繪制邊界框并在橫向中標(biāo)記每個對象。
PASCAL Visual Object Classes數(shù)據(jù)集或簡稱PASCAL VOC(例如VOC 2012)是用于對象檢測的常見數(shù)據(jù)集。
用于多個計算機(jī)視覺任務(wù)的另一個數(shù)據(jù)集是Microsoft的上下文數(shù)據(jù)集中的公共對象,通常稱為MS COCO。
關(guān)于物體檢測的論文的一些例子包括:
OverFeat:使用卷積網(wǎng)絡(luò)的集成識別,本地化和檢測,2014年。
更快的R-CNN:利用區(qū)域提案網(wǎng)絡(luò)實現(xiàn)實時目標(biāo)檢測,2015年。
您只看一次:統(tǒng)一,實時對象檢測,2015年。
對象分割
對象分割或語義分割是對象檢測的任務(wù),其中在圖像中檢測到的每個對象周圍繪制線。圖像分割是將圖像分成段的更普遍的問題。
對象檢測有時也稱為對象分割。
與涉及使用邊界框來識別對象的對象檢測不同,對象分割識別圖像中屬于對象的特定像素。這就像一個細(xì)粒度的本地化。
更一般地,“圖像分割”可以指將圖像中的所有像素分割成不同類別的對象。
同樣,VOC 2012和MS COCO數(shù)據(jù)集可用于對象分割。
KITTI Vision Benchmark Suite是另一種流行的對象分割數(shù)據(jù)集,提供用于自動駕駛車輛訓(xùn)練模型的街道圖像。
關(guān)于對象分割的一些示例論文包括:
同步檢測和分割,2014年。
用于語義分割的完全卷積網(wǎng)絡(luò),2015。
用于對象分割和細(xì)粒度本地化的超級列,2015。
SegNet:用于圖像分割的深度卷積編碼器 - 解碼器架構(gòu),2016。
Mask R-CNN,2017年。
風(fēng)格轉(zhuǎn)移
風(fēng)格轉(zhuǎn)移或神經(jīng)風(fēng)格轉(zhuǎn)移是從一個或多個圖像學(xué)習(xí)風(fēng)格并將該風(fēng)格應(yīng)用于新圖像的任務(wù)。
該任務(wù)可以被認(rèn)為是一種可能沒有客觀評價的照片濾波器或變換。
例子包括將特定著名藝術(shù)品(例如Pablo Picasso或Vincent van Gogh)的風(fēng)格應(yīng)用于新照片。
數(shù)據(jù)集通常涉及使用公共領(lǐng)域的著名藝術(shù)作品和標(biāo)準(zhǔn)計算機(jī)視覺數(shù)據(jù)集中的照片。
一些論文包括:
藝術(shù)風(fēng)格的神經(jīng)算法,2015。
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)移,2016。
圖像著色
圖像著色或神經(jīng)著色涉及將灰度圖像轉(zhuǎn)換為全色圖像。
該任務(wù)可以被認(rèn)為是一種可能沒有客觀評價的照片濾波器或變換。
例子包括著色舊的黑白照片和電影。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學(xué)習(xí)著色的照片的灰度版本。
一些論文包括:
彩色圖像著色,2016年。
讓我們有顏色:全球和本地圖像的聯(lián)合端到端學(xué)習(xí),用于同步分類的自動圖像著色,2016。
深色著色,2016。
影像重建
圖像重建和圖像修復(fù)是填充圖像的缺失或損壞部分的任務(wù)。
該任務(wù)可以被認(rèn)為是一種可能沒有客觀評價的照片濾波器或變換。
示例包括重建舊的,損壞的黑白照片和電影(例如照片恢復(fù))。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學(xué)會修復(fù)的損壞版本的照片。
一些論文包括:
像素回歸神經(jīng)網(wǎng)絡(luò),2016年。
使用部分卷積的圖像修復(fù)不規(guī)則孔,2018年。
使用具有帶通濾波的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高度可擴(kuò)展的圖像重建,2018年。
圖像超分辨率
圖像超分辨率是生成具有比原始圖像更高分辨率和細(xì)節(jié)的圖像的新版本的任務(wù)。
通常為圖像超分辨率開發(fā)的模型可用于圖像恢復(fù)和修復(fù),因為它們解決了相關(guān)問題。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建縮小版照片,模型必須學(xué)會創(chuàng)建超分辨率版本。
一些論文包括:
使用生成對抗網(wǎng)絡(luò)的照片真實單圖像超分辨率,2017。
深拉普拉斯金字塔網(wǎng)絡(luò),快速準(zhǔn)確的超分辨率,2017。
Deep Image Prior,2017。
圖像合成
圖像合成是生成現(xiàn)有圖像或全新圖像的目標(biāo)修改的任務(wù)。
這是一個非常廣泛的領(lǐng)域,正在迅速發(fā)展。
它可能包括圖像和視頻的小修改(例如圖像到圖像的翻譯),例如:
更改場景中對象的樣式。
將對象添加到場景中。
將面添加到場景中。
它還可能包括生成全新的圖像,例如:
1、生成面孔。
2、生成浴室。
3、生成衣服。
一些論文包括:
用深度卷積生成對抗網(wǎng)絡(luò)學(xué)習(xí)無監(jiān)督表示,2015。
使用PixelCNN解碼器生成條件圖像,2016。
使用周期一致的對抗網(wǎng)絡(luò)進(jìn)行不成對的圖像到圖像轉(zhuǎn)換,2017。
其他問題
還有其他重要且有趣的問題我沒有涉及,因為它們不是純粹的計算機(jī)視覺任務(wù)。
值得注意的例子是圖像到文本和文本到圖像:
1、圖像字幕:生成圖像的文本描述。
Show and Tell:神經(jīng)圖像標(biāo)題生成器,2014。
2、圖像描述:生成圖像中每個對象的文本描述。
用于生成圖像描述的深層視覺語義對齊,2015。
3、文本到圖像:基于文本描述合成圖像。
AttnGAN:使用注意生成對抗網(wǎng)絡(luò)生成細(xì)粒度文本到圖像,2017。
據(jù)推測,人們學(xué)會在其他模態(tài)和圖像之間進(jìn)行映射,例如音頻。
總結(jié)
在這篇文章中,您發(fā)現(xiàn)了九種深度學(xué)習(xí)應(yīng)用于計算機(jī)視覺任務(wù)。
編輯:黃飛
?
評論