智源導(dǎo)讀:近年來,深度學(xué)習(xí)在各種計算機視覺任務(wù)上都取得了重大的突破,其中一個重要因素就是其強大的非線性表示能力,能夠理解圖像更深層次的信息。本文針對CV+Deep Learning未來的走向進(jìn)行了展望,其中包括CV與Learning之間的關(guān)系、CV面向不同場景以及Learning面向不同場景等多方面的延展。
01
「Learning-based CV」to 「CV-based Learning」
得益于神經(jīng)網(wǎng)絡(luò)較強的學(xué)習(xí)能力,很多視覺任務(wù)都被丟入一個黑盒中,然而神經(jīng)網(wǎng)絡(luò)直接從像素上對場景進(jìn)行感知是不夠的。對于具體的任務(wù),我們需要利用CV中的原理和技術(shù)點對其進(jìn)行解剖和建模,然后再利用深度學(xué)習(xí)中的網(wǎng)絡(luò)架構(gòu)/工具進(jìn)行相應(yīng)的特征提取與任務(wù)決策。
這里舉個例子,CV中有一個很具有挑戰(zhàn)性的任務(wù)是3D from Monocular Vision,即從單目圖像進(jìn)行三維重建與感知。目前很多方案都是通過強監(jiān)督學(xué)習(xí)方式直接對深度信息進(jìn)行預(yù)測或者直接在2D圖像上進(jìn)行3D任務(wù)。 在計算機視覺中,我們知道,從三維世界坐標(biāo)系到二維相機坐標(biāo)系是經(jīng)過了一個透視變換的,因此不同深度的物體才被投影到了同一個平面上(如圖1所示)。如果利用這種變換關(guān)系去顯示地指導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)或者利用可逆網(wǎng)絡(luò)去學(xué)習(xí)這種變換關(guān)系,會更加貼合真實場景中的應(yīng)用。如Marr Vision所描述的,對于一個圖像/場景的感知需要經(jīng)過"2D-2.5D-3D"的過程,然而在Learning-based CV中,諸如此類的視覺原理都被簡單粗暴的2D Convolutional Kernel給卷掉了。因此,CV + Deep Learning整個體系的后續(xù)發(fā)展應(yīng)該會從Learning-based CV轉(zhuǎn)到CV-based Learning,對于不同的視覺任務(wù)融入相應(yīng)的CV原理并建模Learning方式。
圖1:Ideal Projection of a 3D Object on A 2D Image
02
「Clean CV」to「Wild CV」
目前熱門的視覺任務(wù)如目標(biāo)檢測、語義分割、深度估計等都已被“卷er”們刷爆各大榜單,其中所用到的大多數(shù)數(shù)據(jù)集都是非常干凈的。然而在真實場景中,常見的噪聲如徑向畸變、光照、運動模糊、雨霧等都會通過改變物體的紋理結(jié)構(gòu)而改變其語義特征,因此造成算法的泛化性不強、換個數(shù)據(jù)集就崩的現(xiàn)象。一個很直接的解決方案是Image Restoration + CV Task,即在做具體CV任務(wù)之前直接還原一個干凈的場景。但是有一點需要注意的是目前Image Restoration很多都是基于圖像生成式,在去噪的過程中常常會引入新的圖像信息,這種顧此失彼的操作對很多下游任務(wù)是不能接受的。 對人來說,我們的日常視覺任務(wù)很少經(jīng)過Image Restoration這一步,而是直接在存在各種噪聲的情況下進(jìn)行感知與決策。其中一個最主要的原因是我們已經(jīng)見過各種場景下的相同物體,即人通過視覺系統(tǒng)所提取到的特征對于噪聲具備較好的不變性。相比之下,目前Clean CV所做的事情可能更多關(guān)注的是提取對具體任務(wù)有幫助的特征,而這種Feature Bias會影響算法的泛化功能。
03
「Single-Frame CV」to「Sequence CV」
Video Understanding是一個未來可期的方向,近些年興起的“小視頻”等新消遣方式大大增加了該方向的人才需求,一些大廠如阿里、騰訊等也在悄然布局。先拋開工業(yè)界需求不說,來聊一些具體的技術(shù)點。 視頻相較于圖像而言具有一個絕佳的優(yōu)勢——時序性。這一優(yōu)勢產(chǎn)生的前后幀相關(guān)性能夠促使弱監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)等得以更好地應(yīng)用,人類也是在這樣一個動態(tài)的世界里利用僅有的標(biāo)簽信息不斷地學(xué)習(xí)與認(rèn)知。同時,在Sequence CV中,F(xiàn)rame之間的“遷移學(xué)習(xí)”也是值得探索的,即如何利用少量前序幀中學(xué)習(xí)到的知識去啟發(fā)大量的后序幀。對于視頻的海量數(shù)據(jù)對顯卡資源產(chǎn)生的負(fù)擔(dān),視頻濃縮(Video Synopsis)等技術(shù)可能會帶來新的突破。
圖2:Video Synopsis
04
「General Pre-training CV」to「Specific Pre-training CV」
眾所周知,Pre-training on ImageNet在CV中是一個通用且有效的策略。但是,一些工作表明這種策略對不同CV任務(wù)的作用是不同的,原因大致有兩點:Data Gap和Task Gap。首先在ImageNet數(shù)據(jù)集中,大多數(shù)圖片都是無噪聲的,并且場景較為單一,前景、背景易于剝離,這與其他不同的數(shù)據(jù)集存在數(shù)據(jù)上的差異;其次,ImageNet所面向的主要任務(wù)是圖像分類,所以預(yù)載入模型中的參數(shù)大多與益于分類的特征相關(guān),對于一些位置信息要求更加精細(xì)的任務(wù)卻啟發(fā)有限。 那么我們?nèi)绾螌W(xué)習(xí)一個更好的Prior去啟發(fā)后續(xù)視覺任務(wù)呢?再來聯(lián)系一下人類的學(xué)習(xí)過程,對于不同的任務(wù)/課程,我們是有特定的Warm-up階段。比如在學(xué)習(xí)乒乓球和籃球的過程中,對于乒乓球一開始我們需要練習(xí)的是簡單的推擋和發(fā)球動作,而對于籃球,我們則是在一開始練習(xí)基礎(chǔ)的運球和投籃動作,這兩個Pre-training顯然是不同的。回到CV中,對于不同任務(wù)比如深度估計和語義分割,也應(yīng)該給予不同且更加精細(xì)的預(yù)學(xué)習(xí)課程:深度估計——三維成像先驗,語義分割——場景類別先驗等。
圖3:Pre-training on ImageNet
05
「Learning-ImplicitCV」to「Learning-Friendly CV」
如何評價一個任務(wù)是否易于網(wǎng)絡(luò)學(xué)習(xí),或者說這個任務(wù)是否對神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)友好?很直觀的一點就是去看圖像特征與學(xué)習(xí)目標(biāo)之間有無顯示關(guān)聯(lián)。例如在目標(biāo)檢測中,圖像特征與Bounding Box之間的關(guān)聯(lián)是肉眼可見的。而對于另一些任務(wù),例如從一幅圖像中直接預(yù)測對應(yīng)拍攝相機的相機參數(shù),那么圖像特征與相機參數(shù)之間的關(guān)聯(lián)就顯得格外隱式了。此外,學(xué)習(xí)目標(biāo)的同質(zhì)性(Homogeneity)和異質(zhì)性(Heterogeneity)也會影響神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。如果對相機參數(shù)進(jìn)一步細(xì)化的話,我們可以發(fā)現(xiàn)其中還包含了相機光心、焦距、畸變參數(shù)等不同的參數(shù),這些參數(shù)之間的異質(zhì)性以及相差甚遠(yuǎn)的取值范圍會很容易導(dǎo)致回歸的不平衡問題。 相比之下,Bounding Box中均為描述位置信息的頂點且取值范圍相近,那么我們就可以說學(xué)習(xí)Bounding Box對神經(jīng)網(wǎng)絡(luò)是友好的。后續(xù)的Center-based目標(biāo)檢測又進(jìn)一步優(yōu)化了所學(xué)習(xí)的目標(biāo)表示。從顯示性與同質(zhì)性這兩點出發(fā),我個人在學(xué)習(xí)相機參數(shù)這一個小點上提出了一個Learning-Friendly Representation(如下圖所示),去代替?zhèn)鹘y(tǒng)的隱式和異質(zhì)的相機參數(shù),具體細(xì)節(jié)可參考論文A Deep Ordinal Distortion Estimation Approach for Distortion Rectification (IEEE TIP 2021)。除了相機參數(shù),CV中還存在很多對神經(jīng)網(wǎng)絡(luò)并不是很友好的學(xué)習(xí)目標(biāo),相信后續(xù)工作會做好CV與神經(jīng)網(wǎng)絡(luò)之間的Trade-off,不會讓神經(jīng)網(wǎng)絡(luò)太過為難。
圖4:A Learning-friendly Representation for the Camera Intrinsic Parameters 綜上,近年CV + Deep Learning雖在眾多任務(wù)上得以革新,但二者相互作用的關(guān)系仍需要根據(jù)不同任務(wù)進(jìn)行省視,而且面向Wild、Dynamic、Specific、Learning-Friendly等場景的進(jìn)階之路道阻且長。 作者簡介:廖康,北京交通大學(xué)信息科學(xué)研究所2018級博士生,師從林春雨教授,讀博期間主要從事圖像生成、圖像修復(fù)、3D視覺等研究,相關(guān)成果發(fā)表至IEEE Transactions on Image Processing (TIP), IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Transactions on Intelligent Transportation Systems (TITS), IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)等會議及期刊。
責(zé)任編輯:lq
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103486 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46758 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5560瀏覽量
122762
原文標(biāo)題:計算機視覺未來走向:視頻理解等5大趨勢詳解
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中科馭數(shù)DPU助力大模型訓(xùn)練和推理

愛立信在電信領(lǐng)域取得重大進(jìn)展
黃仁勛:我們正重新發(fā)明計算機
國外科研團隊在X射線科學(xué)領(lǐng)域取得了重大突破
谷歌量子芯片實現(xiàn)計算領(lǐng)域重大突破
【小白入門必看】一文讀懂深度學(xué)習(xí)計算機視覺技術(shù)及學(xué)習(xí)路線

基于深度學(xué)習(xí)的三維點云分類方法

Anthropic在人工智能領(lǐng)域取得重大突破
“本源悟空”超導(dǎo)量子計算機助力大規(guī)模流體動力學(xué)量子計算

ARMxy ARM嵌入式計算機搭載 1 TOPS NPU支持深度學(xué)習(xí)

評論