一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)CV和深度學(xué)習(xí)方法的比較

新機(jī)器視覺(jué) ? 來(lái)源:新機(jī)器視覺(jué) ? 作者:新機(jī)器視覺(jué) ? 2022-11-29 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:

深度學(xué)習(xí)推動(dòng)了數(shù)字圖像處理領(lǐng)域的極限。但是,這并不是說(shuō)傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)過(guò)時(shí)了。本文將分析每種方法的優(yōu)缺點(diǎn)。本文的目的是促進(jìn)有關(guān)是否應(yīng)保留經(jīng)典計(jì)算機(jī)視覺(jué)技術(shù)知識(shí)的討論。本文還將探討如何將計(jì)算機(jī)視覺(jué)的兩個(gè)方面結(jié)合起來(lái)。評(píng)論了幾種最近的混合方法論,這些方法論證明了改善計(jì)算機(jī)視覺(jué)性能和解決不適合深度學(xué)習(xí)的問(wèn)題的能力。例如,將傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)與深度學(xué)習(xí)相結(jié)合在新興領(lǐng)域(例如全景視覺(jué)和3D視覺(jué))中很流行,而對(duì)于這些領(lǐng)域,深度學(xué)習(xí)模型尚未完全優(yōu)化。

1. 介紹

深度學(xué)習(xí)被使用在數(shù)字圖像處理中,解決困難問(wèn)題,比如圖像著色,分類,分割和檢測(cè)。CNN使用大量數(shù)據(jù)和大量的計(jì)算資源來(lái)實(shí)現(xiàn)預(yù)測(cè)的性能,一些被認(rèn)為無(wú)法解決的問(wèn)題實(shí)現(xiàn)了超過(guò)人類的精度的解決方案。

是不是深度學(xué)習(xí)就可以解決所有問(wèn)題呢?是不是它就比傳統(tǒng)計(jì)算機(jī)視覺(jué)方法好呢?但是深度學(xué)習(xí)無(wú)法解決所有的問(wèn)題,在一些問(wèn)題上,具備全部特征的傳統(tǒng)技術(shù)仍是更好的方案。此外,深度學(xué)習(xí)可以和傳統(tǒng)算法結(jié)合,以克服深度學(xué)習(xí)帶來(lái)的計(jì)算力,時(shí)間,特點(diǎn),輸入的質(zhì)量等方面的挑戰(zhàn)。

這篇論文會(huì)提供對(duì)比在DL統(tǒng)治計(jì)算機(jī)視覺(jué)之前的傳統(tǒng)方法和深度學(xué)習(xí)的比較。這篇論文會(huì)總結(jié)傳統(tǒng)算法,一些可以作為DL有力的補(bǔ)集,去完成DL不能解決的問(wèn)題。這篇論文然后會(huì)總結(jié)一些最近的結(jié)合DL和CV的研究,如3D感知,或者說(shuō)3D點(diǎn)云物體定位,物體檢測(cè),語(yǔ)義分割等。最后,使得3D深度學(xué)習(xí)獲得在2D上一樣成功的可能發(fā)展方向?qū)?huì)被討論。

2. DL和傳統(tǒng)計(jì)算機(jī)視覺(jué)的比較

2.1 什么是深度學(xué)習(xí)?

要獲得對(duì)DL的深刻理解,我們需要去考慮描述分析和預(yù)測(cè)分析。

描述分析:涉及到定義了一個(gè)可理解的數(shù)學(xué)模型,模型描述了我們希望觀察到的現(xiàn)象。模型包括了對(duì)過(guò)程收集數(shù)據(jù),形成對(duì)模式(pattern)的假設(shè),通過(guò)比較描述模型的結(jié)果和真實(shí)的結(jié)果驗(yàn)證假設(shè)。但是總是有風(fēng)險(xiǎn),因?yàn)閷?duì)某些復(fù)雜的,隱藏或者非直覺(jué)性的理解不到位,科學(xué)家和工程師會(huì)忽略了某些變量,使其沒(méi)有包含進(jìn)模型中。

預(yù)測(cè)分析:包括發(fā)現(xiàn)一些規(guī)則,這些規(guī)則支持一種現(xiàn)象,形成一個(gè)預(yù)測(cè)模型可以最小化真實(shí)結(jié)果和預(yù)測(cè)結(jié)果之間的誤差,當(dāng)考慮到所有可能的影響因素時(shí)。

2.2 深度學(xué)習(xí)的優(yōu)勢(shì)

DL的快速發(fā)展和設(shè)備能力(包括計(jì)算能力,內(nèi)存容量,功率消耗,圖像傳感器分辨率和光學(xué))的提高使得基于視覺(jué)的應(yīng)用快速傳播。和傳統(tǒng)CV比較,DL有更好的精度,并且需要更少的專家分析和調(diào)參,同時(shí)可以利用如今容易獲得的大量的視頻數(shù)據(jù)。同時(shí),DL有很好的靈活性,因?yàn)镃NN模型和框架可以使用新的自定義數(shù)據(jù)重新訓(xùn)練,相比較于更局限領(lǐng)域的傳統(tǒng)的圖像處理技術(shù)。

在DL出現(xiàn)前,傳統(tǒng)的CV方法時(shí)通過(guò)特征提取,比如目標(biāo)檢測(cè)時(shí),通過(guò)對(duì)圖像的特征描述向量檢索,如果很大一部分特征時(shí)重復(fù)的,則一副圖像就分類含有一種特殊的物體。傳統(tǒng)CV的難點(diǎn)在于必須選擇哪一種特征時(shí)最重要的在每張圖片中。這很大程度上依賴于工程師的判斷和長(zhǎng)時(shí)間的調(diào)試的誤差處理,來(lái)決定哪一個(gè)特征可以區(qū)分不同類型的物體。同時(shí),特征的定義也需要工程師調(diào)參得到。

DL引入了端對(duì)端(end-to-end)學(xué)習(xí),即機(jī)器只是獲得了已經(jīng)被標(biāo)記上物體類型的圖像數(shù)據(jù)集。因此,DL模型再給定數(shù)據(jù)上被訓(xùn)練,其中神經(jīng)網(wǎng)絡(luò)得以找到背后的模式,自動(dòng)找到最具有描述性和明顯的特征。傳統(tǒng)的提取手動(dòng)特征的專業(yè)知識(shí)已經(jīng)被通過(guò)迭代在DL架構(gòu)的知識(shí)和專業(yè)性代替。如下圖所示。

c21fe0b0-6d8f-11ed-8abf-dac502259ad0.png

CNN使用核,也叫做濾波器,在整幅圖中檢測(cè)特征。CNN空間上在一個(gè)給定圖片上卷積這個(gè)核,去確認(rèn)要檢測(cè)的特征是否存在。卷積操作通過(guò)計(jì)算濾波器和給定濾波器覆蓋區(qū)域的點(diǎn)積實(shí)現(xiàn)。

為了促進(jìn)權(quán)重的學(xué)習(xí),卷積層輸出相加添加一個(gè)偏置項(xiàng),然后輸入到一個(gè)非線性激活函數(shù),如Sigmoid,TanH,ReLU?;跀?shù)據(jù)和不同的分類任務(wù),激活函數(shù)選擇有所不同。

為了加速訓(xùn)練過(guò)程和減少內(nèi)存消耗,卷積層后面經(jīng)常添加池化層來(lái)去除輸入特征的多余(Redundancy)。如圖2,一般來(lái)說(shuō),深層神經(jīng)網(wǎng)絡(luò)也許會(huì)有多對(duì)卷積層和池化層。最后,一個(gè)全連接層展開之前層體積,為一個(gè)特征向量,然后輸出層計(jì)算得分(置信度或者可能性。)。輸出結(jié)果一個(gè)回歸函數(shù),比如softMax,其映射所有值到一個(gè)向量,其總和為1。

c2433aec-6d8f-11ed-8abf-dac502259ad0.png

但是DL仍然是一個(gè)CV的工具。最常見的neural networkCNN中的卷積,就是在圖像處理技術(shù)中廣泛使用的技術(shù)。

2.3 傳統(tǒng)機(jī)器學(xué)習(xí)的優(yōu)勢(shì)

傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法使用特征描述子,再結(jié)合SVM,KNN等機(jī)器學(xué)習(xí)分類算法解決CV問(wèn)題。

DL有時(shí)候矯枉過(guò)正,傳統(tǒng)算法可以解決一個(gè)問(wèn)題以更簡(jiǎn)單,更少的代碼。傳統(tǒng)的算法很簡(jiǎn)單,只是顏色閾值或者像素技術(shù),但是他們可以非常通用,在各種圖像上表現(xiàn)相同??梢詫?duì)比的是,DL學(xué)習(xí)到的特征只能基于訓(xùn)練集,不能再除訓(xùn)練集以外的圖像中表現(xiàn)很好。所以,SIFT等算法經(jīng)常用在圖像拼接和3D網(wǎng)格重建中。還有例子,比如分別兩個(gè)不同顏色的物體,DL需要構(gòu)造訓(xùn)練集,然而簡(jiǎn)單的顏色閾值就可以實(shí)現(xiàn)。一些問(wèn)題可以通過(guò)簡(jiǎn)單和更快的技術(shù),而不是DL。

如果一個(gè)DNN在訓(xùn)練集以外表現(xiàn)很差?如果訓(xùn)練集很小,機(jī)器可能會(huì)過(guò)擬合訓(xùn)練數(shù)據(jù),不能通用化這個(gè)任務(wù)。在這種情況時(shí),DL模型被批評(píng)為黑匣子。傳統(tǒng)CV有著完全的透明性,可以判斷算法是否在訓(xùn)練環(huán)境外。工程師具備對(duì)于問(wèn)題的見解,可以轉(zhuǎn)換算法,如果失敗,可以調(diào)整參數(shù)在更大的圖片集中表現(xiàn)出更好的參數(shù)。

如今,傳統(tǒng)算法可以被使用,當(dāng)問(wèn)題被簡(jiǎn)化到可以布置到低消耗的控制器或者通過(guò)加強(qiáng)特征限制問(wèn)題對(duì)于DL的使用。之后我們會(huì)討論一些傳統(tǒng)的技術(shù),如何使用來(lái)提高網(wǎng)絡(luò)訓(xùn)練。最后,還有很多問(wèn)題在CV中:機(jī)器人技術(shù) ,增強(qiáng)現(xiàn)實(shí),自動(dòng)全景拼接,虛擬現(xiàn)實(shí),3D建模,運(yùn)動(dòng)估計(jì),視頻穩(wěn)像,運(yùn)動(dòng)捕捉,視頻處理,場(chǎng)景理解,這些問(wèn)題無(wú)法使用DL輕松的解決,但是可以從傳統(tǒng)CV中獲得幫助。

3.傳統(tǒng)計(jì)算機(jī)視覺(jué)的挑戰(zhàn)。

3.1 混合手動(dòng)調(diào)整方法和DL獲得更好的表現(xiàn)

這里在傳統(tǒng)CV和基于學(xué)習(xí)的方法之間有清晰的權(quán)衡。傳統(tǒng)計(jì)算機(jī)視覺(jué)是完善的,透明的,對(duì)于表現(xiàn)和功率效率優(yōu)化過(guò)的,盡管DL以大數(shù)量計(jì)算資源的代價(jià)提供更好的精度和通用性。

混合方法結(jié)合傳統(tǒng)CV和深度學(xué)習(xí)方法,提供了兩種方法的優(yōu)點(diǎn)。這種結(jié)合在需要快速處理的高性能系統(tǒng)中很實(shí)用。

機(jī)器學(xué)習(xí)和深度網(wǎng)絡(luò)的融合已經(jīng)變得非常流行,因?yàn)檫@樣可以產(chǎn)生更好的模型?;旌弦曈X(jué)處理實(shí)施可以引入性能優(yōu)點(diǎn),可以實(shí)現(xiàn)在多累積操作中130X-1000X倍的減少,大約10X的幀率的提高,想比較于單純的DL。進(jìn)一步的說(shuō),這種混合系統(tǒng)只需要一般的內(nèi)存容量,只需要更低的CPU資源。

3.2 克服DL的挑戰(zhàn)

DL也存在挑戰(zhàn)。最新的DL方法可以實(shí)現(xiàn)更好的精度,但是這種提升需要以百萬(wàn)次更多的數(shù)學(xué)操作和對(duì)于處理能力的要求增加。

使用DL的視覺(jué)處理結(jié)果也依靠于圖像分辨率。在物體分類實(shí)現(xiàn)足夠的性能,需要一個(gè)高分辨率的圖像和視頻,也導(dǎo)致了需要處理的數(shù)據(jù)增加。圖像分辨率對(duì)于遠(yuǎn)處物體檢測(cè)和分類的一些應(yīng)用非常重要。使用sift或者光流的幀減少技術(shù)(frame reduction),可以首先識(shí)別感興趣區(qū)域,減少訓(xùn)練需要的處理時(shí)間和數(shù)據(jù)量。

DL需要大數(shù)據(jù)。當(dāng)大的數(shù)據(jù)集或者高的計(jì)算能力不可獲得時(shí),傳統(tǒng)的方法可以參與進(jìn)來(lái)。訓(xùn)練DNN需要很長(zhǎng)的時(shí)間。需要很多次迭代,不同的參數(shù)獲得的誤差完全不一樣。最常見的技術(shù),用于減小訓(xùn)練時(shí)間的是遷移學(xué)習(xí)。傳統(tǒng)的CV技術(shù),比如離散傅里葉變換,證明可以用來(lái)使用加速卷積。

但是領(lǐng)域特殊更簡(jiǎn)單的任務(wù)一般不需要太多數(shù)據(jù)。在預(yù)處理過(guò)程中,傳統(tǒng)CV方法用來(lái)增加訓(xùn)練樣本。預(yù)處理步驟中可以變換數(shù)據(jù),使得關(guān)系或者模式,在訓(xùn)練模型前能夠更簡(jiǎn)單的描述。數(shù)據(jù)增強(qiáng)是一種常見的預(yù)處理任務(wù),用于當(dāng)訓(xùn)練數(shù)據(jù)很少的時(shí)候,包括實(shí)現(xiàn)隨機(jī)旋轉(zhuǎn),位移,剪切,用來(lái)增加訓(xùn)練集。

3.3 利用邊緣計(jì)算

如果在邊緣運(yùn)行算法和神經(jīng)網(wǎng)絡(luò)推理,與基于云的方法比較,可以較少延遲,成本,云儲(chǔ)存和處理需求及帶寬需求。通過(guò)避免在網(wǎng)絡(luò)上傳輸敏感或者可識(shí)別的數(shù)據(jù),邊緣計(jì)算同樣可以滿足私密和安全要求。

混合或者組合的方法,涉及傳統(tǒng)CV和DL利用了邊緣的異構(gòu)計(jì)算能力。一種異構(gòu)的計(jì)算架構(gòu),由CPU組合和微控制器核心處理器組成。DSP,fpgaAI加速設(shè)備可以分配不同的工作負(fù)載,實(shí)現(xiàn)最有效率的計(jì)算引擎。測(cè)試效果顯示,擋在DSP和CPU上面執(zhí)行DL推理時(shí),對(duì)象檢測(cè)的延遲減小了10倍。

多種混合CV方法已經(jīng)證明了在邊緣應(yīng)用的優(yōu)勢(shì)。比如,臉部表情識(shí)別有一種新的特征損失,它添加了人工特征到訓(xùn)練的過(guò)程中,這是嘗試去減小人工特征和學(xué)習(xí)得到特征之間的差別。使用混合的方法同樣顯示了其利用來(lái)自其它傳感器數(shù)據(jù)的能力的優(yōu)勢(shì)。

3.4 不適合DL的問(wèn)題

機(jī)器人,增強(qiáng)現(xiàn)實(shí),自動(dòng)全景拼接,虛擬現(xiàn)實(shí),3D建模,運(yùn)動(dòng)抑制,視頻穩(wěn)定,運(yùn)動(dòng)捕捉,視頻處理和場(chǎng)景理解,這些領(lǐng)域不能直接使用DL的方法,但是需要結(jié)合傳統(tǒng)技術(shù)來(lái)解決。

DL方法在解決閉環(huán)(close end)問(wèn)題時(shí)表現(xiàn)優(yōu)秀,這些問(wèn)題中潛在的信號(hào)可以被映射到一個(gè)限制的類別中,同時(shí)有足夠的可以獲得的數(shù)據(jù),訓(xùn)練集和測(cè)試集的數(shù)量十分相似。但是當(dāng)偏離以上假設(shè)時(shí),就會(huì)導(dǎo)致問(wèn)題,所以明確哪些問(wèn)題是DL不擅長(zhǎng)解決十分重要的。DL必須要得到其它技術(shù)的支持。

其中一個(gè)問(wèn)題時(shí)DL算法學(xué)習(xí)視覺(jué)關(guān)系時(shí)局限的能力。比如識(shí)別一幅圖像中的多個(gè)物體是否時(shí)同樣或者不同的。一些文獻(xiàn)證明了包括注意力和感知組是實(shí)現(xiàn)這種抽象視覺(jué)推理的關(guān)鍵計(jì)算組成。

同樣的,ML模型很難處理具有先驗(yàn)的模型,意味著不是所有都可以從學(xué)習(xí)中獲得,所以一些先驗(yàn)比如植入到模型中。比如3D視覺(jué)具有強(qiáng)的先驗(yàn)才能有效,比如基于圖像的3D建模要求光滑性,輪廓和照明信息。

3.5 3D視覺(jué)

3D視覺(jué)系統(tǒng)已經(jīng)變得更容易接觸,因?yàn)?D卷積神經(jīng)網(wǎng)絡(luò)的極大發(fā)展。這個(gè)新出現(xiàn)的領(lǐng)域稱為幾何深度數(shù)學(xué)(Multiple Deep Learning),應(yīng)用方向包括:視頻分類,計(jì)算圖形學(xué),視覺(jué)和機(jī)器人技術(shù)。

c26fa834-6d8f-11ed-8abf-dac502259ad0.png

輸入的尺寸在內(nèi)存上而言比傳統(tǒng)RGB圖像大得多,kernel卷積計(jì)算在3D空間中進(jìn)行。因此,在分辨率上計(jì)算復(fù)雜度立方增長(zhǎng)。3D CV難度在于引入了更多維度,帶來(lái)了更多不確定性,比如離散采樣,噪聲掃描,遮擋和混亂的場(chǎng)景。

c297e4d4-6d8f-11ed-8abf-dac502259ad0.png

基于FFT的方法可以優(yōu)化3D CNN可以減少計(jì)算量,但是以增加的內(nèi)存需要為代價(jià)。WMFA(Winograd Minimal Filtering Algortihm)實(shí)現(xiàn)了兩倍的加速,相比較于cuDNN,并且沒(méi)有增加內(nèi)存。

幾何深度學(xué)習(xí)處理深度學(xué)習(xí)技術(shù)的到3D數(shù)據(jù)的擴(kuò)展。3D數(shù)據(jù)可以分為歐幾里得和非歐幾里得。

3D歐幾里得有底層的網(wǎng)格結(jié)構(gòu),這允許全局參數(shù)化和像2D一樣有常見的坐標(biāo)系統(tǒng)。這使得2D深度學(xué)習(xí)樣式可以同樣使用在3D數(shù)據(jù)中,所以歐幾里得更適合分析簡(jiǎn)單的網(wǎng)格物體,如椅子,平面。

3D非歐幾里得數(shù)據(jù)沒(méi)有網(wǎng)格化結(jié)構(gòu),其中沒(méi)有全局參數(shù)化。因此,擴(kuò)展經(jīng)典DL技術(shù)對(duì)于這種表示,是一種挑戰(zhàn)的任務(wù),僅僅最近被PointNet實(shí)現(xiàn)。

連續(xù)的形狀信息,這種有用的信息總是在轉(zhuǎn)換到體素表示時(shí)損失掉。

3.6 SLAM

視覺(jué)SLAM是SLAM的一個(gè)子集,其中視覺(jué)系統(tǒng)替代雷達(dá)作為組成場(chǎng)景地標(biāo)定位。視覺(jué)SLAM具有攝影測(cè)量的優(yōu)勢(shì),豐富視覺(jué)數(shù)據(jù),低成本,輕便和低能源消耗,沒(méi)有后處理中相關(guān)的繁重的計(jì)算工作。視覺(jué)SLAM包括環(huán)境感知,數(shù)據(jù)匹配,運(yùn)動(dòng)估計(jì),場(chǎng)景更新和新地標(biāo)定位。

建立一個(gè)視覺(jué)物體如何在不同的條件下出現(xiàn),如3D旋轉(zhuǎn),尺度變換,光照變化,從那些代表的變換,會(huì)使用較強(qiáng)形式的遷移學(xué)習(xí)去實(shí)現(xiàn)零擊或一擊(zero-shot one-shot)學(xué)習(xí)。特征提取和數(shù)據(jù)表示方法對(duì)于減少M(fèi)L訓(xùn)練樣本是有用的。

一種兩步方法常常使用在基于圖像的定位中,場(chǎng)景識(shí)別后做姿態(tài)估計(jì)。場(chǎng)景識(shí)別一般是計(jì)算每一幅圖像的全局描述子,然后聚類局部描述子,使用bag of words的方法。然后每一幅的圖像全局描述子,在詞袋中搜索,最匹配的全局描述子提供了一個(gè)查詢圖像的大致的定位在參考地圖中。在姿態(tài)估計(jì)中,查詢圖像精確的姿態(tài)通過(guò)一些算法,比如PnP和幾何驗(yàn)證算法,實(shí)現(xiàn)更精確的計(jì)算。

基于圖像的場(chǎng)景識(shí)別很大程度上依賴于提取圖像特征描述子的能力。不幸的是,對(duì)于LiDAR掃描中,沒(méi)有一個(gè)類似SIFT算法提取局部描述子。

另外一個(gè)方法,從RGBD數(shù)據(jù)中構(gòu)建了多模態(tài)特征,而不是深度處理。對(duì)于深度處理部分,他們采用了有名的基于表面向量的colouration方法,因?yàn)檫@種方法已經(jīng)被證明是有效和魯棒的。另外一個(gè)方法是利用傳統(tǒng)技術(shù),如Force Histogram Decomposition,一種基于圖的等級(jí)描述子,可以使得在結(jié)構(gòu)子部分的空間關(guān)鍵和形狀信息被特征化。

3.7 360度相機(jī)

360相機(jī)(也稱為全向或球形或全景相機(jī))是一種在水平面中具有360度視場(chǎng),或者具有(大約)覆蓋整個(gè)球體的視野的相機(jī)。全向攝像機(jī)在需要大視野覆蓋的機(jī)器人等應(yīng)用中很重要。360攝像機(jī)可以代替多臺(tái)單眼攝像機(jī),并消除盲點(diǎn),這顯然對(duì)全向無(wú)人地面飛行器(UGV)和無(wú)人飛行器(UAV)有利。由于球形攝像機(jī)的成像特性,每個(gè)圖像都可以捕獲場(chǎng)景的360°全景圖,從而消除了對(duì)可用轉(zhuǎn)向選擇的限制。球形圖像的主要挑戰(zhàn)之一是由于超廣角魚眼鏡頭造成的鏡筒變形,這使傳統(tǒng)的人類視覺(jué)啟發(fā)方法(例如車道檢測(cè)和軌跡跟蹤)的實(shí)現(xiàn)變得復(fù)雜。通常需要額外的預(yù)處理步驟,例如事先校準(zhǔn)。

全景拼接是另外一個(gè)開放的研究問(wèn)題。實(shí)時(shí)拼接方法使用一組可變形的網(wǎng)格和最終圖像,并使用魯棒的像素著色器組合輸入。另一種方法將幾何推理(線和消失點(diǎn))提供的準(zhǔn)確性與DL技術(shù)(邊緣和法線貼圖)實(shí)現(xiàn)的更高水平的數(shù)據(jù)抽象和模式識(shí)別相結(jié)合,以提取結(jié)構(gòu)并生成室內(nèi)場(chǎng)景的布局假設(shè)。在稀疏結(jié)構(gòu)的場(chǎng)景中,基于特征的圖像對(duì)齊方法通常會(huì)因缺少獨(dú)特的圖像特征而失敗。相反,可以應(yīng)用直接圖像對(duì)準(zhǔn)方法,例如基于相位相關(guān)的方法。

3.8 數(shù)據(jù)集標(biāo)記和加強(qiáng)

有很多對(duì)于CV和DL的結(jié)合的爭(zhēng)論,最后總結(jié)到結(jié)論是我們需要重新評(píng)估我們從基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)的方法。傳統(tǒng)CV中,我們知道操作的意義,但是DL導(dǎo)致我們需要的只是更多的數(shù)據(jù)。這也許是進(jìn)步,也可能是退步。

最基礎(chǔ)的問(wèn)題是,目前的研究中,對(duì)于特殊的應(yīng)用中的先進(jìn)的算法或者模型,沒(méi)有更多足夠的數(shù)據(jù)。將自定義的數(shù)據(jù)集和DL模型結(jié)合在一起回事未來(lái)需要研究論文的主題。所以許多研究者的輸出不僅包括DL算法,也包括數(shù)據(jù)集或者收集數(shù)據(jù)的方法。數(shù)據(jù)標(biāo)記會(huì)是DL工作流程的瓶頸,因?yàn)檫@需要大量的人工標(biāo)記。主要是在語(yǔ)義分割應(yīng)用中,每個(gè)像素都需要精確的標(biāo)記。這里也有很多有用的工具用于半自動(dòng)化這種過(guò)程。

最簡(jiǎn)單和最常用的方法來(lái)克服限制的數(shù)據(jù)集,減小模型的過(guò)擬合是通過(guò)人工擴(kuò)大數(shù)據(jù)集,方法是使用保持標(biāo)記的轉(zhuǎn)換(label-preserving transformations)。比如使用裁剪,尺度變換,旋轉(zhuǎn)圖像來(lái)人工生成數(shù)據(jù)。數(shù)據(jù)增強(qiáng)過(guò)程需要非常少的計(jì)算并且可以在DL訓(xùn)練流水線內(nèi)實(shí)現(xiàn),從而不需要將轉(zhuǎn)換后的圖像存儲(chǔ)在磁盤上。用于數(shù)據(jù)集擴(kuò)充的傳統(tǒng)算法方法包括主成分分析(PCA),添加噪聲,在特征空間中的樣本之間進(jìn)行內(nèi)插或外推以及根據(jù)分割注釋對(duì)對(duì)象周圍的視覺(jué)環(huán)境進(jìn)行建模。

結(jié)論

只知道CV的DL方法,會(huì)很大程度上限制CV工程師的解決方案類型。學(xué)習(xí)DL之前的CV技術(shù),可以提供一些直覺(jué)方面的認(rèn)識(shí)和掌握一些有用的工具。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:傳統(tǒng)CV和深度學(xué)習(xí)方法的比較

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)篇、入門篇循序漸進(jìn)學(xué)習(xí)。參考兩份手冊(cè),提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)資料查找渠道。讓我們一起踏上W55MH32高性能以太網(wǎng)單片機(jī)的
    的頭像 發(fā)表于 05-26 09:07 ?82次閱讀
    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的<b class='flag-5'>學(xué)習(xí)方法</b>概述

    一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出了一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過(guò)不同的繞組通電組合將電機(jī)轉(zhuǎn)子依次轉(zhuǎn)到6個(gè)不同的位置并記錄對(duì)應(yīng)的霍耳信號(hào),然后得出霍耳信號(hào)與定子繞組的對(duì)應(yīng)關(guān)系。所提出的方法快速
    發(fā)表于 03-25 15:15

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個(gè)強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比
    的頭像 發(fā)表于 12-30 09:16 ?1172次閱讀
    <b class='flag-5'>傳統(tǒng)</b>機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    來(lái)源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆](méi)有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的機(jī)器學(xué)習(xí)的定義是“利用經(jīng)
    的頭像 發(fā)表于 11-16 01:07 ?957次閱讀
    什么是機(jī)器<b class='flag-5'>學(xué)習(xí)</b>?通過(guò)機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>能解決哪些問(wèn)題?

    如何用OpenCV的相機(jī)捕捉視頻進(jìn)行人臉檢測(cè)--基于米爾NXP i.MX93開發(fā)板

    的是Haar特征人臉檢測(cè),此外OpenCV中還集成了深度學(xué)習(xí)方法來(lái)實(shí)現(xiàn)人臉檢測(cè)。 【參考資料】 使用OpenCV工具包成功實(shí)現(xiàn)人臉檢測(cè)與人臉識(shí)別,包括傳統(tǒng)視覺(jué)和深度
    發(fā)表于 11-15 17:58

    NPU在深度學(xué)習(xí)中的應(yīng)用

    設(shè)計(jì)的硬件加速器,它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?1887次閱讀

    pcie在深度學(xué)習(xí)中的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來(lái)訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限,難以滿足深度學(xué)習(xí)的需求。因此,GPU(圖形處理單元)和TPU
    的頭像 發(fā)表于 11-13 10:39 ?1336次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?646次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的<b class='flag-5'>方法</b>

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1328次閱讀

    激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

    信息。這使得激光雷達(dá)在自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學(xué)習(xí)技術(shù)的發(fā)展 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它通過(guò)模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1047次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2865次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    并行計(jì)算的能力,可以在硬件層面并行處理大量數(shù)據(jù)。這種并行處理能力使得 FPGA 在執(zhí)行深度學(xué)習(xí)算法時(shí)速度遠(yuǎn)超傳統(tǒng)處理器,能夠提供更低的延遲和更高的吞吐量,從而加速模型訓(xùn)練和推理過(guò)程,滿足實(shí)時(shí)性要求較高
    發(fā)表于 09-27 20:53

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù),旨在通過(guò)減少網(wǎng)絡(luò)參數(shù)的比特寬度來(lái)減小模型大小和加速推理過(guò)程,同時(shí)盡量保持模型性能。從而達(dá)到把模型部署到邊緣或者低算力設(shè)備上,實(shí)現(xiàn)降本增效的目標(biāo)。
    的頭像 發(fā)表于 07-15 11:01 ?1093次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>模型量化<b class='flag-5'>方法</b>

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法是一個(gè)涉及多個(gè)技術(shù)領(lǐng)域的復(fù)雜話題,包括計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、以及圖像處理等。在這里,我將概述一個(gè)基本的
    的頭像 發(fā)表于 07-14 11:52 ?1683次閱讀

    深度學(xué)習(xí)中反卷積的原理和應(yīng)用

    像分割、圖像重建和生成對(duì)抗網(wǎng)絡(luò)(GANs)等,反卷積展現(xiàn)出了其獨(dú)特的優(yōu)勢(shì)和廣泛的應(yīng)用前景。本文將詳細(xì)探討深度學(xué)習(xí)中的反卷積技術(shù),包括其定義、原理、實(shí)現(xiàn)方式、應(yīng)用場(chǎng)景以及與其他上采樣方法比較
    的頭像 發(fā)表于 07-14 10:22 ?4790次閱讀