計(jì)算機(jī)視覺常用算法
計(jì)算機(jī)視覺算法在圖像識(shí)別方面的一些難點(diǎn):
1)視角變化:同一物體,攝像頭可以從多個(gè)角度來展現(xiàn);
2)大小變化:物體可視的大小通常是會(huì)變化的(不僅是在圖片中,在真實(shí)世界中大小也是由變化的);
3)形變:很多東西的形狀并非一成不變,會(huì)有很大變化;
4)遮擋:目標(biāo)物體可能被遮擋。有時(shí)候只有物體的一部分(可以小到幾個(gè)像素)是可見的; 5)光照條件:在像素層面上,光照的影響非常大;
6)背景干擾:物體可能混入背景之中,使之難以被辨認(rèn);
7)類內(nèi)差異:一類物體的個(gè)體之間的外形差異很大,如椅子。這一類物體有許多不同的對(duì)象,每個(gè)都有自己的外形
人臉識(shí)別算法主要包含三個(gè)模塊:
人臉檢測(cè)(Face Detection):確定人臉在圖像中的大小和位置,也就是在圖像中預(yù)測(cè)anchor;
人臉對(duì)齊(Face Alignment):它的原理是找到人臉的若干個(gè)關(guān)鍵點(diǎn)(基準(zhǔn)點(diǎn),如眼角,鼻尖,嘴角等),然后利用這些對(duì)應(yīng)的關(guān)鍵點(diǎn)通過相似變換(Similarity Transform,旋轉(zhuǎn)、縮放和平移)將人臉盡可能變換到標(biāo)準(zhǔn)人臉;
人臉特征表征(Feature Representation):它接受的輸入是標(biāo)準(zhǔn)化的人臉圖像,通過特征建模得到向量化的人臉特征,最后通過分類器判別得到識(shí)別的結(jié)果。關(guān)鍵點(diǎn)是怎樣得到不同人臉的有區(qū)分度的特征,比如:鼻子、嘴巴、眼睛等。
早期算法:
子空間(線性降維)
PCA(主成成分分析) :盡量多地保留原始數(shù)據(jù)的保留主要信息,降低冗余信息;
LDA(線性判別分析):增大類間差距,減小類內(nèi)差距。
非線性降維: 流形學(xué)習(xí)、加入核函數(shù)。
ICA(獨(dú)立成分分析):比PCA效果好,比較依賴于訓(xùn)練測(cè)試場(chǎng)景,且對(duì)光照、人臉的表情、姿態(tài)敏感,泛化能力不足。
HMM(隱馬爾科夫) : 和前面這些算法相比,它對(duì)光照變化、表情和姿態(tài)的變化更魯棒。
早期:數(shù)據(jù)和模型結(jié)構(gòu);
后期:loss,從而得到不同人臉的有區(qū)分度的特征。
常用算法總結(jié)
計(jì)算機(jī)視覺中的相關(guān)算法的源代碼
計(jì)算機(jī)視覺常用算法博客
特征提?。ㄕ业饺舾蓚€(gè)關(guān)鍵點(diǎn))
(1) SIFT (尺度不變特征變換) 具有尺度不變性,可在圖像中檢測(cè)出關(guān)鍵點(diǎn)。
(2) SURF(加速穩(wěn)健特征,SIFT加速版)
核心:構(gòu)建Hessian矩陣,判別當(dāng)前點(diǎn)是否為比鄰域更亮或更暗的點(diǎn),由此來確定關(guān)鍵點(diǎn)的位置。
優(yōu):特征穩(wěn)定;
缺:對(duì)于邊緣光滑的目標(biāo)提取能力較弱。
(3) ORB
結(jié)合Fast與Brief算法,并給Fast特征點(diǎn)增加了方向性,使得特征點(diǎn)具有旋轉(zhuǎn)不變性,并提出了構(gòu)造金字塔方法,解決尺度不變性。
ORB算法的速度是sift的100倍,是surf的10倍。
經(jīng)顯示觀察到,ORB算法在特征點(diǎn)標(biāo)記時(shí)數(shù)量較少,如圖:
SIFT、SURF、ORB實(shí)現(xiàn)
(4) FAST角點(diǎn)檢測(cè)
FAST的方法主要是考慮像素點(diǎn)附近的圓形窗口上的16個(gè)像素
如果要提高檢測(cè)速度的話,只需要檢測(cè)四個(gè)點(diǎn)就可以了,首先比較第1和第9個(gè)像素,如果兩個(gè)點(diǎn)像素強(qiáng)度都在中心像素強(qiáng)度t變化范圍內(nèi)(及都同中心點(diǎn)相似),則說明這不是角點(diǎn),如果接下來檢測(cè)第5和13點(diǎn)時(shí),發(fā)現(xiàn)上述四點(diǎn)中至少有三個(gè)點(diǎn)同中心點(diǎn)不相似,則可以說明這是個(gè)角點(diǎn)。
非極大值抑制:如果存在多個(gè)關(guān)鍵點(diǎn),則刪除角響應(yīng)度較小的特征點(diǎn)。
(5) HOG (方向梯度直方圖)
(6) LBP(局部二值特征)論述了高維特征和驗(yàn)證性能存在著正相關(guān)的關(guān)系,即人臉維度越高,驗(yàn)證的準(zhǔn)確度就越高。
(7)Haar
計(jì)算機(jī)視覺有哪些分類
人類視覺所具有的強(qiáng)大功能和完美的信息處理方式引起了智能研究者的極大興趣,人們希望以生物視覺為藍(lán)本研究一個(gè)人工視覺系統(tǒng)用于機(jī)器人中,期望機(jī)器人擁有類似人類感受環(huán)境的能力。機(jī)器人要對(duì)外部世界的信息進(jìn)行感知,就要依靠各種傳感器。就像人類一樣,在機(jī)器人的眾多感知傳感器中,視覺系統(tǒng)提供了大部分機(jī)器人所需的外部相界信息。因此視覺系統(tǒng)在機(jī)器人技術(shù)中具有重要的作用。
依據(jù)視覺傳感器的數(shù)量和特性,目前主流的移動(dòng)機(jī)器人視覺系統(tǒng)有單目視覺、雙目立體視覺、多目視覺和全景視覺等。
單目視覺,單目視覺系統(tǒng)只使用一個(gè)視覺傳感器。單目視覺系統(tǒng)在成像過程中由于從三維客觀世界投影到N維圖像上,從而損失了深度信息,這是此類視覺系統(tǒng)的主要缺點(diǎn)(盡管如此,單目視覺系統(tǒng)由于結(jié)構(gòu)簡單、算法成熟且計(jì)算量較小,在自主移動(dòng)機(jī)器人中已得到廣泛應(yīng)用,如用于目標(biāo)跟蹤、基于單目特征的室內(nèi)定位導(dǎo)航等。同時(shí),單目視覺是其他類型視覺系統(tǒng)的基礎(chǔ),如雙目立體視覺、多目視覺等都是在單目視覺系統(tǒng)的基礎(chǔ)上,通過附加其他手段和措施而實(shí)現(xiàn)的。
雙目立體視覺。雙目視覺系統(tǒng)由兩個(gè)攝像機(jī)組成,利用三角測(cè)量原理獲得場(chǎng)景的深度信息,并且可以重建周圍景物的三維形狀和位置,類似人眼的體視功能,原理簡單。雙目視覺系統(tǒng)需要精確地知道兩個(gè)攝像機(jī)之間的空間位置關(guān)系,而且場(chǎng)景環(huán)境的3D信息需要兩個(gè)攝像機(jī)從不同角度,同時(shí)拍攝同一場(chǎng)景的兩幅圖像,并進(jìn)行復(fù)雜的匹配,才能準(zhǔn)確得到立體視覺系統(tǒng)能夠比較準(zhǔn)確地恢復(fù)視覺場(chǎng)景的三維信息,在移動(dòng)機(jī)器人定位導(dǎo)航、避障和地圖構(gòu)建等方面得到了廣泛的應(yīng)用用。然而,立體視覺系統(tǒng)的難點(diǎn)是對(duì)應(yīng)點(diǎn)匹配的問題,該問題在很大程度上制約著立體視覺在機(jī)器人領(lǐng)域的應(yīng)用前景。
多目視覺系統(tǒng)。多目視覺系統(tǒng)采用三個(gè)或三個(gè)以上攝像機(jī),三目視覺系統(tǒng)居多,主要用來解決又目立體視覺系統(tǒng)中匹配多義性的問題,提高匹配精度。多目視覺系統(tǒng)最早由莫拉維克研究,他為“StanfordCart”研制的視覺導(dǎo)航系統(tǒng)采用單個(gè)攝像機(jī)的“滑動(dòng)
立體視覺”來實(shí)現(xiàn),雅西達(dá)提出了三目立體視覺系統(tǒng)解決對(duì)應(yīng)點(diǎn)匹配的問題,真正突破了《目立體視覺系統(tǒng)的局限,并指出以邊界點(diǎn)作為匹配特征的三目視覺系統(tǒng)中,其三元的配的準(zhǔn)確率比較高,艾雅湜提出了用多邊形近似宕的邊界點(diǎn)段作為特征的三目匹配算法,并用到移動(dòng)機(jī)器人中,取得了較好的效果,三目視覺系統(tǒng)的優(yōu)點(diǎn)是充分利用了第三個(gè)攝像機(jī)的信息,減少了錯(cuò)誤匹配,解決了雙目視覺系統(tǒng)匹配的多義性,提高了定位精度,但三目視覺系統(tǒng)要合理安置三個(gè)攝像機(jī)的相對(duì)位置,其結(jié)構(gòu)配置比雙目視覺系統(tǒng)更煩瑣,而且匹配算法更復(fù)雜需要消耗更多的時(shí)間,實(shí)時(shí)性更差
全景視覺,全景視覺系統(tǒng)是具有較大水平視場(chǎng)的多方向成像系統(tǒng),突出的優(yōu)點(diǎn)是有較大的視場(chǎng),可以達(dá)到360度,這是其他常規(guī)鏡頭無法比擬的,全景視覺系統(tǒng)可以通過圖像拼的方法或者通過折反射光學(xué)元件實(shí)現(xiàn)。圖像拼接的方法使用單個(gè)或多個(gè)相機(jī)旋轉(zhuǎn),對(duì)場(chǎng)景進(jìn)行大角度掃描,獲取不同方向上連續(xù)的多幀圖像,再用拼接技術(shù)得到全景圖。折反射全景視覺系統(tǒng)由CCD攝像機(jī)、折反射光學(xué)元件等組成,利用反射鏡成像原理,可以觀察360度場(chǎng)景,成像速度快,能達(dá)到實(shí)時(shí)要求,具有十分重要的應(yīng)用前景,可以應(yīng)用在機(jī)器人導(dǎo)航中。全景視覺系統(tǒng)本質(zhì)上也是一種單目視覺系統(tǒng),也無法得到場(chǎng)景的深度信息。其另一個(gè)特點(diǎn)是獲取的圖像分辨率較低,并且圖像存在很大的畸變,從而會(huì)影響圖像處理的穩(wěn)定性和精度。在進(jìn)行圖像處理時(shí)首先需要根據(jù)成像模型對(duì)畸變圖像進(jìn)行校正,這種較正過程不但會(huì)影響視覺系統(tǒng)的實(shí)時(shí)性,而且還會(huì)造成信息的損失。另外這種視覺系統(tǒng)對(duì)全景反射鏡的加工精度要求很多,若雙曲反射鏡面的精度達(dá)不到要求,利用理想模型對(duì)圖像校正則會(huì)存在較大偏差。
混合視覺系統(tǒng),混合視覺系統(tǒng)吸收各種視覺系統(tǒng)的優(yōu)點(diǎn),采用兩種或兩種以上的視覺系統(tǒng)組成復(fù)合視覺系統(tǒng),多采用單目或雙目視覺系統(tǒng),同時(shí)配備其他視覺系統(tǒng)。全景視覺系統(tǒng)由球面反射系統(tǒng)組成,其中全景視覺系統(tǒng)提供大視角的環(huán)境信息,雙目立體視覺系統(tǒng)和激光測(cè)距儀檢測(cè)近距離的障礙物,清化大學(xué)的朱志剛使用一個(gè)攝像機(jī)研制了多尺度視覺傳感系統(tǒng)POST,實(shí)現(xiàn)了雙目注視、全方位環(huán)視和左右兩側(cè)的時(shí)代全景成像,為機(jī)器人提供了導(dǎo)航。全景視覺系統(tǒng)具有全景視覺系統(tǒng)視場(chǎng)范圍大的優(yōu)點(diǎn),同時(shí)又具備雙目視覺系統(tǒng)精度高的長處,但是該類系統(tǒng)配置復(fù)雜,費(fèi)用比較高。
在不久的將來,多智時(shí)代一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏多智時(shí)代,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來!
-
人臉識(shí)別
+關(guān)注
關(guān)注
77文章
4081瀏覽量
84220 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46760
發(fā)布評(píng)論請(qǐng)先 登錄
Arm KleidiCV與OpenCV集成助力移動(dòng)端計(jì)算機(jī)視覺性能優(yōu)化
AR和VR中的計(jì)算機(jī)視覺

量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

【小白入門必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺技術(shù)及學(xué)習(xí)路線

計(jì)算機(jī)接口位于什么之間
計(jì)算機(jī)的內(nèi)存容量有什么作用
計(jì)算機(jī)存儲(chǔ)器的分類及其區(qū)別
簡述計(jì)算機(jī)總線的分類
晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)有什么區(qū)別
計(jì)算機(jī)視覺有哪些優(yōu)缺點(diǎn)
圖像處理器與計(jì)算機(jī)視覺有什么關(guān)系和區(qū)別
計(jì)算機(jī)視覺中的圖像融合

地平線科研論文入選國際計(jì)算機(jī)視覺頂會(huì)ECCV 2024

評(píng)論