引言
計(jì)算機(jī)視覺(jué)(Computer Vision)自興起以來(lái)就非常迅速且廣泛應(yīng)用于各個(gè)領(lǐng)域,比如我們熟悉的且每天都會(huì)使用的基于手機(jī)攝像頭的人臉識(shí)別,除此之外,它還可以在自動(dòng)駕駛領(lǐng)域輔助汽車(chē)識(shí)別交通信號(hào)、標(biāo)志和行人;在制造業(yè)輔助工業(yè)機(jī)器人監(jiān)督和指導(dǎo)人工操作。
計(jì)算機(jī)視覺(jué)的主要目的是讓計(jì)算機(jī)能像人類(lèi)一樣甚至比人類(lèi)更好地看見(jiàn)和識(shí)別世界。計(jì)算機(jī)視覺(jué)通常使用C++、Python和MATLAB等編程語(yǔ)言,是增強(qiáng)現(xiàn)實(shí)(AR)的一項(xiàng)重要技術(shù)。目前主流的計(jì)算機(jī)視覺(jué)工具有OpenCV、Tensorflow、Gpu、YOLO、Keras等。計(jì)算機(jī)視覺(jué)其實(shí)是一個(gè)復(fù)雜多元的交叉領(lǐng)域,包含了很多來(lái)自數(shù)字信號(hào)處理、神經(jīng)科學(xué)、圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)(ML)、機(jī)器人、人工智能(AI)等領(lǐng)域的概念。
本文將具體介紹一下計(jì)算機(jī)視覺(jué)的工作流程。
什么是計(jì)算機(jī)視覺(jué)(Computer Vision)
一言蔽之,計(jì)算機(jī)視覺(jué)是讓計(jì)算機(jī)理解并標(biāo)記圖像內(nèi)容的技術(shù)領(lǐng)域。
舉個(gè)例子,請(qǐng)看下圖:
對(duì)于人類(lèi)來(lái)說(shuō),你很難向從沒(méi)穿過(guò)衣服的原始人解釋什么是連衣裙或者什么是鞋。計(jì)算機(jī)視覺(jué)也是如此,如果它并沒(méi)有相關(guān)輸入,就不會(huì)理解上圖的東西都是什么。
所以,我們需要收集并標(biāo)記大量關(guān)于衣服、鞋、包包的圖片,輸入進(jìn)計(jì)算機(jī)“告訴”它這些圖片里的東西是什么,在經(jīng)過(guò)不斷的學(xué)習(xí)和訓(xùn)練后,計(jì)算機(jī)將會(huì)識(shí)別出哪個(gè)是連衣裙,哪個(gè)是鞋、哪個(gè)是包包。
計(jì)算機(jī)視覺(jué)的主要應(yīng)用
計(jì)算機(jī)視覺(jué)目前應(yīng)用的領(lǐng)域不勝枚舉,小編就挑出5個(gè)具有代表性的應(yīng)用吧:
物體與行為識(shí)別
自動(dòng)駕駛汽車(chē)
醫(yī)療影像分析與診斷
圖片標(biāo)記
人臉識(shí)別
計(jì)算機(jī)視覺(jué)工作流程
計(jì)算機(jī)視覺(jué)工作流程其實(shí)是大多數(shù)計(jì)算機(jī)視覺(jué)應(yīng)用程序?qū)⒔?jīng)歷的一系列步驟。許多視覺(jué)應(yīng)用程序都是從獲取圖像和數(shù)據(jù)開(kāi)始,然后處理數(shù)據(jù),執(zhí)行一些分析和識(shí)別步驟,最后執(zhí)行一個(gè)動(dòng)作的:
計(jì)算機(jī)視覺(jué)工作流程 就拿人臉識(shí)別來(lái)說(shuō)吧,它也主要遵循了計(jì)算機(jī)視覺(jué)的工作流程:
人臉識(shí)別工作流程 我們可以看到,大部分計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用其實(shí)都是從數(shù)據(jù)預(yù)處理開(kāi)始的,其實(shí)這也是機(jī)器學(xué)習(xí)的關(guān)鍵。
數(shù)據(jù)標(biāo)準(zhǔn)化
所謂預(yù)處理圖像就是將輸入的圖像數(shù)據(jù)標(biāo)準(zhǔn)化,以便后續(xù)工作流程的順利進(jìn)行。例如,假設(shè)我們創(chuàng)建了一個(gè)簡(jiǎn)單的聚類(lèi)算法來(lái)區(qū)分紅玫瑰和其他花朵:
我們將算法設(shè)計(jì)為計(jì)算給定圖像中紅色像素的數(shù)量,如果有足夠多的紅色像素(大于300個(gè)紅色像素)就被歸類(lèi)為紅玫瑰。(這個(gè)例子里我們只提取了顏色特征)
還有一點(diǎn)需要注意的是,輸入圖像的大小、裁切方式都會(huì)影響算法的輸出結(jié)果,因此數(shù)據(jù)預(yù)處理非常重要!
作為數(shù)據(jù)的圖像
圖像中的每一個(gè)像素都是一個(gè)我們可以改變的數(shù)值,比如,我們可以將一個(gè)像素乘以一個(gè)標(biāo)量來(lái)改變圖像亮度,我們也可以將每個(gè)像素值向右移動(dòng)來(lái)改變圖像飽和度等。
將圖像視為數(shù)字網(wǎng)格是許多圖像處理技術(shù)的基礎(chǔ)。一般來(lái)說(shuō),色彩與形狀改變都是通過(guò)數(shù)學(xué)運(yùn)算對(duì)圖像進(jìn)行逐像素變換完成的。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)
為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),我們要提供一組標(biāo)記過(guò)的圖像數(shù)據(jù),然后比較這些輸入圖像與計(jì)算機(jī)預(yù)測(cè)的輸出標(biāo)簽或識(shí)別的測(cè)量值的差異以檢測(cè)算法模型的準(zhǔn)確率?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)會(huì)監(jiān)督它所犯的錯(cuò)誤(誤差),并通過(guò)修正它發(fā)現(xiàn)的圖像數(shù)據(jù)間的模式與差異來(lái)實(shí)現(xiàn)迭代與擬合。 其中,梯度下降法是一種減少神經(jīng)網(wǎng)絡(luò)誤差的數(shù)學(xué)方法,其中卷積神經(jīng)網(wǎng)絡(luò)是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò),通常用于計(jì)算機(jī)視覺(jué)應(yīng)用。
X =輸入;a = 活化函數(shù);W = 卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重;J = 損失函數(shù);Alpha = 學(xué)習(xí)率;y = 地面真值;y = 預(yù)測(cè);k = 迭代次數(shù)
責(zé)任編輯:lq
-
圖像數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
54瀏覽量
11489 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46782 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
790文章
14321瀏覽量
170693
原文標(biāo)題:計(jì)算機(jī)視覺(jué):你必須了解的圖像數(shù)據(jù)底層技術(shù)
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
自動(dòng)化計(jì)算機(jī)的功能與用途

Arm KleidiCV與OpenCV集成助力移動(dòng)端計(jì)算機(jī)視覺(jué)性能優(yōu)化
NX CAD軟件:數(shù)字化工作流程解決方案(CAD工作流程)

工業(yè)中使用哪種計(jì)算機(jī)?

量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

【小白入門(mén)必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)技術(shù)及學(xué)習(xí)路線

計(jì)算機(jī)存儲(chǔ)系統(tǒng)的工作原理和功能
計(jì)算機(jī)系統(tǒng)的硬件組成和主要部件
簡(jiǎn)述計(jì)算機(jī)總線的分類(lèi)
晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)有什么區(qū)別
計(jì)算機(jī)視覺(jué)有哪些優(yōu)缺點(diǎn)
計(jì)算機(jī)視覺(jué)中的圖像融合

地平線科研論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

評(píng)論