嵌入式視覺,基于計算機的視覺系統(tǒng)的演變和推斷,處理和解釋靜態(tài)和視頻圖像的意義,有望成為下一個重大技術(shù)成功案例。例如,考慮現(xiàn)在常見于蜂窩電話,平板電腦,膝上型計算機和專用計算機顯示器中的圖像傳感器和處理器。最初用于視頻會議和攝影,現(xiàn)在它們被用于其他應(yīng)用,例如增強現(xiàn)實。
同樣,考慮消費者監(jiān)控系統(tǒng)的迅速普及,由于攝像機及其子系統(tǒng)的穩(wěn)步改進,以及日益用戶友好的相關(guān)監(jiān)控軟件和服務(wù)的推動。此外,最近購買汽車的人已經(jīng)知道,圖像傳感器在車輛周圍的許多地方越來越多地被發(fā)現(xiàn),用于停車輔助,后視安全,即將發(fā)生的碰撞警報,車道偏離警告和其他功能。
前面提到的系統(tǒng)中使用的功能強大且經(jīng)濟高效的圖像傳感器,處理器,存儲設(shè)備,I/O收發(fā)器和其他IC同樣適用于包含視覺的工業(yè)自動化應(yīng)用的開發(fā)人員。基于手勢的人機界面在許多方面都是理想的,因此在這種環(huán)境中越來越普遍。首先,它們很直觀;為什么單擊鼠標或按鈕,甚至在觸摸屏上滑動手指以翻頁或在菜單頁面中移動,而只需將手掃過空中?
手勢基于用戶界面的UI還省去了經(jīng)常妨礙基于觸摸的界面的環(huán)境限制;水和其他液體,非導(dǎo)電手套,污垢和細菌等。然而,第一代運動實施,如任天堂? Wii?游戲機系統(tǒng)所使用的具有其自身的局限性。實施該方案需要一個容易丟失,易損壞的手持式控制器。此外,控制器和系統(tǒng)之間的接口(通常通過藍牙?,ZigBee ?或其他一些RF無線技術(shù)實現(xiàn))(如觸摸屏界面)易受功能影響由于環(huán)境EMI導(dǎo)致的性能下降。
相反,請考慮采用圖像傳感器的設(shè)計?;谝曈X的手勢界面使用人體作為控制器而不是專用的額外硬件,解釋手,手臂和其他身體動作。它們具有相對的EMI免疫力;所有您需要確保的是足夠的操作員到設(shè)備的距離以及足夠的環(huán)境照明。除了基于手勢的控制,并且與前面提到的計算機和手機一樣,您可以使用面部識別技術(shù)不僅“解鎖”系統(tǒng)以響應(yīng)有效操作員的面貌,還可以自定義配置系統(tǒng)例如,在任何特定操作員的情況下,登錄到特定的用戶帳戶。他們還可以提供比粗粒度加速度計或陀螺儀更廣泛的用戶控制選項套件基于動作界面。
Kinect案例研究
如果您的系統(tǒng)采用雙圖像傳感器(即立體聲或3-D)排列,您可用的手勢范圍會變得更加豐富,不僅包括水平和垂直運動但也有深度辨別力。立體聲傳感器設(shè)置還使面部識別軟件能夠更準確地辨別現(xiàn)實生活中的人與人的照片。 Microsoft?采用了一種不同的方法,稱為結(jié)構(gòu)光,用Xbox ? 360的Kinect外設(shè)來識別深度(參見圖1)。
圖1:微軟用于Xbox 360游戲機的Kinect外設(shè),已知的嵌入式視覺成功案例(a),結(jié)合了單色和拜耳圖案的全彩色圖像傳感器,以及用于結(jié)構(gòu)光深度識別的紅外發(fā)射器(b)。 iFixit的進一步剖析揭示了其他組件細節(jié)(c)。 (分別由微軟和iFixit提供)。
Kinect是最著名的嵌入式視覺示例之一,自2011年11月初開始在市場上銷售的前60天銷售800萬臺。它目前還不是一種工業(yè)自動化設(shè)備,至少是正式的,盡管黑客的努力已經(jīng)顯著擴大了其在游戲機起源之外的實用性。微軟計劃今年推出適用于Windows?7操作系統(tǒng)的官方SDK,以及PC優(yōu)化的產(chǎn)品變體。無論如何,微軟的設(shè)計權(quán)衡和決策都具有指導(dǎo)意義其他人開發(fā)基于視覺的用戶界面硬件和軟件。
Chipworks公司和iFixit在產(chǎn)品推出后不久進行的Kinect拆解顯示,單色和全彩色圖像傳感器均來自Aptina。它們相對通用的VGA分辨率CMOS特性意味著Omnivision等備用電源也是可行的。微軟在Kinect設(shè)計中包含了一個紅外發(fā)射器,以便提供一個已知的 - 照明模式光源,由于其工作頻率,肉眼也是不可見的。然而,這一設(shè)計決定阻礙了Kinect在陽光和其他富含紅外線的環(huán)境中的使用。
單色圖像傳感器與紅外發(fā)射器和PrimeSense源處理SoC協(xié)同工作,輸出QVGA分辨率,通過USB 2.0接口將11位深度圖像映射到Xbox 360,白色像素表示附近的對象,顏色漸變延伸到藍色像素(遠)對象(參見圖2)。 Kinect還提供來自拜耳濾鏡圖案彩色圖像傳感器的24位插值彩色VGA分辨率圖像,例如,用于捕獲每個游戲玩家的面部圖像并隨后識別特定用戶。最后,Kinect采用了四元素陣列麥克風(fēng)配置,可用于精確定位三維空間中特定參與者的聲音,同時濾除環(huán)境噪聲和其他游戲玩家的聲音。
圖2:PrimeSense開發(fā)的視覺SoC(a)均驅(qū)動發(fā)射器用紅外線(b)“繪制”Kinect前面的區(qū)域并處理Kinect VGA分辨率單色圖像傳感器的輸出,創(chuàng)建從近(白)到遠(藍)距離的物體的每幀深度圖圖像(c) )。 (由PrimeSense提供)。
更簡單的實現(xiàn)有時可以滿足
一些分析公司已經(jīng)獨立估計Kinect的材料成本僅為50美元以上,而且該設(shè)備也相當(dāng)大(11“x 3”x 3“)和重量(~4 lbs)。請記住這個特殊的外圍設(shè)備不僅可以識別用戶的手勢,還可以成功解決全身運動捕捉和面部識別任務(wù),包括識別用戶的微笑,皺眉,眉毛和其他面部元素的運動,并在屏幕上的用戶頭像。 它也適用于各種操作環(huán)境,從而解釋了紅外發(fā)射器(和相關(guān)的散熱風(fēng)扇),以及單元定向加速度計,電機和三檔組件。
Kinect需要最大限度地減少其消耗的USB 2.0系統(tǒng)總線帶寬,為其他控制臺外圍設(shè)備(如網(wǎng)絡(luò)適配器和HD DVD驅(qū)動器外圍設(shè)備)保留足夠的備用帶寬。另一方面,它能夠h arness既有自己的處理資源(前面提到過的PrimeSense IC,還有Marvell開發(fā)的和基于ARM?的SoC)和USB2系留游戲機系統(tǒng)組合的三核六線程3.2 GHz PowerPC?CPU和500 MHz GPU。然而,Kinect的光學(xué)子系統(tǒng)和紅外傳輸方案相結(jié)合,將其保證的近距離可用范圍限制在6英尺(多玩家情況下為8英尺);結(jié)合處理限制,這些因素使得支持Kinect的游戲能夠同時識別出幾個玩家。
在開發(fā)自己的基于嵌入式視覺的基礎(chǔ)上,記住微軟團隊的這些權(quán)衡取舍設(shè)計。例如,如果不需要語音識別,您可以省去麥克風(fēng)陣列,或者如果不太穩(wěn)健的源位置和噪聲抑制方案足夠,則可以將其簡化為單麥克風(fēng)或雙麥克風(fēng)設(shè)置。您可能需要手勢配置才能準確響應(yīng)距離圖像傳感器不到6英尺的用戶。另一方面,您可以在所有可能的使用情況下保證足夠的環(huán)境照明,以排除對輔助紅外線或其他照明的要求。
準確的深度識別,適用于復(fù)雜的手部運動和物體尺寸,有時需要雙圖像傳感器設(shè)置,但您可能已經(jīng)計劃使用這樣的配置來實現(xiàn)3-D視頻會議或攝影功能。另一方面,如果基于手勢的界面相當(dāng)簡單,您可能可以使用單圖像傳感器設(shè)置。單傳感器配置也足夠(如Kinect所示)用于基于結(jié)構(gòu)光照的深度識別,以及飛行時深度分辨方法。
CPU和軟件
如果與早期的Kinect案例研究相比,您的基于視覺的界面復(fù)雜性降低了,那么實現(xiàn)各種算法所需的處理資源量也將減少??梢允褂酶鞣N處理候選項,您可以單獨使用或組合使用,例如使用CPU-plus-GPU配對。 它們包括:
來自Analog Devices和Texas Instruments等供應(yīng)商的DSP
來自Xilinx的FPGA或其他可編程邏輯供應(yīng)商
GPU來自AMD和NVIDIA等公司
來自CogniVue和Maxim等公司的視覺定制IC
來自CEVA等供應(yīng)商的視覺優(yōu)化處理器內(nèi)核
來自飛思卡爾的SoC半導(dǎo)體和之前提及的幾家半導(dǎo)體公司以及其他公司
手勢識別是一種足夠?qū)I(yè)化和要求苛刻的功能,您可以選擇從公司獲得基礎(chǔ)算法和/或中間件代碼的許可其核心重點是為各種處理平臺開發(fā)和實施手勢技術(shù)。在研究階段,您可能會發(fā)現(xiàn)手勢識別對不同的人意味著不同的東西。例如,中間件開發(fā)商Omek Interactive將其工作重點放在利用3D圖像傳感器陣列的實現(xiàn)上,而其他公司只專注于識別基于手的手勢,而忽略了更廣泛的身體運動。<另一方面,如果您決定開發(fā)自己的手勢界面代碼,最常用的API和參考算法本質(zhì)上是開源的,具體來說:
用于GPGPU的OpenCL?(圖形處理單元上的通用計算)大規(guī)??刹⑿谢a段的加速
OpenMP ?(多處理)和Grand Central Dispatch,后者最初由Apple ?開發(fā),用于在CPU核心之間以及CPU和GPU之間劃分代碼
OpenCV(計算機視覺)代碼庫最初由Intel ?開發(fā),現(xiàn)在由Willow Garage維護
OpenNI(自然交互),一個orga PrimeSense作為關(guān)鍵創(chuàng)始人,提供一套API和支持自然語音和語音命令識別,手勢和身體運動跟蹤的框架
更專有的替代API大自然來自眾多供應(yīng)商。可以從General Instruments和MathWorks等供應(yīng)商處獲得更高級別的框架和軟件開發(fā)工具集。如果您有興趣通過圖像增強技術(shù)進一步提高手勢算法的有效性,請聯(lián)系A(chǔ)pical Limited等公司。
嵌入式視覺聯(lián)盟
本文中提及的許多公司(以及許多其他公司)都是嵌入式視覺聯(lián)盟的成員,該聯(lián)盟于2011年5月底公開發(fā)布。嵌入式視覺技術(shù)有可能實現(xiàn)廣泛的電子產(chǎn)品比以前更智能,更敏感,因此它們對用戶更有價值。它可以使電子設(shè)備公司既可以創(chuàng)建有價值的新產(chǎn)品,也可以為現(xiàn)有產(chǎn)品添加有用的功能。此外,它還可以為硬件,軟件和半導(dǎo)體制造商提供重要的新市場。嵌入式視覺聯(lián)盟是一個統(tǒng)一的全球技術(shù)開發(fā)商和提供商組織,正在幫助以豐富,快速和高效的方式將這種潛力轉(zhuǎn)化為現(xiàn)實。
-
傳感器
+關(guān)注
關(guān)注
2566文章
53008瀏覽量
767535 -
處理器
+關(guān)注
關(guān)注
68文章
19896瀏覽量
235286 -
計算機
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90821
發(fā)布評論請先 登錄
嵌入式系統(tǒng)實時交互的手勢識別方法是什么?
手勢識別控制器制作
基于工業(yè)控制應(yīng)用的視覺的手勢識別

手勢對工業(yè)機器人進行控制
基于加鎖機制的靜態(tài)手勢識別運動中的手勢

手勢識別在車內(nèi)交互領(lǐng)域能否煥發(fā)新生?
凌感手勢追蹤算法與詮視視覺模組結(jié)合,加速手勢識別在VR/AR中的應(yīng)用
基于視覺的手勢識別系統(tǒng)的設(shè)計與研究

手勢識別產(chǎn)品特性和主要應(yīng)用領(lǐng)域

評論