相信大家在觀看吳恩達(dá)機(jī)器學(xué)習(xí)公開課的第一節(jié)課中,印象比較深的有使用強(qiáng)化學(xué)習(xí)去訓(xùn)練與控制機(jī)器人,直升飛機(jī),讓它們學(xué)會(huì)新的技能。
那么,機(jī)器學(xué)習(xí)在機(jī)器人中有哪些應(yīng)用呢?本文將對(duì)這個(gè)問題進(jìn)行簡單的介紹。
1.計(jì)算機(jī)視覺
因?yàn)椤皺C(jī)器人視覺”不僅涉及到計(jì)算機(jī)算法,有些人會(huì)認(rèn)為正確的術(shù)語是機(jī)器視覺或機(jī)器人視覺。機(jī)器人學(xué)家或工程師也必須選擇攝像頭硬件能夠允許機(jī)器人處理物理數(shù)據(jù)。機(jī)器人視覺與機(jī)器視覺密切相關(guān),后者用于引導(dǎo)機(jī)器人引導(dǎo)和自動(dòng)檢測系統(tǒng)。它們之間的微小差異可能在應(yīng)用于機(jī)器人視覺的運(yùn)動(dòng)學(xué)中,其包括參考框架校準(zhǔn)和機(jī)器人對(duì)其環(huán)境的物理影響的能力。
大量數(shù)據(jù)即網(wǎng)絡(luò)上可用的視覺信息(包括注釋/標(biāo)記的照片和視頻)的涌入推動(dòng)了計(jì)算機(jī)視覺的進(jìn)步,這反過來也有助于進(jìn)一步基于機(jī)器學(xué)習(xí)的結(jié)構(gòu)化預(yù)測學(xué)習(xí)技術(shù),推動(dòng)機(jī)器人視覺應(yīng)用,如物體的識(shí)別和排序。一個(gè)分支的例子是無人監(jiān)督學(xué)習(xí)的異常檢測,例如能夠使用卷積神經(jīng)網(wǎng)絡(luò)找到并評(píng)估硅芯片故障的建筑系統(tǒng),由Biomimetic機(jī)器人和機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的研究人員設(shè)計(jì),該研究人員是非營利機(jī)構(gòu)Assistenzrobotik的一部分電子伏特在慕尼黑。諸如雷達(dá),激光雷達(dá)和超聲波等超感知技術(shù)也推動(dòng)了自主車輛和無人機(jī)的360度視覺系統(tǒng)的開發(fā)。
2 .模仿學(xué)習(xí)
模仿學(xué)習(xí)與觀察學(xué)習(xí)密切相關(guān),這是嬰幼兒展示的行為。模仿學(xué)習(xí)也是強(qiáng)化學(xué)習(xí)的總體類別,也是讓agent在世界范圍內(nèi)采取行動(dòng)的最大挑戰(zhàn)。貝葉斯或概率模型是這種機(jī)器學(xué)習(xí)方法的常見特征。模仿學(xué)習(xí)是否可以用于類人機(jī)器人的問題早在1999年就被假定了。
模仿學(xué)習(xí)已經(jīng)成為現(xiàn)場機(jī)器人技術(shù)的一個(gè)組成部分,其中一些工廠的移動(dòng)特性,如建筑,農(nóng)業(yè),搜索和救援,軍事等領(lǐng)域的移動(dòng)特性使手動(dòng)編程機(jī)器人解決方案變得具有挑戰(zhàn)性。例子包括逆向優(yōu)化控制方法,或者“通過演示進(jìn)行編程(PbD)”.CMU和其他組織在類人機(jī)器人,腿式運(yùn)動(dòng)和越野粗糙地形移動(dòng)導(dǎo)航儀領(lǐng)域中得到應(yīng)用。亞利桑那州立大學(xué)的研究人員在兩年前發(fā)表了這個(gè)視頻,展示了一個(gè)類人機(jī)器人,使用模仿學(xué)習(xí)獲得不同的掌握技巧。
貝葉斯信念網(wǎng)絡(luò)也被應(yīng)用于前向?qū)W習(xí)模型,其中機(jī)器人在沒有先驗(yàn)知識(shí)的情況下學(xué)習(xí)運(yùn)動(dòng)系統(tǒng)或外部環(huán)境。 這個(gè)例子就是“motor babbling”,正如伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)的語言習(xí)得和機(jī)器人小組所組織的,Bert是“iCub”人形機(jī)器人。
3.自我監(jiān)督學(xué)習(xí)
自我監(jiān)督的學(xué)習(xí)方法使機(jī)器人能夠生成自己的培訓(xùn)示例,以提高性能;這包括使用先驗(yàn)訓(xùn)練和數(shù)據(jù)捕獲近距離來解釋“遠(yuǎn)程不明確的傳感器數(shù)據(jù)”。它被并入機(jī)器人和光學(xué)設(shè)備中,可以檢測和排除物體(例如灰塵和雪);識(shí)別崎嶇地形中的蔬菜和障礙物;并在3D場景分析和建模車輛動(dòng)力學(xué)。
Watch-Bot是一個(gè)具體的例子,由Cornell和Stanford的研究人員創(chuàng)建,它使用3D傳感器(Kinect),相機(jī),筆記本電腦和激光筆來檢測“正常的人類活動(dòng)”,這是通過概率方法學(xué)習(xí)的模式。 Watch-Bot使用激光筆將目標(biāo)對(duì)象作為提醒(例如,留在冰箱中的牛奶)。在初始測試中,機(jī)器人能夠成功地提醒人類60%的時(shí)間(它沒有理解它在做什么或?yàn)槭裁矗?,研究人員通過允許其機(jī)器人從在線視頻(稱為項(xiàng)目RoboWatch)學(xué)習(xí)擴(kuò)展了試驗(yàn)。
應(yīng)用于機(jī)器人技術(shù)的自我監(jiān)督學(xué)習(xí)方法的其他示例包括在具有道路概率分布模型(RPDM)和模糊支持向量機(jī)(FSVM)的前視單目相機(jī)中的道路檢測算法,在麻省理工學(xué)院為自主車輛設(shè)計(jì)和其他移動(dòng)在路機(jī)器人。
自主學(xué)習(xí)是一種涉及深度學(xué)習(xí)和無監(jiān)督方法的自我監(jiān)督學(xué)習(xí)的變體,也被應(yīng)用于機(jī)器人和控制任務(wù)。倫敦帝國學(xué)院的一個(gè)團(tuán)隊(duì)與劍橋大學(xué)和華盛頓大學(xué)的研究人員合作,創(chuàng)造出一種加快學(xué)習(xí)的新方法,將學(xué)習(xí)模式不確定性(概率模型)納入長期規(guī)劃和控制器學(xué)習(xí),從而減少影響的學(xué)習(xí)新技能的模型錯(cuò)誤。
4.輔助和醫(yī)療技術(shù)
輔助機(jī)器人是一種可以感知,處理感官信息并執(zhí)行有益于殘疾人和老年人的行為的設(shè)備(雖然智能輔助技術(shù)也適用于一般人群,如駕駛員輔助工具)。運(yùn)動(dòng)治療機(jī)器人提供診斷或治療益處。這些都是大部分(不幸的是)仍然局限于實(shí)驗(yàn)室的技術(shù),因?yàn)閷?duì)于美國和國外的大多數(shù)醫(yī)院來說,這些技術(shù)仍然是成本高昂的。
輔助技術(shù)的早期例子包括由斯坦福大學(xué)和帕洛阿爾托退伍軍人事務(wù)康復(fù)研究與發(fā)展公司于1990年代初開發(fā)的DeVAR或臺(tái)式職業(yè)助理機(jī)器人。目前正在開發(fā)最新的基于機(jī)器學(xué)習(xí)的機(jī)器人輔助技術(shù)的例子,其中包括組合更多自主性的輔助機(jī)器,例如通過Kinect Sensor觀察世界的MICO機(jī)器人手臂(Northwester University開發(fā)的)。這些影響更復(fù)雜,更智能的輔助機(jī)器人可以更容易地適應(yīng)用戶需求,但也需要部分自主權(quán)(即,機(jī)器人與人之間的共享控制)。
在醫(yī)學(xué)界,機(jī)器人學(xué)習(xí)方法的進(jìn)步正在迅速發(fā)展,盡管在許多醫(yī)療機(jī)構(gòu)中并不容易。通過Cal-MR:醫(yī)療機(jī)器人自動(dòng)化和學(xué)習(xí)中心,多所大學(xué)的研究人員和醫(yī)生網(wǎng)絡(luò)(與多家大學(xué)和醫(yī)生的研究人員的合作)導(dǎo)致了智能組織自主機(jī)器人(STAR)的創(chuàng)建,通過自主學(xué)習(xí)和3D感應(yīng)技術(shù)的創(chuàng)新,STAR能夠以比最好的人類外科醫(yī)生更好的精度和可靠性將“豬腸”(用于代替人體組織)拼接在一起,研究人員和醫(yī)生說明STAR不能替代外科醫(yī)生 - 在可預(yù)見的將來,誰將在附近處理緊急情況 - 但是在執(zhí)行類似類型的精巧手術(shù)方面提供了重大的好處。
5. 多Agent學(xué)習(xí)
協(xié)調(diào)和協(xié)商是多Agent學(xué)習(xí)的關(guān)鍵組成部分。它涉及到了基于機(jī)器學(xué)習(xí)的機(jī)器人(或agent,目前關(guān)于agent的相關(guān)技術(shù)已被廣泛應(yīng)用于游戲),能夠適應(yīng)其他機(jī)器人/代理人的轉(zhuǎn)變格局,并找到“均衡多代理學(xué)習(xí)方法的例子包括不遺余力的學(xué)習(xí)工具。其中主要涉及到強(qiáng)化學(xué)習(xí)算法,“加強(qiáng)”多agent策劃中的學(xué)習(xí)成果,以及基于市場的分布式控制系統(tǒng)的學(xué)習(xí)。
一個(gè)更具體的例子是分布式agent或機(jī)器人的研究人員創(chuàng)建的算法,由麻省理工學(xué)院的信息和決策系統(tǒng)實(shí)驗(yàn)室在2014年底。機(jī)器人協(xié)作構(gòu)建一個(gè)更好,更包容的學(xué)習(xí)模型比一個(gè)機(jī)器人(更小的信息塊處理,然后結(jié)合),基于探索建筑及其房間布局的概念,自主建立知識(shí)庫。
每個(gè)機(jī)器人構(gòu)建自己的目錄,并結(jié)合其他機(jī)器人的數(shù)據(jù)集,分布式算法在創(chuàng)建此知識(shí)庫方面優(yōu)于標(biāo)準(zhǔn)算法。雖然不是一個(gè)完美的系統(tǒng),但是這種機(jī)器學(xué)習(xí)方法使得機(jī)器人可以比較目錄或數(shù)據(jù)集,加強(qiáng)相互觀察和正確的遺漏或過度泛化,無疑將在幾個(gè)機(jī)器人應(yīng)用中發(fā)揮近期的作用,包括多個(gè)自治地和空降車。
評(píng)論