一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習讓圖像、語音等感知類問題取得突破

倩倩 ? 來源:光明日報 ? 2020-01-02 14:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,清華大學-中國工程院知識智能聯(lián)合研究中心、中國人工智能學會吳文俊人工智能科學技術(shù)獎評選基地聯(lián)合發(fā)布了《2019人工智能發(fā)展報告》,遴選了13個人工智能的重點領(lǐng)域,包括深度學習計算機視覺、語音識別、機器人等熱點前沿技術(shù)的基礎(chǔ)及應(yīng)用研究、發(fā)展動向等。

深度學習讓圖像、語音等感知類問題取得突破

機器學習是一門多領(lǐng)域交叉學科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能。

1950年,阿蘭·圖靈創(chuàng)造了圖靈測試來判定計算機是否智能。圖靈測試認為,如果一臺機器能夠與人類展開對話而不能被辨別出其機器身份,那么稱這臺機器具有智能。這一簡化使得圖靈能夠令人信服地說明“思考的機器”是可能的。

后來,IBM科學家亞瑟·塞繆爾開發(fā)的跳棋程序,駁倒了普羅維登斯提出的機器無法超越人類的論斷,像人類一樣寫代碼和學習的模式,他創(chuàng)造了“機器學習”這一術(shù)語。

然而,從20世紀60年代中期到70年代末期,機器學習的發(fā)展步伐幾乎停滯。無論是理論研究還是計算機硬件限制,整個人工智能領(lǐng)域的發(fā)展都遇到了很大的瓶頸,神經(jīng)網(wǎng)絡(luò)學習機因理論缺陷也未能達到預(yù)期效果而轉(zhuǎn)入低潮。直到偉博斯在神經(jīng)網(wǎng)絡(luò)反向傳播(BP)算法中具體提出了多層感知機模型,機器學習得以重振,并且直到今天BP算法仍然是神經(jīng)網(wǎng)絡(luò)架構(gòu)的關(guān)鍵因素。

神經(jīng)網(wǎng)絡(luò)研究人員相繼提出了使用BP算法訓練的多參數(shù)線性規(guī)劃的理念,成為后來深度學習的基石。在另一個譜系中,昆蘭提出了一種非常出名的機器學習算法,具體地說是ID3算法,這種算法至今仍然活躍在機器學習領(lǐng)域中。

機器學習迎來爆發(fā)期是神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者Hinton在2006年提出了神經(jīng)網(wǎng)絡(luò)Deep Learning算法,使神經(jīng)網(wǎng)絡(luò)的能力大大提高。Hinton和他的學生 Salakhutdinov在《科學》上發(fā)表了一篇文章,開啟了深度學習在學術(shù)界和工業(yè)界的浪潮。

2015年,為紀念人工智能概念提出60周年,LeCun、Bengio和Hinton推出了深度學習的聯(lián)合綜述。深度學習可以讓那些擁有多個處理層的計算模型來學習具有多層次抽象的數(shù)據(jù)的表示,這些方法在許多方面都帶來了顯著的改善。深度學習的出現(xiàn),讓圖像、語音等感知類問題取得了真正意義上的突破,離實際應(yīng)用已如此之近,將人工智能推進到一個新時代。

計算機視覺催生出人臉識別、智能視頻監(jiān)控等應(yīng)用

計算機視覺,顧名思義,是分析、研究讓計算機智能化地達到類似人類的雙眼“看”的一門研究科學,即對于客觀存在的三維立體化的世界的理解以及識別依靠智能化的計算機去實現(xiàn)。

計算機視覺技術(shù)就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別、決策等功能。

馬爾(David Marr)《視覺》一書的問世,標志著計算機視覺成為了一門獨立學科。計算機視覺40多年的發(fā)展中,盡管人們提出了大量的理論和方法,但總體上說,計算機視覺經(jīng)歷了三個主要歷程:馬爾計算視覺、多視幾何與分層三維重建和基于學習的視覺。

目前,在計算機上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。馬爾的計算視覺分為三個層次:計算理論、表達和算法以及算法實現(xiàn)。由于馬爾認為算法實現(xiàn)并不影響算法的功能和效果,所以馬爾計算視覺理論主要討論“計算理論”和“表達與算法”二部分內(nèi)容。

馬爾認為,大腦的神經(jīng)計算和計算機的數(shù)值計算沒有本質(zhì)區(qū)別,所以馬爾沒有對“算法實現(xiàn)”進行任何探討。從現(xiàn)在神經(jīng)科學的進展看,“神經(jīng)計算”與數(shù)值計算在有些情況下會產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計算,但總體上說,“數(shù)值計算”可以“模擬神經(jīng)計算”。至少從現(xiàn)在看,“算法的不同實現(xiàn)途徑”,并不影響馬爾計算視覺理論的本質(zhì)屬性。

20世紀90年代初,計算機視覺從“蕭條”走向“繁榮”,主要得益于以下二方面的因素:一方面,瞄準的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域,如遠程視頻會議、考古、虛擬現(xiàn)實、視頻監(jiān)控等;另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。

多視幾何的代表性人物首數(shù)法國INRIA的O.Faugeras,美國 GE研究院的R.Hartely和英國牛津大學的A.Zisserman。2000年Hartely和Zisserman合著的書對這方面的內(nèi)容給出了比較系統(tǒng)的總結(jié)。大數(shù)據(jù)需要全自動重建,而全自動重建需要反復優(yōu)化,而反復優(yōu)化需要花費大量計算資源。舉一個簡單例子,假如要三維重建北京中關(guān)村地區(qū),為了保證重建的完整性,需要獲取大量的地面和無人機圖像。假如獲取了1萬幅地面高分辨率圖像(4000×3000)、5千幅高分辨率無人機圖像(8000×7000),三維重建要匹配這些圖像,從中選取合適的圖像集,然后對相機位置信息進行標定并重建出場景的三維結(jié)構(gòu),如此大的數(shù)據(jù)量,人工干預(yù)是不可能的,所以整個三維重建流程必須全自動進行。

基于學習的視覺,則是指以機器學習為主要技術(shù)手段的計算機視覺研究?;趯W習的視覺研究,文獻中大體上分為二個階段:21世紀初的以流形學習為代表的子空間法和目前以深度學習為代表的視覺方法。

近年來,巨量數(shù)據(jù)的不斷涌現(xiàn)與計算能力的快速提升,給以非結(jié)構(gòu)化視覺數(shù)據(jù)為研究對象的計算機視覺帶來了巨大的發(fā)展機遇與挑戰(zhàn)性難題,計算機視覺也因此成為學術(shù)界和工業(yè)界公認的前瞻性研究領(lǐng)域,部分研究成果已實際應(yīng)用,催生出人臉識別、智能視頻監(jiān)控等多個極具顯示度的商業(yè)化應(yīng)用。

語音識別被應(yīng)用于工業(yè)、通信、醫(yī)療等行業(yè)

語音識別是讓機器識別和理解說話人語音信號內(nèi)容的新興學科,目的是將語音信號轉(zhuǎn)變?yōu)槲谋咀址蛘呙畹闹悄芗夹g(shù),利用計算機理解講話人的語義內(nèi)容,使其聽懂人類的語音,從而判斷說話人的意圖,是一種非常自然和有效的人機交流方式。

語音識別的研究工作可以追溯到20世紀50年代。在1952年,AT&T貝爾研究所研究成功了世界上第一個語音識別系統(tǒng)Audry 系統(tǒng),可以識別10個英文數(shù)字發(fā)音。這個系統(tǒng)識別的是一個人說出的孤立數(shù)字,并且很大程度上依賴于每個數(shù)字中的元音的共振峰的測量。

計算機的應(yīng)用推動了語音識別技術(shù)的發(fā)展,使用了電子計算機進行語音識別,提出了一系列語音識別技術(shù)的新理論——動態(tài)規(guī)劃線性預(yù)測分析技術(shù),較好地解決了語音信號產(chǎn)生的模型問題。在20世紀70年代,語音識別研究取得了重大的具有里程碑意義的成果,伴隨著自然語言理解的研究以及微電子技術(shù)的發(fā)展,語音識別領(lǐng)域取得了突破性進展。這一時期的語音識別方法基本上是采用傳統(tǒng)的模式識別策略。

后來,語音識別研究進一步走向深入。這一時期所取得的重大進展有:隱馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善,并最終成為語音識別的主流方法;以知識為基礎(chǔ)的語音識別的研究日益受到重視。在進行連續(xù)語音識別的時候,除了識別聲學信息外,更多地利用各種語言知識,諸如構(gòu)詞、句法、語義、對話背景等方面的知識來幫助進一步對語音識別和理解。同時在語音識別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計概率的語言模型;人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究興起。ANN具有較好的區(qū)分復雜分類邊界的能力,顯然它十分有助于模式識別。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò)。

語音識別技術(shù)逐漸走向?qū)嵱没?,在建立模型、提取和?yōu)化特征參數(shù)方面取得了突破性的進展,使系統(tǒng)具有更好的自適應(yīng)性。許多發(fā)達國家和著名公司都投入大量資金用以開發(fā)和研究實用化的語音識別產(chǎn)品,從而許多具有代表性的產(chǎn)品問世。比如IBM公司研發(fā)的漢語ViaVoice系統(tǒng),以及Dragon公司研發(fā)的DragonDictate系統(tǒng),都具有說話人自適應(yīng)能力,能在用戶使用過程中不斷提高識別率。

21世紀之后,深度學習技術(shù)極大地促進了語音識別技術(shù)的進步,使其識別精度大大提高,應(yīng)用得到廣泛發(fā)展。2009年,Hinton將深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語音的聲學建模,在TIMIT上獲得了當時最好的結(jié)果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語音識別任務(wù)上,大大降低了語音識別錯誤率。從此語音識別進入DNN-HMM時代。DNN帶來的好處是不再需要對語音數(shù)據(jù)分布進行假設(shè),將相鄰的語音幀拼接又包含了語音的時序結(jié)構(gòu)信息,使得對于狀態(tài)的分類概率有了明顯提升。同時DNN還具有強大環(huán)境學習能力,可以提升對噪聲和口音的魯棒性。

目前,語音識別技術(shù)已逐漸被應(yīng)用于工業(yè)、通信、商務(wù)、家電、醫(yī)療、汽車電子以及家庭服務(wù)等各個領(lǐng)域。例如,現(xiàn)今流行的手機語音助手,就是將語音識別技術(shù)應(yīng)用到智能手機中,能夠?qū)崿F(xiàn)人與手機的智能對話,其中包括美國蘋果公司的Siri語音助手、智能360語音助手、百度語音助手等。

機器人與有機生命越來越接近

機器人廣義上包括一切模擬人類行為或思想以及模擬其他生物的機械(如機器狗、機器貓等)。目前,智能機器人已成為世界各國的研究熱點之一,成為衡量一國工業(yè)化水平的重要標志。

機器人技術(shù)最早應(yīng)用于工業(yè)領(lǐng)域,但隨著機器人技術(shù)的發(fā)展和各行業(yè)需求的提升,在計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、MEMS技術(shù)等新技術(shù)發(fā)展的推動下,近年來,機器人技術(shù)正從傳統(tǒng)的工業(yè)制造領(lǐng)域向醫(yī)療服務(wù)、教育娛樂、勘探勘測、生物工程、救災(zāi)救援等領(lǐng)域迅速擴展,適應(yīng)不同領(lǐng)域需求的機器人系統(tǒng)被深入研究和開發(fā)。過去幾十年,機器人技術(shù)的研究與應(yīng)用,大大推動了人類的工業(yè)化和現(xiàn)代化進程,并逐步形成了機器人的產(chǎn)業(yè)鏈,使機器人的應(yīng)用范圍也日趨廣泛。

在機器人嶄露頭角于工業(yè)生產(chǎn)的同時,機器人技術(shù)研究不斷深入。1961年,美國麻省理工學院Lincoln實驗室把一個配有接觸傳感器的遙控操縱器的從動部分與一臺計算機聯(lián)結(jié)在一起,這樣形成的機器人可以憑觸覺決定物體的狀態(tài)。隨后,用電視攝像頭作為輸入的計算機圖像處理、物體辨識的研究工作也陸續(xù)取得成果。1968年,美國斯坦福人工智能實驗室的J.McCarthy等人研究了新穎的課題——研制帶有手、眼、耳的計算機系統(tǒng)。于是,智能機器人的研究形象逐漸豐滿起來。

20世紀70年代以來,機器人產(chǎn)業(yè)蓬勃興起,機器人技術(shù)發(fā)展為專門的學科。工業(yè)機器人首先在汽車制造業(yè)的流水線生產(chǎn)中開始大規(guī)模應(yīng)用,隨后,諸如日本、德國、美國這樣的制造業(yè)發(fā)達國家開始在其他工業(yè)生產(chǎn)中也大量采用機器人作業(yè)。

后來,機器人朝著越來越智能化的方向發(fā)展,這種機器人帶有多種傳感器,能夠?qū)⒍喾N傳感器得到的信息進行融合,能夠有效地適應(yīng)變化的環(huán)境,具有很強的自適應(yīng)能力、學習能力和自治功能。

智能機器人的發(fā)展主要經(jīng)歷了三個階段,分別是可編程試教、再現(xiàn)型機器人,有感知能力和自適應(yīng)能力的機器人,智能機器人。其中所涉及到的關(guān)鍵技術(shù)有多傳感器信息融合、導航與定位、路徑規(guī)劃、機器人視覺智能控制和人機接口技術(shù)等。

進入21世紀,隨著勞動力成本的不斷提高、技術(shù)的不斷進步,各國陸續(xù)進行制造業(yè)的轉(zhuǎn)型與升級,出現(xiàn)了機器人替代人的熱潮。同時,人工智能發(fā)展日新月異,服務(wù)機器人也開始走進普通家庭的生活。

世界上許多機器人科技公司都在大力發(fā)展機器人技術(shù),機器人的特質(zhì)與有機生命越來越接近。最近,波士頓動力公司在機器人領(lǐng)域的成就已經(jīng)成為人們的焦點,其產(chǎn)品機器狗Spot和雙足人形機器人Atlas都讓人大為驚嘆。Spot的功能十分先進,可以前往你告訴它要去的目的地,避開障礙,并在極端情況下保持平衡。Spot還可以背負多達四個硬件模塊,為公司提供其他多款機器人完成特定工作所需的任何技能;Atlas已經(jīng)掌握了倒立、360度翻轉(zhuǎn)、旋轉(zhuǎn)等多項技能,繼表演跑酷、后空翻等絕技之后,Atlas又掌握了一項新技能——體操,再次讓人們大開眼界。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212952
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41276
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122805
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術(shù)的迅猛發(fā)展,深度學習(Deep Learning)成為最熱門的研究領(lǐng)域之一。在語音識別、圖像識別、自然語言處理
    發(fā)表于 07-14 14:50 ?700次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    深度感知的應(yīng)用和主要方法

    近年來,3D 感知技術(shù)越來越多地應(yīng)用于各行各業(yè),尤其是工業(yè)自動化、機器人、自動駕駛、醫(yī)療保健、AR/VR 和安全領(lǐng)域。3D 感知是用于捕捉環(huán)境與物體三維形狀并進行數(shù)字化處理的技術(shù)的統(tǒng)稱,而深度
    的頭像 發(fā)表于 05-15 17:17 ?464次閱讀

    廠家芯資訊|WTK6900系列語音識別芯片自學習功能深度答疑

    在智能硬件全面擁抱語音交互的時代,廣州唯創(chuàng)電子WTK6900系列芯片憑借其獨特的離線自學習能力,已成為智能家居、工業(yè)控制領(lǐng)域的核心交互模塊。本文針對實際應(yīng)用中的高頻問題,深度解析故障
    的頭像 發(fā)表于 03-20 09:13 ?356次閱讀
    廠家芯資訊|WTK6900系列<b class='flag-5'>語音</b>識別芯片自<b class='flag-5'>學習</b>功能<b class='flag-5'>深度</b>答疑

    【AIBOX 應(yīng)用案例】單目深度估計

    ?Firefly所推出的NVIDIA系列的AIBOX可實現(xiàn)深度估計,該技術(shù)是一種從單張或者多張圖像預(yù)測場景深度信息的技術(shù),廣泛應(yīng)用于計算機視覺領(lǐng)域,尤其是在三維重建、場景理解和環(huán)境感知
    的頭像 發(fā)表于 03-19 16:33 ?426次閱讀
    【AIBOX 應(yīng)用案例】單目<b class='flag-5'>深度</b>估計

    靈汐科技開源深度學習應(yīng)用開發(fā)平臺BIDL

    富案例問題,一直制約著其廣泛應(yīng)用。為了突破這一瓶頸,靈汐科技聯(lián)合腦啟社區(qū)正式宣布開源深度學習應(yīng)用開發(fā)平臺BIDL(Brain-insp
    的頭像 發(fā)表于 03-05 09:13 ?941次閱讀
    靈汐科技開源<b class='flag-5'>類</b>腦<b class='flag-5'>深度</b><b class='flag-5'>學習</b>應(yīng)用開發(fā)平臺BIDL

    深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學習近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為
    的頭像 發(fā)表于 11-15 14:52 ?847次閱讀

    NPU在深度學習中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學習
    的頭像 發(fā)表于 11-14 15:17 ?1922次閱讀

    基于深度學習的三維點云分類方法

    近年來,點云表示已成為計算機視覺領(lǐng)域的研究熱點之一,并廣泛應(yīng)用于自動駕駛、虛擬現(xiàn)實、機器人許多領(lǐng)域。雖然深度學習技術(shù)在處理常規(guī)結(jié)構(gòu)化的二維網(wǎng)格圖像數(shù)據(jù)方面
    的頭像 發(fā)表于 10-29 09:43 ?1585次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的三維點云分類方法

    GPU深度學習應(yīng)用案例

    能力,可以顯著提高圖像識別模型的訓練速度和準確性。例如,在人臉識別、自動駕駛領(lǐng)域,GPU被廣泛應(yīng)用于加速深度學習模型的訓練和推理過程。 二、自然語言處理 自然語言處理(NLP)是
    的頭像 發(fā)表于 10-27 11:13 ?1384次閱讀

    激光雷達技術(shù)的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學習技術(shù)的發(fā)展 深度學習是機器
    的頭像 發(fā)表于 10-27 10:57 ?1072次閱讀

    RK3588 技術(shù)分享 | 在Android系統(tǒng)中使用NPU實現(xiàn)Yolov5分檢測

    NPU。 應(yīng)用領(lǐng)域 圖像識別: NPU能夠迅速對圖像進行分類、檢測和分割操作,大大提升了處理效率。 語音識別: NPU實現(xiàn)了實時語音轉(zhuǎn)換和
    發(fā)表于 10-24 10:13

    FPGA做深度學習能走多遠?

    中的性能和效率。同時,也可能會出現(xiàn)一些新的基于 FPGA 的深度學習算法創(chuàng)新,拓展其應(yīng)用領(lǐng)域。 ? 應(yīng)用領(lǐng)域的拓展:除了在圖像識別、語音處理、自動駕駛
    發(fā)表于 09-27 20:53

    深度識別算法包括哪些內(nèi)容

    :CNN是深度學習中處理圖像和視頻具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的主要算法。它通過卷積層、池化層和全連接層組件,實現(xiàn)對
    的頭像 發(fā)表于 09-10 15:28 ?844次閱讀

    AI入門之深度學習:基本概念篇

    義明確的邏輯問題,比如早期的PC小游戲:五子棋,但是像圖像分類、語音識別或自然語言翻譯更復雜、更模糊的任務(wù),難以給出明確的規(guī)則。 圖2:機器學習
    的頭像 發(fā)表于 08-08 11:24 ?2433次閱讀
    AI入門之<b class='flag-5'>深度</b><b class='flag-5'>學習</b>:基本概念篇

    FPGA在人工智能中的應(yīng)用有哪些?

    和安全的云計算和網(wǎng)絡(luò)服務(wù)。 三、具體應(yīng)用場景 圖像分類:在圖像分類任務(wù)中,F(xiàn)PGA可以承擔前置處理、圖像卷積、全連接任務(wù)。通過FPGA的并行計算能力,可以大幅提高算法運行速度和處理性
    發(fā)表于 07-29 17:05