來源:《中國人工智能學會通訊》
作者:雷濤
轉(zhuǎn)自:中國人工智能學會?
一、什么是人工智能
(一)圖靈測試
圖靈測試在 20 世紀 50 年代已經(jīng)提出,那時沒有計算機。圖靈測試指測試者與被測試者(一個人或一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果機器讓平均每個參與者做出超過 30% 的誤判,那么這臺機器就通過了測試,并被認為具有人類智能。以前有一些人可能不理解,但到今天就很明白,像小度音箱如果你連問三次今天溫度怎樣,它的回答是一樣的;但你問家人同一個問題三遍,他的回答可能是“你是否有毛病 ? 一個問題問三遍”,這就是人和機器的區(qū)別。圖靈曾經(jīng)預測,人類用 50 年左右的時間可能完成圖靈測試, 但是實際結(jié)果不太理想,人類用了 60 多年的時間才完成了圖靈測試。
(二)人工智能的應用
人工智能的應用領(lǐng)域非常廣泛,如人臉識別和跟蹤、遙感影像中的目標檢測、醫(yī)學領(lǐng)域中的病灶識別和分類、材料領(lǐng)域的新材料發(fā)現(xiàn)。除此之外,人工智能在機器人領(lǐng)域的應用更為廣泛 , 對機器人的發(fā)展而言 , 從機械角度來講,目前的機器人靈活度和穩(wěn)定度已經(jīng)做的非常好,比在機器人腦部方面的進展要快 , 然而決定機器人水平的主要依據(jù)是其智能水平。這和人一樣,醫(yī)院神經(jīng)科的醫(yī)生地位通常更高,因為神經(jīng)科的病人特別多;且這些病相對來講比較難治療,因為人腦結(jié)構(gòu)非常復雜。所以從人工智能類腦計算出發(fā),實現(xiàn)仿人機器人還有漫長的路要走。
人工智能也是影視娛樂領(lǐng)域的一個重要話題,典型代表是 2004 年的好萊塢電影《我,機器人》,影片中對人工智能有超前認識,講的是機器和人最終的區(qū)別是情感區(qū)別。如果有一天機器也有情感會怎樣?顯然 , 推進人工智能發(fā)展 , 預測人工智能的未來需要工科與人文社科研究人員共同努力和協(xié)調(diào)發(fā)展。
二、人工智能背后的技術(shù)原理
(一)機器學習
今天人工智能發(fā)展的如火如荼,核心原因是機器學習理論。我們要研究人工智能無非就是做一個仿人機器人,讓機器達到和人幾乎一樣的功能。人之所以聰明,最根本的原因是會學習。怎么教會機器學習?從我們小時候教育的過程就可以理解機器和人學習的過程。小學一年級學習加法時,老師課后會布置大量作業(yè),做錯了很正常 , 繼續(xù)修改就行;通過大量訓練和糾錯 , 到小學三年級大家就掌握了加法的本質(zhì)原理 , 基本不會犯錯了 , 那么學習的目的就達到了。
人對世界的認知就是一個學習過程,這個學習有一個特點是小樣本學習,需要較少的例子就可以學會 ( 當然存在特殊情況 , 智力有問題的人通常難以有效學習 )。比如人對貓和狗的識別,通??磶讖垐D片就認識了。機器怎么學習?例如利用機器學習的方法可以對圖像進行分類,然而當模型過于簡單(智力水平低)時,訓練好的模型只能識別常規(guī)的貓和狗,如果對圖像進行各種退化處理或者尺度放縮及形變,模型往往會出錯,而人通??梢詰獙Ω鞣N外界環(huán)境的干擾做出正確識別。這就說明一個問題,人的大腦學習是很聰明的過程,看兩三張照片就掌握了規(guī)律,是小樣本學習。機器要完成對貓和狗的正確識別,需要海量訓練樣本(圖片),同一張圖在訓練前需要做各種尺度、旋轉(zhuǎn)、仿射變換等(數(shù)據(jù)增強策略),只有輸入大量圖片機器才能有效掌握識別貓和狗的規(guī)律。如同班上聰明的學生通常只需做兩三道題就能掌握這種類型題,而智力水平低的學生需要做幾百道同類型的題才能掌握規(guī)律,當前的機器學習好比智力水平較低的學生。
第二個區(qū)別,魯棒性。比如給機器一個辨別色盲的照片,機器大概率會出錯,因為它應對各種新情況能力較弱,而人應對外界環(huán)境變化的能力遠高于機器。目前的深度學習技術(shù)在魯棒性方面已經(jīng)有了明顯改進,比如人臉識別,回顧 10 年前的人臉識別系統(tǒng),戴口罩根本無法識別,而現(xiàn)在可以正確識別,說明當前的機器學習水平已經(jīng)比過去提高很多。機器學習還有一個重要概念是泛化能力,比如我現(xiàn)在認識你,你帶了一個小伙子來了,我說這是你兒子,因為和你長的像;而機器通常對它沒有見過的東西,出錯概率比人要高的多。如果我們訓練好一個模型,機器可以對這張圖片進行一個正確識別;而像漫畫形式的,機器出錯的概率就非常高。
學習的過程就是總結(jié)規(guī)律、反復糾錯的過程。小學生如果錯一個字老師可能會讓他寫幾十遍,說明大腦可以被認為是一個模型,這個模型本來不健全,通過不斷學習,模型穩(wěn)定后就不再出錯,這是一個反復糾錯的過程。機器也一樣,現(xiàn)在的人臉識別模型就是一個復雜函數(shù),里面有很多參數(shù),只要調(diào)整參數(shù)值整個判別函數(shù)就變了。所以,我們要學習模型里不同參數(shù)值,參數(shù)初始值是隨意給的,而機器學習在第一次的學習過程中(例如 1+1=3),錯了就對參數(shù)進行修改;第二次學習過程中又一個樣本學習錯了(例如 2+5=9),繼續(xù)再修正參數(shù);一直下去,直到發(fā)現(xiàn)它能連續(xù)多次正確就不再修改模型里的參數(shù),這是學習的最基本過程。
圖 1 誤差函數(shù)的變化
機器學習涉及到的三要素是數(shù)據(jù)、模型和算法。比如要對一些圖片進行識別,把貓識別出來,就需要大量樣本,就好比學生學習需要大量題庫,如果題庫都沒有做過,怎么可能掌握基本知識,所以樣本可以認為是最基本的素材。進入大數(shù)據(jù)時代,由于計算機成像技術(shù)的快速發(fā)展,獲取圖像、語音、文本的方式越來越簡單,因此各種媒體數(shù)據(jù)量不斷增加。其次是模型。模型很簡單,就是一個函數(shù)。例如,我們可以看到一個簡單函數(shù)、一個復雜函數(shù),簡單函數(shù)是線性的;復雜函數(shù)是非線性的。簡單函數(shù)可以認為是一個智力水平低的小孩,辨別能力差表現(xiàn)在這個分類的模型很簡單;復雜模型類似于一個智力水平很高的科學家,對各種各樣的事都可以做出正確判斷和處理,這就是簡單模型和復雜模型的區(qū)別。深度學習的過程就是要把簡單模型變成復雜模型,這樣就不容易出錯。機器學習最后一個要素是學習算法,例如同樣一個班的學生,為什么有的學生成績好,有的學生成績不好,就是因為學習方法不同,這是有差異的。在實際過程中也是一樣的,我們在訓練模型時用不同算法去做,效率不同,有時訓練機器 2 小時就可以收斂,有時訓練 10~20 個小時還不能收斂。所以,選擇一個很好的算法很重要。
(二)機器學習系統(tǒng)
以人臉識別為例,首先進行數(shù)據(jù)收集,需要收集大量的人臉數(shù)據(jù),被稱為歷史數(shù)據(jù)。歷史數(shù)據(jù)包括訓練數(shù)據(jù)和驗證數(shù)據(jù),訓練數(shù)據(jù)相當于我們平時做的題庫;驗證數(shù)據(jù)相當于模擬考試。對模型學習的過程中就是對它的參數(shù)不斷進行調(diào)整。調(diào)整的方法是,對錯的東西進行懲罰,不斷把錯的東西變成正確的。等題庫里的題做完了就開始驗證,通過驗證發(fā)現(xiàn)成績還是不行,說明老師有問題,或者說家長有問題,或者學習的環(huán)境有問題,這些外界因素就如同模型的超參數(shù)。通過調(diào)整這些超參數(shù)后再進行學習,直到成績可以了,就能夠參加最終測試。
機器學習里有很多種方法和工具,其中最核心的就是神經(jīng)網(wǎng)絡。生物學家發(fā)現(xiàn),人腦本身就是一個復雜網(wǎng)絡,如何模擬人腦的網(wǎng)絡去工作,這是科學家一直奮斗的目標。這方面的工作可以追溯到上世紀三四十年代,模擬人腦的功能網(wǎng)絡。從最早的感知器,到今天的深度學習,其原理都是在模擬人的大腦工作機理。人的大腦大約有 860 億個神經(jīng)元?;谏窠?jīng)元的工作機理,數(shù)學家們將其抽象為人工神經(jīng)元數(shù)學模型,這是人腦工作最基本的機理,這個工作機理就是加權(quán)求和的過程。比如開會投票,六個評委每個人打分,最后的打分結(jié)果不是直接求平均值,而是帶有權(quán)重的平均。由于線性運算難以表達復雜模型,因此神經(jīng)元還涉及到是否激活的問題,這個激活是個非線性運算。因此一個神經(jīng)元首先通過加權(quán)求和的線性運算;其次通過一個非線性運算;最終輸出結(jié)果,這就是神經(jīng)元的最終工作流程。
神經(jīng)網(wǎng)絡經(jīng)歷了三次熱潮,同時也經(jīng)歷了二次寒冬。圖靈在 1936 年提出圖靈機,人工智能從此開始進入第一次熱潮。隨著計算機技術(shù)的發(fā)展,人工智能也在不斷向前發(fā)展。到 1974 年經(jīng)歷了一次寒冬,因為最早的神經(jīng)網(wǎng)絡只能對線性可分的數(shù)據(jù)進行分類,學者們就認為神經(jīng)網(wǎng)絡應用具有較大的局限性,而專家系統(tǒng)可以解決更為復雜的問題。直到 BP 神經(jīng)網(wǎng)絡出現(xiàn)后,其成功地解決了線性不可分數(shù)據(jù)的正確分類,神經(jīng)網(wǎng)絡迎來了第二次熱潮。1987 年,由于神經(jīng)網(wǎng)絡需要更多的訓練數(shù)據(jù),且識別精度有限,而支持向量機(SVM)是小樣本學習方法,且表現(xiàn)出更好的分類性能,因此神經(jīng)網(wǎng)絡一度被質(zhì)疑,進入了第二次寒冬。直到 2006 年,因為神經(jīng)網(wǎng)絡層的設(shè)計不能太深,而人腦的工作機理是深層網(wǎng)絡,中間的參數(shù)是指數(shù)級增長,計算量和模型的復雜性也都是指數(shù)級增長;以往的神經(jīng)網(wǎng)絡很難進行深層設(shè)計,原因在于無法進行有效訓練,而 Hinton 提出深度學習的概念,通過逐層訓練結(jié)合微調(diào)的方式實現(xiàn)了深層網(wǎng)絡的訓練,由此人工智能進入了第三次黃金時代。
進入深度學習時代后,人工智能迎來快速發(fā)展,在傳統(tǒng)的 BP 神經(jīng)網(wǎng)絡中,我們通常需要人工進行特征提取,然后設(shè)計神經(jīng)網(wǎng)絡實現(xiàn)數(shù)據(jù)分類或回歸。比如做人臉識別,實際上是想辦法把一個人臉的照片轉(zhuǎn)換成一個向量,在非深度學習的時代這個過程被稱為手工提取特征。提取人臉特征后,要對這些特征進行分類,因此需要訓練一個分類器,整個提取特征和特征分類分開執(zhí)行,而深度學習可以把這兩個任務融為一體,讓機器全部自動學習。尤其是怎么把人臉變成一個向量讓機器自己學習,而不需要人幫助,這就是深度學習和傳統(tǒng)機器學習最本質(zhì)的區(qū)別,因為它能夠自動學習,所以學習出來的特征往往比人工設(shè)計的特征要好很多。
深度學習是信息時代的必然產(chǎn)物。21 世紀是大數(shù)據(jù)時代,隨著成像技術(shù)的發(fā)展,我們對圖像數(shù)據(jù)、視頻數(shù)據(jù)和文本數(shù)據(jù)的獲取很容易,數(shù)據(jù)獲取方式更為簡單,獲取大數(shù)據(jù)集變得越來越容易。有了數(shù)據(jù),還要有算力。所謂訓練過程就是計算過程,以前訓練一個模型要兩天,到現(xiàn)在 2 個小時就可以結(jié)束。有了數(shù)據(jù)和算力,還要有算法進行支撐。進入深度學習后,可以設(shè)計深度學習模型,尤其是各種學習理論做支撐。三者同時發(fā)展,就有了今天人工智能高速發(fā)展的結(jié)果。
深度學習的代表性方法是深度神經(jīng)網(wǎng)絡。深度神經(jīng)網(wǎng)絡最大的成功在于分層表達,當前的深度神經(jīng)網(wǎng)絡可以做到幾千層。層的作用就是認知的過程,層越多模型就越復雜,表達能力就越強。比如進行數(shù)字識別,第一層里對這個數(shù)字的認識就是不同顏色塊,說它有什么特征我不知道;第二層就有一種高級信息,有形狀和紋理;第三層就是高級語義信息。深度學習繁榮發(fā)展的歷程。李飛飛的主要貢獻是整理了一個圖像庫 ImageNet,里面大概有1500萬張圖像,而且對很多圖像做了標注(共標注了大約 120 萬張圖像)。有了這個超級大庫后,學者們就可以驗證深度學習的有效性。沒有大數(shù)據(jù)作支撐,無法驗證各種深度模型的好壞。因此自 2010 年后,學者們相繼參加 ImageNet 比賽,直到 2017 年圖像分類錯誤率已降到了非常低的量級,比賽停止。
三、人工智能技術(shù)現(xiàn)狀
首先是數(shù)據(jù)的現(xiàn)狀,GPT 的訓練數(shù)據(jù)大約 80萬張網(wǎng)頁,GPT-2 的訓練數(shù)據(jù)大概 800 萬張網(wǎng)頁,GPT-3 的訓練數(shù)據(jù)達到 45TB。大數(shù)據(jù)一旦到來后,只有大公司高投入才能做這樣的事情?,F(xiàn)在的機器學習方法有監(jiān)督式學習和非監(jiān)督式學習兩大類。所謂監(jiān)督式學習分為分類和回歸兩個問題?;貧w問題預測的是一個數(shù)值,比如天氣預報、股票開盤價預測。機器學習里的兩大任務,無非就是分類問題和回歸問題。監(jiān)督學習類似于我們的課堂教育,由老師教給你,錯了馬上指出,不斷讓你糾錯。這樣的學習方式成本高,要交學費,還需要很多老師;非監(jiān)督學習相反,不需要老師、課堂,自學成才。通常非監(jiān)督學習不如監(jiān)督學習,因為自學成才的人較少,而且難度大。但是非監(jiān)督學習是我們奮斗的目標,讓機器能自動學習,而不是不斷教它。
介于監(jiān)督學習和非監(jiān)督學習中間的是弱監(jiān)督學習,其分為三種,第一種是不完整的監(jiān)督,做標記時只有一部分進行標記。比如一套題庫中,10 套有答案,10 套沒有答案,這是不完整監(jiān)督。第二種是不確切監(jiān)督。給一個大概的答案,可以很具體地標貓和狗,但也可以籠統(tǒng)地標為動物;類似于老師不教步驟,只講方法。第三種是不正確監(jiān)督,即老師也有講錯題的時候。
深度學習繁榮發(fā)展。谷歌是全球最大的互聯(lián)網(wǎng)公司,一直走在人工智能領(lǐng)域的最前端,近年來先后提出了 Transformer、Bert 等。除了谷歌,2017 年微軟投入 10 億美金給 OpenAI 做研發(fā),從而促進了該公司在人工智能領(lǐng)域的崛起,尤其是 GPT-3 的提出,實現(xiàn)了人工智能大踏步前進。除了 OpenAI 公司,還有很多公司也做的非常好,例如蘋果、華為的諾亞方舟、京東的探索研究院等。
人工智能的發(fā)展可以分為弱人工智能、強人工智能和超人工智能三個層次。個人粗略認為,2020年以前人工智能一直處于弱人工智能。所謂弱人工智能就是下棋、人臉識別這種單項任務。強人工智能就是類人的活動,尤其是多任務執(zhí)行,例如機器人可以實現(xiàn)自己編程序、語音聊天、自動駕駛等?,F(xiàn)在已經(jīng)步入了強人工智能時代。未來的人工智能應該步入的是超人工智能。所謂超人工智能就是在各領(lǐng)域全面超越人類,或者超過我們的大腦。
人工智能現(xiàn)在存在的問題主要表現(xiàn)在三個方面,一是模型很大,參數(shù)量多,內(nèi)存消耗高;二是數(shù)據(jù)標注成本較高;三是多任務執(zhí)行比較難?,F(xiàn)在能見到的機器人有送菜機器人、巡警機器人、撿垃圾機器人,一個機器人能不能完成所有的功能?所以多任務執(zhí)行比較困難。最大問題是它的計算量太大,耗能方面目前是一個嚴重問題。AlphaGO 下一盤棋的電費大約 3 000 美元。拋開 AlphaGO 我們看GPT-3,它的參數(shù)量是 1 750 億,人類只有大約 860億神經(jīng)元。這個模型訓練一次成本很高,用電需要19 萬度,碳排放是 8.5 萬公斤,相當于一輛車從月球開到地球一個來回的碳排放。在碳中和的年代,如何發(fā)展人工智能?顯然未來我們需要有新的技術(shù)作支撐。
四、工智能技術(shù)的應用
人工智能如果可以全面用于無人駕駛,會產(chǎn)生非常大的經(jīng)濟效益,但也可能存在很多問題?,F(xiàn)在百度、小米都在造汽車,考慮的是未來的新能源及自動駕駛,成本很低。人工智能在醫(yī)療領(lǐng)域,從商業(yè)價值來講是最有意義的一個應用。在疾病預測和影像分析領(lǐng)域,人工智能已經(jīng)表現(xiàn)出明顯的優(yōu)勢,尤其某些診斷已全面超過人類,如青光眼的篩查比人類專家水平還高??紤]到責任問題,人工智能在醫(yī)學里只能作為輔助手段,為醫(yī)生提供各種參考,最終診斷由醫(yī)生確定。
成果應用 1:智慧醫(yī)療
在智慧醫(yī)療方面,我們開發(fā)了一套面向肝功能輔助評估的在線分析系統(tǒng),輸入病人肝臟影像后,直接可以打出結(jié)構(gòu)化報告,如果依賴人工去做,傳統(tǒng)方法需要 1~2 天才能完成。因此這套影像分析系統(tǒng)可以極大提高醫(yī)生的工作效率。
成果應用 2:金屬及泡沫材料屬性分析
根據(jù)金屬材料掃描電鏡圖像,研究金屬材料單物理屬性,需要分析其中的孔洞分布,手動去量通常非常困難,通過人工智能的方法可以做一個有統(tǒng)計意義的分析結(jié)果。我們利用計算機視覺技術(shù)成功幫助材料研究人員自動分析金屬材料屬性,為他們提供非常客觀的測量數(shù)據(jù),誤差率降低了一個數(shù)量級。此外,對網(wǎng)狀結(jié)構(gòu)的泡沫材料(中間的孔洞更多)也可進行智能分析。
成果應用 3:智能地層驅(qū)油分析
通過給地層注入水(紅色是油的分布,藍色是水,背景是地層)后可以把油驅(qū)出,這就是采油的原理。實際中,研究人員把地層結(jié)構(gòu)做成芯片放到實驗室,用照相機進行拍照分析地層中水驅(qū)油的變化。我們做了一個智能系統(tǒng)可以分析油路走向,通過之前和之后的圖像對比,利用人工智能技術(shù)找出前后的變化趨勢,找到油路的走向,幫助工作人員找到最佳取油路徑。
五、人工智能的未來
人工智能的未來是可信人工智能、超級深度學習和量子機器學習。
京東探索研究院聯(lián)合中國信通院在 2021 年發(fā)布了可信人工智能白皮書。為什么是可信人工智能?比如無人駕駛必須要識別街區(qū)場景,如果各種標識牌上貼了小廣告,這種情況下智能車通常就會識別錯誤,發(fā)生的后果可能會很嚴重。這個責任怎么去劃分?所以這方面有很多問題,比如可信可視、多元包容等。
當前,數(shù)據(jù)不斷在增長,模型參數(shù)也在增長,計算機的計算性能也在增長。因為有計算性能做支撐,所以不害怕數(shù)據(jù)增長和模型提升,未來的深度學習可以執(zhí)行的任務非常多,學習能力也很強,能夠達到接近人的學習能力,最終實現(xiàn)整體人工智能產(chǎn)業(yè)鏈的布局。
量子機器學習。中國科技大學潘建偉教授開發(fā)出國內(nèi)第一臺量子計算機,其計算性能是現(xiàn)有計算機的 1 億倍。發(fā)展量子計算機是人工智能未來的方向,因為計算效率高、功耗低。
六、結(jié)束語
“破山中賊易,破心中賊難”。發(fā)展科學技術(shù)比較容易,但人想戰(zhàn)勝內(nèi)心深處邪惡的想法比較困難,從技術(shù)角度的發(fā)展,人工智能技術(shù)一旦掌握在一些少數(shù)的有邪惡想法人的手里,人類就會面臨災難。所以人工智能技術(shù)未來的發(fā)展,尤其是在倫理道德方面的發(fā)展,是我們要重點關(guān)注的方面。
審核編輯:湯梓紅
評論