作者:張宏江 ?
繼ChatGPT之后,Sora模型的出現(xiàn)再次激發(fā)了各行各業(yè)對AI的熱情。面對術(shù)語的日新月異,個人和企業(yè)應(yīng)用的紛繁涌現(xiàn),以及商業(yè)模式的持續(xù)重構(gòu),大模型能夠展現(xiàn)出驚人的能力并迅速影響社會,這背后有著更深刻的原因。在近日舉辦的“亞布力中國企業(yè)家論壇年會”上,智源研究院學(xué)術(shù)顧問委員會主任張宏江發(fā)表了閉幕式演講,分享了他對大模型技術(shù)發(fā)展的八點觀察。
第一,大模型取得突破的核心是Scaling Law
2017年問世的Transformer架構(gòu),是大模型取得突破的技術(shù)基礎(chǔ),以此為代表的一系列技術(shù)創(chuàng)新,奠定了人工智能“算力+數(shù)據(jù)+算法”結(jié)合的發(fā)展路線,引領(lǐng)人工智能從1.0時代,跨入了 2.0時代。未來我們還將見證,人工智能將繼續(xù)沿續(xù)這一路徑發(fā)展,走向通用人工智能的宏偉目標(biāo)。而大模型的成功,不單是算法創(chuàng)新的勝利,更是系統(tǒng)研究的偉大進(jìn)步。
在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動模型性能持續(xù)提升的主要動力。Scaling Law揭示了這樣一個現(xiàn)象:較小的語言模型只能解決自然語言處理(NLP)中的部分問題,但隨著模型規(guī)模擴(kuò)大——參數(shù)數(shù)量增加至數(shù)十億甚至數(shù)百億,曾經(jīng)在NLP領(lǐng)域中的棘手難題往往能得到有效解決。這一規(guī)律不僅已被現(xiàn)實證實,而且預(yù)計將在未來繼續(xù)引領(lǐng)技術(shù)突破。
圖1 Scaling Law——規(guī)模的魔力,以PaLM為例,規(guī)模擴(kuò)大至5400億參數(shù),模型性能突飛猛進(jìn)
當(dāng)模型規(guī)模較小時,各方面性能隨參數(shù)的提升趨勢較為平緩;隨著模型規(guī)模不斷擴(kuò)大并超過某個拐點,其性能隨參數(shù)增加而陡然上升。這就是模型規(guī)模擴(kuò)大帶來的能力涌現(xiàn),也是過去數(shù)年間研究人員不懈追求擴(kuò)大模型規(guī)模的重要原因。此外,數(shù)據(jù)規(guī)模和質(zhì)量也至關(guān)重要——研究者要重視數(shù)據(jù)的規(guī)模,而同樣規(guī)模的數(shù)據(jù),高質(zhì)量的數(shù)據(jù)會訓(xùn)練出更好的模型。
圖2 a. 當(dāng)模型參數(shù)規(guī)模增大時精度預(yù)期也會改善。b. 參數(shù)規(guī)模增速:2018年以來,每4.2個月實現(xiàn)翻番
第二,大模型是新的操作系統(tǒng)和計算體系
在傳統(tǒng)的計算機(jī)使用中,人輸入數(shù)據(jù),計算機(jī)進(jìn)行運算并輸出結(jié)果,這構(gòu)成了計算機(jī)與人交互的本質(zhì)。今天的大模型以更簡易、更便捷的方式實現(xiàn)了上述功能——人們不再需要編程或打字,只需與GPT進(jìn)行交流,它就能按照人們的想法執(zhí)行命令,這表明大模型已經(jīng)起到了“操作系統(tǒng)”的作用。
作為操作系統(tǒng),模型簡化了人們調(diào)用應(yīng)用程序的過程。正如微信小程序幫助人們減省了在App Store下載應(yīng)用的過程,大模型甚至省去了搜索小程序的過程。例如,人們只需告訴大模型,畫一個亞布力的美景,它就可以畫出亞布力各種角度的美景,甚至生成視頻。因此隨著大模型的應(yīng)用日益廣泛,App這種形態(tài)可能會消失,甚至連小程序也會被淘汰。
從另一個角度看,大模型作為一種新的操作系統(tǒng),也給計算體系帶來了巨大的轉(zhuǎn)變,即從原來的以CPU為核心轉(zhuǎn)變?yōu)橐?a href="http://www.www27dydycom.cn/tags/gpu/" target="_blank">GPU并行處理為核心。這種體系轉(zhuǎn)變會帶來新的核心技術(shù)和新的玩家。近日英偉達(dá)發(fā)布財報后,股票上漲了15%,也印證了過去CPU時代的Wintel體系會被當(dāng)今的大模型和GPU體系所取代。
圖3 大模型是新的操作系統(tǒng),計算體系從CPU為核心轉(zhuǎn)變?yōu)镚PU為核心
第三,大模型作為新的平臺,會帶來新的生態(tài)
大模型正在重塑計算生態(tài)。傳統(tǒng)計算生態(tài)的基礎(chǔ)設(shè)施層是芯片,模型則建立在云平臺之上。如今,AI領(lǐng)域的許多玩家通過云服務(wù)調(diào)用大模型的API,這種做法昭示著大模型作為一種平臺、一種服務(wù)的特性。
這就是為什么OpenAI每發(fā)布一個新功能,上線一組新代理,做大模型應(yīng)用的廠家就會擔(dān)心自己的業(yè)務(wù)被它“吸進(jìn)去”,正如當(dāng)初微軟Windows對軟件廠商業(yè)務(wù)帶來的威脅和挑戰(zhàn)。這種擔(dān)心印證了模型即平臺、模型即應(yīng)用、模型即產(chǎn)品。
圖4 大模型:新平臺,新生態(tài)
未來,大模型作為一個平臺必將重新賦能所有應(yīng)用,迫使人們重寫過去的軟件。這就是今天的互聯(lián)網(wǎng)公司紛紛投入大量資源開發(fā)自己的大模型的原因,因為在未來,沒有大模型的互聯(lián)網(wǎng)公司將不再被視為平臺公司。這也是亞馬遜顯示出落伍跡象,市值被后起之秀超越的原因所在。
第四,大模型性能是大規(guī)模商業(yè)落地的關(guān)鍵
隨著大模型熱度日益高漲,許多人嘗試從應(yīng)用出發(fā)做一個垂直小模型,但這種做法行不通。如果模型的能力不足以支撐大規(guī)模應(yīng)用場景,其流行可能僅是曇花一現(xiàn),之后便會面臨用戶數(shù)量的急劇下降。就像30年前蘋果公司推出一個名為“牛頓”的小型Pad產(chǎn)品,彼時被認(rèn)為具有革命性,但很快人們就發(fā)現(xiàn),它的手寫和語音識別兩個關(guān)鍵技術(shù)都都無法支撐新設(shè)備,因此該產(chǎn)品很快被撤掉了。
圖5 大模型性能是大規(guī)模商業(yè)落地的關(guān)鍵
今天的大模型在智能客服、文本生產(chǎn)、辦公Copilot等場景均呈現(xiàn)出廣泛的應(yīng)用潛力,但是如果大模型在執(zhí)行任務(wù)時錯誤率過高,或者幻覺(hallucination)問題始終難以解決,很快就會走向用戶大量流失帶來的波谷,基于大模型的應(yīng)用層也會變得差強(qiáng)人意,由此衍生的商業(yè)模式終將難以為繼。因此,持續(xù)改善大模型性能是實現(xiàn)大規(guī)模商業(yè)落地的關(guān)鍵。
第五,大模型將同時推動存量和新增應(yīng)用
隨著大模型能力的迅猛發(fā)展和持續(xù)突破,許多此前計算機(jī)僅能勉強(qiáng)輔助的工作,如今大模型已經(jīng)可以勝任。ChatGPT發(fā)布一年多以來,大模型在辦公、視頻生成、醫(yī)療等各類應(yīng)用場景下的生產(chǎn)效率已經(jīng)得到了大幅提升,進(jìn)展速度遠(yuǎn)超AI 1.0時代。未來,我們將見證大模型推動一系列原生應(yīng)用快速落地并創(chuàng)造價值。
這些原生應(yīng)用何時會產(chǎn)生,能否抓住投資機(jī)會,是讓投資者和從業(yè)者倍感焦慮的問題?;仡櫄v史,無論P(yáng)C時代還是移動互聯(lián)網(wǎng)時代,在技術(shù)快速迭代和平緩發(fā)展的時期,都曾涌現(xiàn)出極具潛力的產(chǎn)品。大模型時代的情況也會與此類似,因而不必過分焦慮,市場參與者一方面要快速消化大模型所帶來的種種沖擊;另一方面,應(yīng)該專注于自己現(xiàn)有的業(yè)務(wù),看一看當(dāng)大模型性能成熟時,這些業(yè)務(wù)會發(fā)生多么大的改變。
圖6 大模型將同時推動存量和新增應(yīng)用
大模型不僅會催生一系列原生應(yīng)用和AI創(chuàng)業(yè)公司,同時也將推動存量市場的增值和發(fā)展。正如從PC互聯(lián)網(wǎng)轉(zhuǎn)移到移動互聯(lián)網(wǎng)的過程中,存量巨頭的市值增長,遠(yuǎn)大于新生公司的市值總和。
放眼未來,我們有理由相信,大模型帶來的效率提升必將賦能新的應(yīng)用場景,同時推動存量市場的增長與原生應(yīng)用的創(chuàng)收,從而帶來整體市值的增長。此外,AI時代原生應(yīng)用的核心特征,是人與機(jī)器的自然交互,因此大模型本身即是AI時代最大的原生應(yīng)用,我們可以期待這一超級應(yīng)用的出現(xiàn)。
第六,多模態(tài)大模型是AGI的終極模型
隨著Sora模型的出圈,多模態(tài)模型開始引燃各行各業(yè)。不同于傳統(tǒng)語言模型僅將語料作為token,多模態(tài)模型的訓(xùn)練方式是將視頻、語音和圖像等多模態(tài)數(shù)據(jù)作為token,訓(xùn)練出能夠理解物理世界的大模型。
請Sora根據(jù)描述生成一段SUV在山路上行進(jìn)的畫面,結(jié)果令人震撼,車在山路上的奔馳能夠完全遵守交通規(guī)則,拐彎也輕松自如,在沒有路徑圖和3D建模的情況下,模型完全靠“自學(xué)”模擬了這一影像。這需要模型對于物理世界的理解,可以說Sora的出現(xiàn),意味著能夠理解、描述和模擬現(xiàn)實世界的“世界模型”取得了突破,也讓我們對于走向AGI更有信心。
文生視頻是Sora最令人驚嘆和備受矚目的功能,但事實上多模態(tài)模型的能力范疇不止于文生圖、文生視頻,更包括對圖片或視頻的理解和闡釋——多模態(tài)模型應(yīng)同時具備正向的生成與反向的理解能力。誠如美國物理學(xué)家理查德·費曼的箴言所揭示:“What I cannot create, I do not understand”。只有大模型真正理解物理世界,才能更好地創(chuàng)造和模擬。
如何訓(xùn)練這樣的模型?打個比方,飛行員學(xué)習(xí)駕駛飛機(jī)需要先在模擬駕駛艙中訓(xùn)練很長的時間,模擬駕駛艙是由空間模型和飛機(jī)動力學(xué)模擬形成,飛行員先從模擬的數(shù)據(jù)中學(xué)習(xí)一切操作再應(yīng)用到現(xiàn)實駕駛當(dāng)中。同樣的道理,我們可以通過觀察和描述物理世界產(chǎn)生新的訓(xùn)練數(shù)據(jù),從而訓(xùn)練出能夠理解和模擬物理世界的大模型。
按照這個邏輯,談及未來應(yīng)用,多模態(tài)大模型很可能重新改寫自動駕駛系統(tǒng)。過去,所有自動駕駛公司每到一個新的城市,必須花費3到6個月時間重新掃描這個城市的所有街道,未來這項工作可以由多模態(tài)大模型代勞。
第七,多模態(tài)大模型驅(qū)動通用機(jī)器——從簡單指令到自我規(guī)劃
除了語言模型和多模態(tài)大模型,以機(jī)器人為核心的具身模型也是當(dāng)今研究的重點方向。通過多模態(tài)模型和機(jī)器人的結(jié)合,能夠增強(qiáng)機(jī)器人理解和描述周邊世界的能力,從而使其能夠自主地做出行動,這就是通用機(jī)器人的未來。
例如,在訓(xùn)練機(jī)械手打開微波爐的任務(wù)中,傳統(tǒng)機(jī)械手可能難以應(yīng)對微波爐門鎖的操作。而引入多模態(tài)大模型后,機(jī)械手可以通過與模型的交互,學(xué)習(xí)操作手冊,從而掌握打開微波爐前需要先按下解鎖按鈕的步驟。從這個角度講,未來的機(jī)器人不僅能夠執(zhí)行已經(jīng)被訓(xùn)練的任務(wù),還可以通過大模型的加持,完成之前沒有經(jīng)過訓(xùn)練,但是能夠通過自主學(xué)習(xí)理解的任務(wù)。在大模型的帶動下,機(jī)器人將完成從簡單指令到自我規(guī)劃的能力躍遷,這個過程讓研究者看到了實現(xiàn)通用機(jī)器人的可能性。
圖9 ?多模態(tài)大模型驅(qū)動通用機(jī)器: 從簡單指令到自我規(guī)劃
第八,“奇點”來臨,未來將是自主智能的世界
隨著語言模型、視覺模型和機(jī)器人具身模型的日臻成熟,人們對實現(xiàn)通用機(jī)器人的預(yù)期時間,已經(jīng)由超過十年縮減至五年以內(nèi),我們不久后將見證下一代自主行動系統(tǒng)的誕生。
三十年前,當(dāng)“深藍(lán)”擊敗俄羅斯棋王卡斯帕羅夫,他意識到計算機(jī)能夠幫助人類提升棋藝——這是人工智能的Copilot階段。當(dāng)技術(shù)進(jìn)化到AlphaZero,計算機(jī)不再使用人類的棋譜,而是按照自己的算法、規(guī)則和目標(biāo)函數(shù)來下棋,能夠使用人類大師無法理解的招數(shù)出奇制勝。在AI面前,人類兩千年的智慧積淀已經(jīng)顯得微不足道。人類很難再在棋類贏AlphaZero,這表明Copilot會隨著AI技術(shù)的發(fā)展而被取代。
圖10 歷史來看,Copilot將會被迅速替代
AlphaZero的出現(xiàn)還表明,在部分應(yīng)用場景中,機(jī)器已經(jīng)有了上帝視角——人類只看到一個小山丘或山谷,而“上帝”則看到了整個地貌。
在《奇點來臨》一書中,“奇點”(Singularity)一詞是指當(dāng)技術(shù)發(fā)展的速度超過了人類的平均學(xué)習(xí)能力時,機(jī)器能夠比人類更好地完成新任務(wù),任何需要平均IQ、平均技能的任務(wù)會被機(jī)器所取代。如今大模型所具備的極強(qiáng)的學(xué)習(xí)與推理能力,昭示著“奇點”即將到來。
圖11 奇點即將來臨?
展望未來,企業(yè)提高生產(chǎn)力和實現(xiàn)業(yè)務(wù)增長可能將不再依賴雇傭更多或更強(qiáng)能力的員工,而是購買更多算力和使用更強(qiáng)大的自主智能體。這可能是我們即將迎接的未來,一個我們必須去想象的未來。正如《未來簡史》作者所說,未來的世界可能只有3%的神人,而剩下的97%將是閑人。今天,大模型已經(jīng)讓我們看到了這個未來的可能性。
審核編輯:黃飛
評論