一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大語言模型火爆的今天,我們?yōu)槭裁催€要擁抱世界模型?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-04-11 14:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZO2f3wmiAPyRWAAnbq_XukYE361.jpg

圖靈獎得主楊立昆認為,目前AI界持續(xù)追捧的大語言模型并非十全十美,它隱藏著四個難以突破的致命弱點:一是理解物理世界,二是擁有持久記憶,三是具備推理能力,四是復(fù)雜規(guī)劃能力。

而能夠克服第一個“致命弱點”的技術(shù),叫作世界模型。

這聽起來或許很抽象,但你一定知道谷歌的3D游戲、特斯拉自動駕駛。

世界模型意味著機器能夠像人一樣辨別物理空間、理解物理規(guī)律、根據(jù)經(jīng)驗做出推理決策。

與大語言模型不同的是,世界模型不再遵循從海量文本語料生成概率的邏輯,而是在深度分析大規(guī)模現(xiàn)實世界視頻后推測因果。

就像人類世界的嬰兒一樣,在交互學(xué)習(xí)中構(gòu)建對這個世界的認知。

wKgZO2f3wmmAMlNZAAJG7j7X5f8486.jpg

想象一個剛出生的嬰兒,她的眼睛尚未完全聚焦,卻能通過觸摸、溫度、聲音的碎片拼湊出世界的輪廓。人類大腦用數(shù)百萬年進化出這種能力——將感官信息轉(zhuǎn)化為對物理規(guī)律的理解。

而這恰是今天人工智能所欠缺的,世界模型正在努力發(fā)展的——從數(shù)據(jù)中重構(gòu)對重力、時間等知識的理解。

世界模型的概念最早可追溯至1980s到1990s的認知科學(xué)和控制理論,那時的研究者受心理學(xué)影響,提出AI系統(tǒng)需要構(gòu)建對環(huán)境的內(nèi)部模擬,從而進行預(yù)測和決策,即AI的環(huán)境建模能力。

這里有一個重要的要素:環(huán)境。

從生物學(xué)上來講,不論是微生物、動物還是人,行為都遵循著一個最基本的規(guī)則:刺激-反應(yīng)模式,即生物反應(yīng)是對環(huán)境刺激的直接響應(yīng)。

隨著生物千億年漫長的進化,動物發(fā)展出感覺和心理,通過視覺、聽覺、嗅覺等感官感知外界,產(chǎn)生出興奮、恐懼等簡單情緒;人類進一步發(fā)展出自我意識,而人類意識和動物感覺最大的區(qū)別是能否自主規(guī)劃、有目的地進行決策和行動。

拿生物進化過程和AI的發(fā)展歷程相比,我們不難發(fā)現(xiàn),其實AI的終極形態(tài)AGI就是要發(fā)展出自主感知現(xiàn)實、自我規(guī)劃、有目的決策的能力。

世界模型的雛形就萌芽于心理學(xué)家對人類和動物認知理解世界并做出決策的觀察。這個理論叫作心智模型,1990年由David Rumelhart提出,強調(diào)智能體需對環(huán)境形成抽象表征。

以我們自身舉例,人類大腦對周圍世界有一種習(xí)得的內(nèi)在認知框架,根據(jù)經(jīng)驗做決策,如看到烏云就聯(lián)想到下雨。再比如,我們不會記住每片樹葉的形狀,卻能瞬間判斷樹枝能否承受體重。同理,世界模型就是讓機器構(gòu)建起對周圍環(huán)境和世界的理解和預(yù)測能力,比如看到火就聯(lián)想到燙傷。這種抽象能力,正是這一時期學(xué)者希望機器具有的稟賦。

但是,這階段的世界模型研究停留在理論構(gòu)想階段,雖有了較為清晰的定義和目標(biāo),仍沒有具體的技術(shù)路徑。

世界模型研究開始落地是2000s到2010s的計算建模階段,隨著強化學(xué)習(xí)和深度學(xué)習(xí)的深入發(fā)展,學(xué)者開始嘗試用神經(jīng)網(wǎng)絡(luò)構(gòu)建可訓(xùn)練的世界模型。

強化學(xué)習(xí)通過獎懲機制讓其在與環(huán)境交互過程中不斷習(xí)得策略,類似于“訓(xùn)狗”,深度學(xué)習(xí)通過分層特征提取讓其從海量數(shù)據(jù)中自動學(xué)習(xí)規(guī)律,類似于“煉金”。

2018年,DeepMind 《World Models》(Ha & Schmidhuber)論文首次用“VAE+RNN+控制器”的三段式架構(gòu),構(gòu)建可預(yù)測環(huán)境的神經(jīng)網(wǎng)絡(luò)模型,成為現(xiàn)代世界模型的里程碑。

這一過程類似于“造夢”——先通過自動編碼器VAE將現(xiàn)實場景壓縮成數(shù)據(jù),再利用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)推演未來可能的情節(jié),最后用精簡的控制器指導(dǎo)行動。這意味著世界模型首次具備了顱內(nèi)推演的能力,像人類一樣在行動前預(yù)判后果,大大降低了試錯成本。

2022年后,世界模型進入大模型時代,借助Transformer的序列建模能力和多模態(tài)學(xué)習(xí)技術(shù),應(yīng)用范圍從單一模態(tài)擴展到跨模態(tài)仿真,世界模型的推演也從2D走向3D(如OpenAI的GATO、DeepMind的Genie)。

近期研究如Meta的VC-1、Google的PaLM-E進一步將世界模型的概念帶入公眾視野,將世界模型與大語言模型結(jié)合以實現(xiàn)更通用的環(huán)境推理成為一種技術(shù)發(fā)展路徑。

Google的PaLM-E(5620億參數(shù))模型成功將語言模型與視覺、傳感器數(shù)據(jù)等物理世界信息結(jié)合,機器人能夠理解復(fù)雜指令(如“撿起掉落的錘子”)并適應(yīng)新環(huán)境執(zhí)行任務(wù)。Meta Llama系列的開源多模態(tài)框架(如MultiPLY)進一步促進了對物理環(huán)境的3D感知研究。

由上,從概念推演到落地實踐,世界模型在發(fā)展中逐步摸索,漸漸走出一條從混沌到清明的路。

wKgZO2f3wmqAEHVBAAIGV0l8Bw4836.jpg

Transformer架構(gòu)的進化、多模態(tài)數(shù)據(jù)的爆發(fā),讓世界模型走出訓(xùn)練場,走進游戲場,再走向真實世界——谷歌、騰訊通過其生成逼真的游戲場景,特斯拉用神經(jīng)網(wǎng)絡(luò)預(yù)測車輛軌跡,DeepMind通過建模預(yù)測全球天氣。

就這樣,在實驗室中蹣跚學(xué)步的世界模型開始了他對現(xiàn)實物理規(guī)律的探索之路。

就像人類幼年通過游戲感受規(guī)則完成社會化一樣,世界模型的第一關(guān)也是游戲。

初期的模型應(yīng)用仰賴規(guī)則明確的虛擬環(huán)境和邊界清晰的離散空間,如Atari游戲(DQN)、星際爭霸(AlphaStar),采用表格型模型(如Dyna),后期結(jié)合CNN/RNN處理圖像輸入。

進化至3D版后,谷歌DeepMind的Genie 2可通過單張圖片生成可交互的無限3D世界,時長達1min,用戶可自由探索動態(tài)環(huán)境(如地形變化、物體互動)。由騰訊、港科大、中國科大聯(lián)合推出的GameGen-O模型可一鍵生成西部牛仔、魔法師、馴獸師等游戲角色,還能以更高保真度、更復(fù)雜的物理效果生成海嘯、龍卷風(fēng)、激光等各種場景。

經(jīng)過大量訓(xùn)練后,世界模型由游戲過渡到工業(yè)場景。

游戲引擎的核心能力在于構(gòu)建高保真、可交互的3D虛擬環(huán)境。這種能力被直接遷移到工業(yè)場景中,用于模擬工業(yè)場景中各種可能出現(xiàn)故障的復(fù)雜場景。

機器人公司波士頓動力在虛擬環(huán)境中預(yù)演機器人動作(如摔倒恢復(fù)),再遷移到實體機器;特斯拉2023年提出的世界模型直接整合了游戲引擎的仿真技術(shù),利用合成數(shù)據(jù)訓(xùn)練自動駕駛系統(tǒng),減少對真實路測數(shù)據(jù)的依賴;蔚來的智能世界模型能夠在極短時間內(nèi)推演數(shù)百種可能情境并做好預(yù)案和決策。

最近,世界模型還走進了基礎(chǔ)研究領(lǐng)域。

DeepMind的GraphCast靠世界模型處理百萬級網(wǎng)格氣象變量,預(yù)測天氣能力比傳統(tǒng)數(shù)值模擬快1000倍,能耗降低1000倍。它通過圖神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠直接從歷史再分析數(shù)據(jù)中學(xué)習(xí)天氣系統(tǒng)的復(fù)雜動力學(xué),精準(zhǔn)、高效預(yù)測全球天氣。

從游戲般的虛擬場景到自動駕駛等現(xiàn)實場景,世界模型的本質(zhì)是通過大量多模態(tài)資料理解物理世界的規(guī)律。未來,“世界模型+大語言模型”可能成為AGI的核心架構(gòu),讓AI不僅能聊天,還能真正理解并做出決策改變現(xiàn)實世界。

不過,我們?yōu)楹涡枰澜缒P??在大語言模型火爆全球的今天,是什么讓其顯得不可替代呢?

wKgZO2f3wmyAb_ohAAJwYcdfFpw084.jpg

讓AI真正從模仿表征到感知本質(zhì),克服其各種恐怖谷效應(yīng)的關(guān)鍵是:讓它真正理解這個世界,了解現(xiàn)實空間和物理規(guī)律,進而理解它為什么會做這件事,而不是機械地根據(jù)海量數(shù)據(jù)的關(guān)聯(lián)概率推測下一個token是什么。

這是基于大規(guī)模文本語料的大語言模型和不斷試錯優(yōu)化尋找最優(yōu)路徑的強化學(xué)習(xí)做不到的,只有世界模型能做到。

傳統(tǒng)AI是數(shù)據(jù)驅(qū)動型的被動反應(yīng)系統(tǒng),而世界模型通過構(gòu)建內(nèi)部虛擬環(huán)境理解了物理、碰撞等現(xiàn)實規(guī)律,能夠像人類一樣通過想象預(yù)演行動后果,并在游戲、機器人等領(lǐng)域共享底層推理算力。

首先是通過底層建模和多模態(tài)整合構(gòu)建出跟人類一樣的心智模型。外部,世界模型不僅模擬物理規(guī)律,還試圖理解社會規(guī)則和生物行為,從而在復(fù)雜場景中趨利避害。內(nèi)部,世界模型根據(jù)感知、預(yù)測、規(guī)劃和學(xué)習(xí)的協(xié)同,形成類似人類心智的時空認知能力。

其次是因果預(yù)測和反事實推理能力。世界模型能夠基于當(dāng)前狀態(tài)和行動,預(yù)測未來的演變結(jié)果。其具備類似人類的常識庫,能填補缺失信息并進行反事實推理(what if),即使未直接觀察某事件,也能推斷“如果采取不同行動會如何”。這種能力使其在數(shù)據(jù)稀缺時仍能有效決策,減少對海量標(biāo)注數(shù)據(jù)的依賴,在自動駕駛領(lǐng)域應(yīng)用較多。

最后,世界模型通過自監(jiān)督學(xué)習(xí)構(gòu)建對世界的通用表征,獲得了跨任務(wù)、跨場景的泛化能力,而傳統(tǒng)模型通常需針對特定領(lǐng)域的具體任務(wù)微調(diào)。

但是,這些能力,為什么火極一時的大語言模型做不到呢?

wKgZO2f3wm2AGQzNAAEnTczKTcE796.jpg

要弄清為什么世界模型的預(yù)測能力和大語言模型的推測token能力不一樣,我們需要弄清一個概念:相關(guān)性≠因果性。前者是概率關(guān)聯(lián)、后者是因果推理。

大語言模型(如GPT系列)側(cè)重于大數(shù)據(jù)驅(qū)動的自回歸學(xué)習(xí),通過海量文本數(shù)據(jù)訓(xùn)練模型以生成文本,本質(zhì)是預(yù)測概率,而世界模型學(xué)派認為自回歸的Transformer無法通往AGI。AI需要具備真正的常識性理解能力,這些能力只能通過深度分析大量照片、音視頻等多模態(tài)數(shù)據(jù)對世界的內(nèi)在表征來獲得。

模型結(jié)構(gòu)層面,大語言模型主要依賴Transformer架構(gòu),通過自注意力機制處理文本序列。世界模型則包含多個模塊,如配置器、感知、世界模型、角色等,能夠估計世界狀態(tài)、預(yù)測變化、尋找最優(yōu)方案。

通俗地講,大語言模型訓(xùn)練出的文本天才是紙上談兵的文將,對常識可能一竅不通。而世界模型更像在建模環(huán)境里身經(jīng)百戰(zhàn)的武將,可以憑直覺和經(jīng)驗預(yù)判對手如何出招。

世界模型雖前景可期,目前依然面臨著一些瓶頸。

算力上,訓(xùn)練世界模型所需要的計算資源遠超大語言模型,且存在“幻覺”(錯誤預(yù)測)問題;泛化能力上,如何平衡模型復(fù)雜度與跨場景適應(yīng)性仍需突破;訓(xùn)練集上,多模態(tài)的數(shù)據(jù)規(guī)模更少,且需深度標(biāo)注,質(zhì)量把關(guān)是重中之重。

如果說類似GPT一樣的大語言模型已經(jīng)到了能言善辯的青春期,世界模型實則還處于牙牙學(xué)語的幼年期。

總的來講,世界模型是深度學(xué)習(xí)之外的另一條探索道路。如果未來深度學(xué)習(xí)陷入發(fā)展瓶頸,世界模型可能是一種備選方案。但現(xiàn)階段,世界模型仍在探索期,我們?nèi)砸獙⒅餍墓欠旁诖笳Z言模型和深度學(xué)習(xí)這條技術(shù)線上。

多點發(fā)力,協(xié)同并進,才能讓AI的成長有更多道路可走。

wKgZO2f3wm6ACDHBAAHebBTAgJE146.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35194

    瀏覽量

    280264
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10801
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛中常提的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型
    的頭像 發(fā)表于 06-24 08:53 ?174次閱讀
    自動駕駛中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    小白學(xué)大模型:訓(xùn)練大語言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У赜?xùn)練大型
    的頭像 發(fā)表于 03-03 11:51 ?742次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:訓(xùn)練大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1773次閱讀
    一文詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?392次閱讀

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    ,大模型世界遠比我想象的要復(fù)雜和深刻。 書中不僅詳細介紹了大模型的構(gòu)建過程,還探討了它們的核心能力和所需的基礎(chǔ)設(shè)施。我特別喜歡的是,書中用通俗易懂的語言,把大
    發(fā)表于 12-20 15:46

    AI大語言模型開發(fā)步驟

    開發(fā)一個高效、準(zhǔn)確的大語言模型是一個復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計、訓(xùn)練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來,AI部落小編為大家詳細闡述AI大語言
    的頭像 發(fā)表于 12-19 11:29 ?911次閱讀

    【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應(yīng)用大模型

    在客服領(lǐng)域是大模型落地場景中最多的,也是最容易實現(xiàn)的。本身客服領(lǐng)域的特點就是問答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學(xué)習(xí)大模型
    發(fā)表于 12-17 16:53

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?532次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?708次閱讀

    云端語言模型開發(fā)方法

    云端語言模型的開發(fā)是一個復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個環(huán)節(jié)。下面,AI部落小編為您分享云端語言模型的開發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?695次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練,是一項技術(shù),我們后面再解釋。 ? 我們現(xiàn)在口頭上常說
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么訓(xùn)練出來的及大<b class='flag-5'>模型</b>作用

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1434次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理

    語言模型如何開發(fā)

    語言模型的開發(fā)是一個復(fù)雜且細致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言模型開發(fā)步驟的介紹,由AI部
    的頭像 發(fā)表于 11-04 10:14 ?608次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中
    發(fā)表于 07-25 14:33