英偉達(dá)近期發(fā)布的Cosmos-Reason1模型在物理常識(shí)推理領(lǐng)域引發(fā)廣泛關(guān)注。作為專為物理世界交互設(shè)計(jì)的多模態(tài)大語言模型,它通過融合視覺感知與復(fù)雜邏輯推理,重新定義了AI對(duì)物理世界的理解邊界。以下從技術(shù)架構(gòu)、訓(xùn)練策略、核心能力及行業(yè)影響四方面展開深度解讀:
Cosmos-Reason 1:從物理 AI 常識(shí)到具體決策
物理 AI 系統(tǒng)需要感知、理解和執(zhí)行物理世界中的復(fù)雜作。在本文中,我們提出了 Cosmos-Reason1 模型,該模型可以理解物理世界并通過長鏈推理過程以自然語言生成適當(dāng)?shù)木唧w決策(例如,下一步行動(dòng))。我們首先定義物理 AI 推理的關(guān)鍵功能,重點(diǎn)介紹物理常識(shí)和具身推理。為了表示物理常識(shí),我們使用了分層本體,它捕獲了有關(guān)空間、時(shí)間和物理學(xué)的基本知識(shí)。對(duì)于具身推理,我們依賴于一個(gè)二維本體論,它泛化了不同的物理體現(xiàn)?;谶@些功能,我們開發(fā)了兩個(gè)多模態(tài)大型語言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我們分四個(gè)階段整理數(shù)據(jù)和訓(xùn)練我們的模型:視覺預(yù)訓(xùn)練、一般監(jiān)督微調(diào) (SFT)、物理 AI SFT 和物理 AI 強(qiáng)化學(xué)習(xí) (RL) 作為后訓(xùn)練。為了評(píng)估我們的模型,我們根據(jù)我們的本體為物理常識(shí)和具體推理構(gòu)建了全面的基準(zhǔn)。評(píng)估結(jié)果表明,Physical AI SFT 和強(qiáng)化學(xué)習(xí)帶來了顯著的改進(jìn)。為了促進(jìn)物理 AI 的開發(fā),我們將在 NVIDIA 開放模型許可下提供我們的代碼和預(yù)訓(xùn)練模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。
作者
出版日期
2025 年 3 月 18 日,星期二
研究領(lǐng)域
一、技術(shù)架構(gòu):混合架構(gòu)突破物理推理瓶頸
Cosmos-Reason1采用 Mamba-MLP-Transformer混合架構(gòu) ,這是英偉達(dá)對(duì)物理AI領(lǐng)域的一次重要?jiǎng)?chuàng)新:
- 視覺編碼器 :使用InternViT-300M-V2.5處理圖像/視頻,將視覺信息壓縮為256個(gè)token,保留全局上下文。
- 模態(tài)對(duì)齊 :通過兩層MLP投影器,將視覺token映射到文本嵌入空間,實(shí)現(xiàn)視覺與語言模態(tài)的統(tǒng)一處理。
- 混合解碼器 :結(jié)合Mamba架構(gòu)(擅長空間關(guān)系建模)與Transformer(長程依賴捕捉),彌補(bǔ)純Transformer在空間理解上的短板。
該架構(gòu)支持80億(8B)和560億(56B)參數(shù)兩種規(guī)模,訓(xùn)練時(shí)分別采用張量并行(TP=4)和流水線并行(TP=8+PP=2),可處理長達(dá)32幀的視頻輸入。
二、訓(xùn)練策略:四階段強(qiáng)化物理常識(shí)
模型訓(xùn)練分為四個(gè)遞進(jìn)階段,體現(xiàn)英偉達(dá)在物理AI數(shù)據(jù)構(gòu)建上的深度思考:
- 視覺預(yù)訓(xùn)練 :
- 使用1.3億圖像文本對(duì)(含模型生成字幕)對(duì)齊視覺與語言模態(tài)。
- 僅訓(xùn)練MLP投影器,凍結(jié)LLM主干以保留語言理解能力。
- 通用監(jiān)督微調(diào)(SFT) :
- 在600萬圖像+200萬視頻文本數(shù)據(jù)上微調(diào),增強(qiáng)基礎(chǔ)視覺語言任務(wù)能力。
- 數(shù)據(jù)覆蓋字幕生成、視覺問答等通用任務(wù)。
- 物理AI監(jiān)督微調(diào) :
- 創(chuàng)新構(gòu)建物理常識(shí)與具身推理專用數(shù)據(jù)集,包含:
- 物理常識(shí)VQA :通過模型生成假設(shè)性問題(如“若視頻中的扳手松動(dòng),會(huì)如何運(yùn)動(dòng)?”),并提取推理軌跡。
- 具身推理SFT :從人機(jī)協(xié)作視頻中分解短時(shí)動(dòng)作片段,標(biāo)注任務(wù)完成驗(yàn)證、行動(dòng)可行性等推理標(biāo)簽。
- 創(chuàng)新構(gòu)建物理常識(shí)與具身推理專用數(shù)據(jù)集,包含:
- 強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練 :
- 設(shè)計(jì)基于物理規(guī)則的獎(jiǎng)勵(lì)機(jī)制,優(yōu)化復(fù)雜場景下的推理能力。例如:
- 時(shí)間箭頭檢測 :判斷視頻是否正序播放。
- 空間謎題 :推理物體在遮擋后的位置。
- 物體永久性 :理解被遮擋物體持續(xù)存在的物理法則。
- 設(shè)計(jì)基于物理規(guī)則的獎(jiǎng)勵(lì)機(jī)制,優(yōu)化復(fù)雜場景下的推理能力。例如:
三、核心能力:三維物理世界的“牛頓式”推理
模型在物理常識(shí)與具身推理基準(zhǔn)測試上表現(xiàn)出色,具體體現(xiàn)在:
- 物理法則內(nèi)化 :
- 通過16層知識(shí)圖譜編碼重力、慣性等基礎(chǔ)物理定律。例如:
- 能計(jì)算“暴雨中卡車打滑需提前0.3秒修正方向”。
- 預(yù)判“機(jī)械臂扭矩超限可能導(dǎo)致設(shè)備損壞”。
- 通過16層知識(shí)圖譜編碼重力、慣性等基礎(chǔ)物理定律。例如:
- 長鏈思考能力 :
- 生成包含37步的維修操作思維鏈,細(xì)節(jié)精確到“砂石地面禁用千斤頂”。
- 在自動(dòng)駕駛場景中,200毫秒內(nèi)完成“后視鏡影像識(shí)別→相對(duì)速度計(jì)算→碰撞預(yù)判→決策延遲變道”的完整推理。
- 跨模態(tài)一致性 :
- 統(tǒng)一處理圖像、視頻、文本模態(tài)。例如:
- 通過熱成像視頻判斷火災(zāi)現(xiàn)場承重墻狀態(tài),規(guī)劃逃生路徑。
- 解析“用扳手敲擊玻璃”的視頻后,能推理出“玻璃可能破裂”的結(jié)論。
- 統(tǒng)一處理圖像、視頻、文本模態(tài)。例如:
四、行業(yè)影響:物理世界的決策革命
Cosmos-Reason1的突破將重塑多個(gè)領(lǐng)域:
- 自動(dòng)駕駛 :
- 超越傳統(tǒng)視覺識(shí)別,實(shí)現(xiàn)物理預(yù)判。例如:
- 預(yù)判道路施工并提前規(guī)劃變道,計(jì)算車流間隙是否滿足2.3秒變道時(shí)間。
- 超越傳統(tǒng)視覺識(shí)別,實(shí)現(xiàn)物理預(yù)判。例如:
- 工業(yè)機(jī)器人 :
- 使機(jī)械臂具備“物理直覺”。如:
- 抓取零件時(shí)主動(dòng)預(yù)警“當(dāng)前扭矩超出軸承極限”,建議功率下調(diào)15%。
- 使機(jī)械臂具備“物理直覺”。如:
- 物理模擬與訓(xùn)練 :
- 開源生態(tài)布局 :
總結(jié):物理AI的“認(rèn)知飛輪”
Cosmos-Reason1通過混合架構(gòu)、強(qiáng)化學(xué)習(xí)、物理法則編碼三大創(chuàng)新,構(gòu)建了從感知到推理的完整閉環(huán)。它不再是被動(dòng)的“觀察者”,而是能主動(dòng)運(yùn)用物理法則進(jìn)行決策的“參與者”。這種能力可能催生新一代具身智能體,在物理世界中展現(xiàn)出更接近人類的智能行為。
-
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49817 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3900瀏覽量
92900
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

加速拋棄英偉達(dá),微軟又發(fā)布一顆芯片 #微軟 #英偉達(dá) #半導(dǎo)體 #芯片 #電路知識(shí)
超越英偉達(dá)Pascal五倍?揭秘英特爾深度學(xué)習(xí)芯片架構(gòu) 精選資料推薦
英偉達(dá)DPU的過“芯”之處
英偉達(dá)市價(jià)突破1萬億美元
英偉達(dá)發(fā)布人形機(jī)器人基礎(chǔ)模型
英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM
英偉達(dá)Cosmos AI項(xiàng)目曝光:構(gòu)建先進(jìn)視頻模型
英偉達(dá)推出Eagle系列模型
黃仁勛:英偉達(dá)正發(fā)起芯片革命 RTX5090售價(jià)1999美元
英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型
英偉達(dá)推出基石世界模型Cosmos,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問題

評(píng)論