一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)Cosmos-Reason1 模型深度解讀

eeDesigner ? 2025-03-29 23:29 ? 次閱讀

英偉達(dá)近期發(fā)布的Cosmos-Reason1模型在物理常識(shí)推理領(lǐng)域引發(fā)廣泛關(guān)注。作為專為物理世界交互設(shè)計(jì)的多模態(tài)大語言模型,它通過融合視覺感知與復(fù)雜邏輯推理,重新定義了AI對(duì)物理世界的理解邊界。以下從技術(shù)架構(gòu)、訓(xùn)練策略、核心能力及行業(yè)影響四方面展開深度解讀:

Cosmos-Reason 1:從物理 AI 常識(shí)到具體決策

物理 AI 系統(tǒng)需要感知、理解和執(zhí)行物理世界中的復(fù)雜作。在本文中,我們提出了 Cosmos-Reason1 模型,該模型可以理解物理世界并通過長鏈推理過程以自然語言生成適當(dāng)?shù)木唧w決策(例如,下一步行動(dòng))。我們首先定義物理 AI 推理的關(guān)鍵功能,重點(diǎn)介紹物理常識(shí)和具身推理。為了表示物理常識(shí),我們使用了分層本體,它捕獲了有關(guān)空間、時(shí)間和物理學(xué)的基本知識(shí)。對(duì)于具身推理,我們依賴于一個(gè)二維本體論,它泛化了不同的物理體現(xiàn)?;谶@些功能,我們開發(fā)了兩個(gè)多模態(tài)大型語言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我們分四個(gè)階段整理數(shù)據(jù)和訓(xùn)練我們的模型:視覺預(yù)訓(xùn)練、一般監(jiān)督微調(diào) (SFT)、物理 AI SFT 和物理 AI 強(qiáng)化學(xué)習(xí) (RL) 作為后訓(xùn)練。為了評(píng)估我們的模型,我們根據(jù)我們的本體為物理常識(shí)和具體推理構(gòu)建了全面的基準(zhǔn)。評(píng)估結(jié)果表明,Physical AI SFT 和強(qiáng)化學(xué)習(xí)帶來了顯著的改進(jìn)。為了促進(jìn)物理 AI 的開發(fā),我們將在 NVIDIA 開放模型許可下提供我們的代碼和預(yù)訓(xùn)練模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。

作者

林宗義劉明宇

出版日期

2025 年 3 月 18 日,星期二

研究領(lǐng)域

自動(dòng)駕駛汽車

生成式 AI

物理 AI

機(jī)器人

上傳的文件:*附件:Cosmos_Reason1_Paper.pdf

一、技術(shù)架構(gòu):混合架構(gòu)突破物理推理瓶頸

Cosmos-Reason1采用 Mamba-MLP-Transformer混合架構(gòu) ,這是英偉達(dá)對(duì)物理AI領(lǐng)域的一次重要?jiǎng)?chuàng)新:

  1. 視覺編碼器 :使用InternViT-300M-V2.5處理圖像/視頻,將視覺信息壓縮為256個(gè)token,保留全局上下文。
  2. 模態(tài)對(duì)齊 :通過兩層MLP投影器,將視覺token映射到文本嵌入空間,實(shí)現(xiàn)視覺與語言模態(tài)的統(tǒng)一處理。
  3. 混合解碼器 :結(jié)合Mamba架構(gòu)(擅長空間關(guān)系建模)與Transformer(長程依賴捕捉),彌補(bǔ)純Transformer在空間理解上的短板。

該架構(gòu)支持80億(8B)和560億(56B)參數(shù)兩種規(guī)模,訓(xùn)練時(shí)分別采用張量并行(TP=4)和流水線并行(TP=8+PP=2),可處理長達(dá)32幀的視頻輸入。

二、訓(xùn)練策略:四階段強(qiáng)化物理常識(shí)

模型訓(xùn)練分為四個(gè)遞進(jìn)階段,體現(xiàn)英偉達(dá)在物理AI數(shù)據(jù)構(gòu)建上的深度思考:

  1. 視覺預(yù)訓(xùn)練
    • 使用1.3億圖像文本對(duì)(含模型生成字幕)對(duì)齊視覺與語言模態(tài)。
    • 僅訓(xùn)練MLP投影器,凍結(jié)LLM主干以保留語言理解能力。
  2. 通用監(jiān)督微調(diào)(SFT)
    • 在600萬圖像+200萬視頻文本數(shù)據(jù)上微調(diào),增強(qiáng)基礎(chǔ)視覺語言任務(wù)能力。
    • 數(shù)據(jù)覆蓋字幕生成、視覺問答等通用任務(wù)。
  3. 物理AI監(jiān)督微調(diào)
    • 創(chuàng)新構(gòu)建物理常識(shí)與具身推理專用數(shù)據(jù)集,包含:
      • 物理常識(shí)VQA :通過模型生成假設(shè)性問題(如“若視頻中的扳手松動(dòng),會(huì)如何運(yùn)動(dòng)?”),并提取推理軌跡。
      • 具身推理SFT :從人機(jī)協(xié)作視頻中分解短時(shí)動(dòng)作片段,標(biāo)注任務(wù)完成驗(yàn)證、行動(dòng)可行性等推理標(biāo)簽。
  4. 強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練
    • 設(shè)計(jì)基于物理規(guī)則的獎(jiǎng)勵(lì)機(jī)制,優(yōu)化復(fù)雜場景下的推理能力。例如:
      • 時(shí)間箭頭檢測 :判斷視頻是否正序播放。
      • 空間謎題 :推理物體在遮擋后的位置。
      • 物體永久性 :理解被遮擋物體持續(xù)存在的物理法則。

三、核心能力:三維物理世界的“牛頓式”推理

模型在物理常識(shí)與具身推理基準(zhǔn)測試上表現(xiàn)出色,具體體現(xiàn)在:

  1. 物理法則內(nèi)化
    • 通過16層知識(shí)圖譜編碼重力、慣性等基礎(chǔ)物理定律。例如:
      • 能計(jì)算“暴雨中卡車打滑需提前0.3秒修正方向”。
      • 預(yù)判“機(jī)械臂扭矩超限可能導(dǎo)致設(shè)備損壞”。
  2. 長鏈思考能力
    • 生成包含37步的維修操作思維鏈,細(xì)節(jié)精確到“砂石地面禁用千斤頂”。
    • 自動(dòng)駕駛場景中,200毫秒內(nèi)完成“后視鏡影像識(shí)別→相對(duì)速度計(jì)算→碰撞預(yù)判→決策延遲變道”的完整推理。
  3. 跨模態(tài)一致性
    • 統(tǒng)一處理圖像、視頻、文本模態(tài)。例如:
      • 通過熱成像視頻判斷火災(zāi)現(xiàn)場承重墻狀態(tài),規(guī)劃逃生路徑。
      • 解析“用扳手敲擊玻璃”的視頻后,能推理出“玻璃可能破裂”的結(jié)論。

四、行業(yè)影響:物理世界的決策革命

Cosmos-Reason1的突破將重塑多個(gè)領(lǐng)域:

  1. 自動(dòng)駕駛
    • 超越傳統(tǒng)視覺識(shí)別,實(shí)現(xiàn)物理預(yù)判。例如:
      • 預(yù)判道路施工并提前規(guī)劃變道,計(jì)算車流間隙是否滿足2.3秒變道時(shí)間。
  2. 工業(yè)機(jī)器人
    • 使機(jī)械臂具備“物理直覺”。如:
      • 抓取零件時(shí)主動(dòng)預(yù)警“當(dāng)前扭矩超出軸承極限”,建議功率下調(diào)15%。
  3. 物理模擬與訓(xùn)練
    • 可生成高真實(shí)度虛擬場景,加速機(jī)器人訓(xùn)練。例如:
      • 在模擬的十萬次車禍中優(yōu)化應(yīng)急決策算法。
  4. 開源生態(tài)布局
    • 英偉達(dá)開放8B模型及訓(xùn)練框架,吸引開發(fā)者進(jìn)入CUDA生態(tài)。企業(yè)若需更高性能,可能轉(zhuǎn)向其DGX服務(wù)器和Blackwell芯片。

總結(jié):物理AI的“認(rèn)知飛輪”

Cosmos-Reason1通過混合架構(gòu)、強(qiáng)化學(xué)習(xí)、物理法則編碼三大創(chuàng)新,構(gòu)建了從感知到推理的完整閉環(huán)。它不再是被動(dòng)的“觀察者”,而是能主動(dòng)運(yùn)用物理法則進(jìn)行決策的“參與者”。這種能力可能催生新一代具身智能體,在物理世界中展現(xiàn)出更接近人類的智能行為。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3464

    瀏覽量

    49817
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3900

    瀏覽量

    92900
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    。 **英偉達(dá)Blackwell架構(gòu)在數(shù)據(jù)中心方面的應(yīng)用有哪些?** 1. **AI **大模型訓(xùn)練 Blackwell 架構(gòu)的 GPU 針對(duì)當(dāng)前火爆的 AI 大
    發(fā)表于 05-13 17:16

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    超越英偉達(dá)Pascal五倍?揭秘英特爾深度學(xué)習(xí)芯片架構(gòu) 精選資料推薦

    在被英特爾收購兩年之后,深度學(xué)習(xí)芯片公司 Nervana 終于準(zhǔn)備將代號(hào)為「Lake Crest」的架構(gòu)轉(zhuǎn)化為實(shí)際的產(chǎn)品了。對(duì)于英特爾來說,現(xiàn)在入局或許有些遲到,英偉達(dá)已經(jīng)占據(jù)深度學(xué)習(xí)
    發(fā)表于 07-26 07:04

    英偉達(dá)DPU的過“芯”之處

    ,AI硬件正成為越來越多數(shù)據(jù)中心擴(kuò)容建設(shè)的關(guān)鍵所在。當(dāng)超強(qiáng)AI算力成為數(shù)據(jù)中心的剛需,英偉達(dá)GPU憑借強(qiáng)大的并行計(jì)算和浮點(diǎn)能力,突破了深度學(xué)習(xí)的算力瓶頸,成為AI硬件的首選。這一契機(jī)才使得英偉
    發(fā)表于 03-29 14:42

    英偉達(dá)市價(jià)突破1萬億美元

    但此后英偉達(dá)股價(jià)轉(zhuǎn)為下跌趨勢,最終上漲2.99%,達(dá)到401.11美元,市價(jià)僅為9920億美元。要想維持市價(jià)總額1萬億美元,英偉達(dá)的股價(jià)必須
    的頭像 發(fā)表于 05-31 10:30 ?831次閱讀

    英偉達(dá)發(fā)布人形機(jī)器人基礎(chǔ)模型

    英偉達(dá)在一年一度的GTC開發(fā)者大會(huì)上,由創(chuàng)始人黃仁勛親自揭曉了令人矚目的Project GR00T人形機(jī)器人項(xiàng)目,其中引人注目的是一款全新的人形機(jī)器人基礎(chǔ)模型。這款模型
    的頭像 發(fā)表于 03-21 11:43 ?998次閱讀

    英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

    英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡化AI模型部署過程,為全球的2800萬英偉
    的頭像 發(fā)表于 06-04 09:15 ?870次閱讀

    英偉達(dá)Cosmos AI項(xiàng)目曝光:構(gòu)建先進(jìn)視頻模型

    近日,英偉達(dá)內(nèi)部一項(xiàng)名為Cosmos的AI項(xiàng)目浮出水面,引起了業(yè)界的廣泛關(guān)注。該項(xiàng)目尚處于保密階段,未向公眾正式發(fā)布,但其雄心勃勃的目標(biāo)已初露端倪。Cosmos旨在構(gòu)建一個(gè)集光傳輸、物
    的頭像 發(fā)表于 08-07 16:51 ?721次閱讀

    英偉達(dá)推出Eagle系列模型

    英偉達(dá)最新推出的Eagle系列模型,以其1024×1024像素的高分辨率處理能力,重新定義了視覺信息處理的邊界。該模型通過多專家視覺編碼器架構(gòu),每個(gè)編碼器專注于特定任務(wù)訓(xùn)練,極大地增強(qiáng)
    的頭像 發(fā)表于 09-03 16:13 ?706次閱讀

    黃仁勛:英偉達(dá)正發(fā)起芯片革命 RTX5090售價(jià)1999美元

    ? 英偉達(dá)創(chuàng)始人、CEO黃仁勛在2025國際消費(fèi)電子展(CES)上發(fā)表開幕主題演講。英偉達(dá)一口氣發(fā)布了多個(gè)新產(chǎn)品,其中就包括首個(gè)生成式世界基礎(chǔ)模型
    的頭像 發(fā)表于 01-07 17:56 ?965次閱讀

    英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型

    近日,在2025年1月6日于拉斯維加斯拉開帷幕的國際消費(fèi)類電子產(chǎn)品展覽會(huì)(CES)上,英偉達(dá)宣布了一項(xiàng)重大創(chuàng)新——Cosmos世界基礎(chǔ)模型
    的頭像 發(fā)表于 01-09 10:23 ?565次閱讀

    英偉達(dá)推出基石世界模型Cosmos,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問題

    CES 2025展會(huì)上,英偉達(dá)推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。 物理
    的頭像 發(fā)表于 01-14 11:04 ?736次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問題

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)大模型
    的頭像 發(fā)表于 03-20 11:05 ?828次閱讀

    英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新

    模型可實(shí)現(xiàn)物理 AI 的預(yù)測、可控世界生成和推理。 兩款全新Blueprint為機(jī)器人和自動(dòng)駕駛汽車后訓(xùn)練提供海量物理 AI 合成數(shù)據(jù)生成技術(shù)。 1X、Agility Robotics
    的頭像 發(fā)表于 03-20 19:01 ?733次閱讀