通用機(jī)器人的時代已經(jīng)到來,這得益于機(jī)械電子技術(shù)和機(jī)器人 AI 基礎(chǔ)模型的進(jìn)步。但目前機(jī)器人技術(shù)的發(fā)展仍面臨一個關(guān)鍵挑戰(zhàn):機(jī)器人需要大量的訓(xùn)練數(shù)據(jù)來掌握諸如組裝和檢查之類的技能,而手動演示的方式難以擴(kuò)展?;贜VIDIA Cosmos構(gòu)建的NVIDIA Isaac GR00T-Dreams blueprint,可以通過單張圖像和語言提示生成海量的合成軌跡數(shù)據(jù),能夠有效解決這一難題。
利用 Cosmos 世界基礎(chǔ)模型 (WFMs) 和生成式 AI,開發(fā)者可以快速創(chuàng)建用于訓(xùn)練諸如NVIDIA Isaac GR00T N1.5(全球首個面向人形機(jī)器人推理和技能的開源基礎(chǔ)模型)等模型的數(shù)據(jù)。
本文將介紹 Isaac GR00T-Dreams blueprint,詳述其先進(jìn)功能及其在開發(fā) Isaac GR00T N1.5 基礎(chǔ)模型中的作用。
GR00T-Dreams blueprint 概覽
Isaac GR00T-Dreams blueprint 是用于生成大量合成軌跡數(shù)據(jù)的參考工作流,生成的數(shù)據(jù)可以用于教會人形機(jī)器人在新環(huán)境中執(zhí)行新動作。
借助這一藍(lán)圖,機(jī)器人僅需極少量的人類演示數(shù)據(jù),就能夠泛化各種行為,并適應(yīng)新的環(huán)境。因此,一個小型人類演示團(tuán)隊就能創(chuàng)造出以往需要數(shù)千人才能產(chǎn)出的訓(xùn)練數(shù)據(jù)量。
GR00T-Dreams blueprint 是對Isaac GR00T-Mimic blueprint的補(bǔ)充。通過使用NVIDIA Omniverse和 Cosmos Transfer-1 WFM 擴(kuò)展已知任務(wù)的現(xiàn)有演示數(shù)據(jù),GR00T-Mimic 可幫助機(jī)器人培養(yǎng)深度熟練程度,并成為這些特定技能的專家。GR00T-Dreams 采用 Cosmos Predict-2 和 Cosmos Reason 為新任務(wù)和環(huán)境生成全新數(shù)據(jù),致力于使機(jī)器人成為具有廣泛適應(yīng)性的通用機(jī)器人。
GR00T-Dreams blueprint 工作流
該藍(lán)圖為訓(xùn)練通用機(jī)器人提供強(qiáng)大的“現(xiàn)實到現(xiàn)實 (real-to-real)”數(shù)據(jù)工作流,使用真實機(jī)器人數(shù)據(jù)創(chuàng)建合成軌跡,然后用于訓(xùn)練物理機(jī)器人。這種方法顯著減少了對大量人類演示的需求。具體步驟如下:
圖 1. GR00T-Dreams blueprint 架構(gòu)
第一步:利用人類演示進(jìn)行后訓(xùn)練
首先,開發(fā)者收集用于人形機(jī)器人在單一環(huán)境中執(zhí)行單一任務(wù)(如抓取與放置)的一組有限的人類遠(yuǎn)程操作軌跡。然后利用這些真實世界數(shù)據(jù)對 Cosmos Predict-2 世界基礎(chǔ)模型進(jìn)行后訓(xùn)練。這一步驟可讓模型學(xué)習(xí)該機(jī)器人特有的特定移動能力和功能約束。
第二步:生成“夢境”
接下來,開發(fā)者向經(jīng)過微調(diào)的 Cosmos 模型輸入初始圖像和基于文本的新指令,要求生成的機(jī)器人執(zhí)行相應(yīng)動作。這會促使生成式模型創(chuàng)建大量多樣化和新穎的任務(wù)場景或未來世界狀態(tài)(也稱為“夢境”),例如打開、關(guān)閉、整理物體、清潔和分類等。這些場景以 2D 視頻的形式創(chuàng)建。
第三步:推理和過濾
生成大量“夢境”后,Cosmos Reason 模型可用于評估每個“夢境”的質(zhì)量和成功率。它會過濾掉“不好的夢境”,也就是描繪不成功或有缺陷的任務(wù)嘗試,確保僅讓高質(zhì)量和相關(guān)的場景進(jìn)入下一階段。
第四步:提取神經(jīng)軌跡
選中的“夢境”最初只是 2D 視頻中的像素,隨后利用逆動力學(xué)模型 (IDM) 生成 3D 動作軌跡。IDM是用于動作標(biāo)記的生成式 AI 模型,該模型通過輸入 2D 視頻中的兩個圖像幀,即“之前”和“之后”的畫面,預(yù)測出這兩個畫面之間發(fā)生的一系列動作。
這一步驟將“夢境”視頻中的視覺信息轉(zhuǎn)化為機(jī)器人能夠?qū)W習(xí)的可操作數(shù)據(jù)。這些已添加 3D 動作數(shù)據(jù)的 2D 視頻被稱為神經(jīng)軌跡。
第五步:訓(xùn)練視覺運動策略
最后,這些神經(jīng)軌跡作為大規(guī)模的合成數(shù)據(jù)集,用于訓(xùn)練視覺運動策略,既可以與真實世界數(shù)據(jù)協(xié)同訓(xùn)練以增強(qiáng)性能,也可以僅通過對這些數(shù)據(jù)進(jìn)行訓(xùn)練,來實現(xiàn)對新行為和不可見環(huán)境的泛化。
用于機(jī)器人學(xué)習(xí)的高級功能
GR00T-Dreams 為機(jī)器人學(xué)習(xí)提供了先進(jìn)的功能,包括新行為、新環(huán)境等。
新行為:即使僅有單一任務(wù)(例如抓取與放置)的訓(xùn)練數(shù)據(jù),機(jī)器人也能從語言指令中學(xué)習(xí)新動作。
由 GR00T-Dreams 支持的機(jī)器人打開筆記本電腦的神經(jīng)軌跡和真實機(jī)器人 (Fourier GR-1) 執(zhí)行情況
新環(huán)境:即使世界模型僅在一個實驗室環(huán)境中訓(xùn)練過,機(jī)器人也能夠泛化到完全未見過的環(huán)境。
由 GR00T-Dreams 支持的機(jī)器人將橘子放入碗中的神經(jīng)軌跡和真實機(jī)器人 (Fourier GR-1) 執(zhí)行情況
多種機(jī)器人類型:適用于從人形機(jī)器人到機(jī)械臂(如 Franka 和 SO-100)等不同類型的機(jī)器人,并支持多種攝像頭視圖。
由 GR00T-Dreams 支持的 Franka 機(jī)械臂和 SO-100 機(jī)械臂執(zhí)行不同操作任務(wù)
針對復(fù)雜任務(wù)增強(qiáng)學(xué)習(xí):為具有挑戰(zhàn)性的接觸密集型任務(wù),比如操作可變形物體(折疊)或使用工具(錘擊)等增強(qiáng)訓(xùn)練數(shù)據(jù),形成從初始真實畫面開始的“真實到真實”工作流。
由 GR00T-Dreams 支持的機(jī)器人錘擊操作的神經(jīng)軌跡和真實機(jī)器人 (Fourier GR-1) 執(zhí)行情況
使用 GR00T-Dreams
對 GR00T N1.5 進(jìn)行后訓(xùn)練
可以使用 GR00T-Dreams 對視覺語言動作 (VLA) 模型進(jìn)行后訓(xùn)練,以在未見過的環(huán)境中實現(xiàn)新行為和操作。
NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成訓(xùn)練數(shù)據(jù),僅用 36 小時就完成了 GR00T N1.5 的開發(fā)。如果使用人工收集人類數(shù)據(jù),這一過程需要近三個月的時間。
GR00T N1.5 是 GR00T N1 的首次更新,GR00T N1 是全球首個面向通用人形機(jī)器人推理和技能的開源基礎(chǔ)模型。這個跨形態(tài)模型可以接收語言和圖像等多模態(tài)輸入,在多樣化的環(huán)境中執(zhí)行操作任務(wù)。
GR00T N1.5 的新功能:
提高對語言指令的理解準(zhǔn)確性
借助 Isaac GR00T-Dreams,增強(qiáng)對新物體和新環(huán)境的泛化能力
通過 Eagle 2.5 提供更好的空間理解和開放世界視覺定位,提升視覺語言基礎(chǔ)
在材料處理和制造任務(wù)中成功率更高
開源的 NVIDIA 物理 AI 數(shù)據(jù)集
NVIDIA 擴(kuò)展了其開源物理AI數(shù)據(jù)集。該數(shù)據(jù)集是 Hugging Face 上下載量最多的機(jī)器人數(shù)據(jù)集,最初于 2025 年 3 月推出,如今新增了數(shù)千條機(jī)器人軌跡,包括 Unitree G1 機(jī)器人的首批真實訓(xùn)練數(shù)據(jù)和 24,000 條仿真遠(yuǎn)程操作軌跡。
該數(shù)據(jù)集還包含各種操作任務(wù)的合成仿真數(shù)據(jù),在開發(fā) GR00T N1.5 的過程中發(fā)揮了重要的作用。
GR00T N 模型在機(jī)器人生態(tài)系統(tǒng)的應(yīng)用
GR00T N 模型已經(jīng)被很多生態(tài)合作伙伴采用,包括 AeiRobot、Foxlink、光輪智能和 NEURA Robotics 等。
AeiRobot 利用這一模型使其工業(yè)機(jī)器人能夠理解自然語言,從而完成復(fù)雜的抓取與放置任務(wù)。Foxlink 利用這一模型提高其工業(yè)機(jī)械臂的靈活性和效率。光輪智能借助這一模型驗證合成數(shù)據(jù),以加快人形機(jī)器人在工廠中的部署。NEURA Robotics 正在評估這一模型,以加速其家用自動化系統(tǒng)的開發(fā)。
開始加速機(jī)器人學(xué)習(xí)
Isaac GR00T-Dreams blueprint 是用于生成大量合成軌跡數(shù)據(jù)的參考工作流,這些數(shù)據(jù)可用于教會人形機(jī)器人在新環(huán)境中執(zhí)行新動作。這一藍(lán)圖使機(jī)器人僅需極少量的人類演示數(shù)據(jù),就能夠泛化各種行為,并適應(yīng)新的環(huán)境。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106412 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50426 -
人形機(jī)器人
+關(guān)注
關(guān)注
7文章
739瀏覽量
17627
原文標(biāo)題:通過世界基礎(chǔ)模型生成的合成軌跡數(shù)據(jù)增強(qiáng)機(jī)器人學(xué)習(xí)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

如何本地部署NVIDIA Cosmos Reason-1-7B模型
NVIDIA Isaac Sim和Isaac Lab現(xiàn)已推出早期開發(fā)者預(yù)覽版
在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型
NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
NVIDIA Cosmos加速機(jī)器人和自動駕駛汽車物理AI發(fā)展

英偉達(dá)GTC2025亮點 NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新
深度解讀英偉達(dá)Newton機(jī)器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

英偉達(dá)推出基石世界模型Cosmos,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問題

評論