在OpenAI研發(fā)出Sora后不久,谷歌Deep Mind團隊公開了在世界模型領(lǐng)域的新進展——基礎(chǔ)世界模型Genie。該模型主要借鑒非對抗方式進行訓(xùn)練,可根據(jù)各類圖像乃至草圖生成具有豐富動作表現(xiàn)的2D世界,從而實現(xiàn)人們與虛構(gòu)世界的深度互動。只需輸入一張圖像,Genie便可構(gòu)建一個全新的交互環(huán)境。
DeepMind指出,Genie有能力根據(jù)最新的文生圖大模型生成初始幀,再借助Genie的能力賦予這些圖像更深層次的含義。Genie作為一個包含110億參數(shù)的基礎(chǔ)世界模型,成功研發(fā)得益于谷歌聲名在外的潛在動作模型,用于推斷視頻幀間的運動,視頻分詞器則可以將原始視頻幀轉(zhuǎn)化為離散標(biāo)記,而動態(tài)模型則負責(zé)預(yù)測下一幀的活動情況。
值得注意的是,相較于號稱“高清晰度、高真實感”的Sora, Genie似乎更注重潛在行為的預(yù)測,而不是極力展現(xiàn)畫面的真實性。現(xiàn)階段,從圖像或文本中生成高質(zhì)量視頻尚未成為Genie關(guān)注的核心業(yè)務(wù)點。DeepMind進一步透露,Genie主要圍繞“2D平臺類游戲及大約率算法”展開應(yīng)用,這種處理方法具有廣泛適應(yīng)性,可應(yīng)用于各領(lǐng)域,也可以擴展至更大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)集。
然而,這個還在試驗階段的Genie尚不能視為商業(yè)產(chǎn)品問世。據(jù)DeepMind人士解釋,Genie的訓(xùn)練視頻為160x90像素且每秒僅10幀的超低分辨率視頻,生成的模擬游戲以每秒1幀的速率運行。因此,實際場景更為復(fù)雜且要求更高實時性的商業(yè)應(yīng)用仍需耐心等待解決方案。
-
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
11573 -
genie
+關(guān)注
關(guān)注
0文章
7瀏覽量
4337 -
OpenAI
+關(guān)注
關(guān)注
9文章
1207瀏覽量
8909 -
大模型
+關(guān)注
關(guān)注
2文章
3139瀏覽量
4064
發(fā)布評論請先 登錄
機器人看點:越疆機器人正式發(fā)布六足仿生機器狗 智元公布機器人運動控制模型專利
盤點#機器人開發(fā)平臺
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書
大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品
名單公布!【書籍評測活動NO.58】ROS 2智能機器人開發(fā)實踐
普渡機器人接入DeepSeek滿血版模型
【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊
【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型
【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
Google DeepMind發(fā)布Genie 2:打造交互式3D虛擬世界
名單公布!【書籍評測活動NO.51】具身智能機器人系統(tǒng) | 了解AI的下一個浪潮!
引領(lǐng)通用具身新時代:普渡發(fā)布首款類人形機器人PUDU D7

智能移動機器人

評論