基礎(chǔ)模型能為機器人帶來怎樣的可能性？

基礎(chǔ)模型 (Foundation Models) 已經(jīng)在過去幾年里重塑了自然語言處理 (NLP) 和計算機視覺 (CV) 研究的格局，那么基礎(chǔ)模型能為機器人帶來怎樣的可能性？這篇綜述或許有你想要的答案。

機器人是一種擁有無盡可能性的技術(shù)，尤其是當搭配了智能技術(shù)時。近段時間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機器人的智慧大腦，幫助機器人感知和理解這個世界并制定決策和進行規(guī)劃。 ? 近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）領(lǐng)導(dǎo)的一個聯(lián)合團隊發(fā)布了一篇綜述報告，介紹了基礎(chǔ)模型在機器人領(lǐng)域的應(yīng)用和發(fā)展情況。報告的 first aurthor 是 CMU 的博士四年級學(xué)生胡亞飛（Yafei Hu），他的研究集中在機器人和人工智能的交叉應(yīng)用上。與他合作的是謝泉廷（Quanting Xie），專注于通過基礎(chǔ)模型探索具身智能（embodied intelligence）。

開發(fā)能自主適應(yīng)不同環(huán)境的機器人是人類一直以來的一個夢想，但這卻是一條漫長且充滿挑戰(zhàn)的道路。之前，利用傳統(tǒng)深度學(xué)習(xí)方法的機器人感知系統(tǒng)通常需要大量有標注數(shù)據(jù)來訓(xùn)練監(jiān)督學(xué)習(xí)模型，而如果通過眾包方式來標注大型數(shù)據(jù)集，成本又非常高。 ? 此外，由于經(jīng)典監(jiān)督學(xué)習(xí)方法的泛化能力有限，為了將這些模型部署到具體的場景或任務(wù)，這些訓(xùn)練得到的模型通常還需要精心設(shè)計的領(lǐng)域適應(yīng)技術(shù)，而這又通常需要進一步的數(shù)據(jù)收集和標注步驟。類似地，經(jīng)典的機器人規(guī)劃和控制方法通常需要仔細地建模世界、智能體自身的動態(tài)和 / 或其它智能體的動態(tài)。這些模型通常是針對各個具體環(huán)境或任務(wù)構(gòu)建的，而當情況有變時，就需要重新構(gòu)建模型。這說明經(jīng)典模型的遷移性能也有限。 ?

事實上，對于很多用例，構(gòu)建有效模型的成本要么太高，要么就完全無法辦到。盡管基于深度（強化）學(xué)習(xí)的運動規(guī)劃和控制方法有助于緩解這些問題，但它們?nèi)耘f會受到分布移位（distribution shift）和泛化能力降低的影響。 ? 雖然在開發(fā)通用型機器人系統(tǒng)上正面臨諸多挑戰(zhàn)，但自然語言處理（NLP）和計算機視覺（CV）領(lǐng)域近來卻進展迅猛，其中包括用于 NLP 的大型語言模型（LLM）、用于高保真圖像生成的擴散模型、用于零樣本 / 少樣本生成等 CV 任務(wù)的能力強大的視覺模型和視覺語言模型。

所謂的「基礎(chǔ)模型（foundation model）」其實就是大型預(yù)訓(xùn)練模型（LPTM）。它們具備強大的視覺和語言能力。近來這些模型也已經(jīng)在機器人領(lǐng)域得到應(yīng)用，并有望賦予機器人系統(tǒng)開放世界感知、任務(wù)規(guī)劃甚至運動控制能力。除了將現(xiàn)有的視覺和 / 或語言基礎(chǔ)模型用于機器人領(lǐng)域，也有研究團隊正針對機器人任務(wù)開發(fā)基礎(chǔ)模型，比如用于操控的動作模型或用于導(dǎo)航的運動規(guī)劃模型。這些機器人基礎(chǔ)模型展現(xiàn)出了強大的泛化能力，能適應(yīng)不同的任務(wù)甚至具身方案。也有研究者直接將視覺 / 語言基礎(chǔ)模型用于機器人任務(wù)，這展現(xiàn)出了將不同機器人模塊融合成單一統(tǒng)一模型的可能性。 ? 盡管視覺和語言基礎(chǔ)模型在機器人領(lǐng)域前景可期，全新的機器人基礎(chǔ)模型也正在開發(fā)中，但機器人領(lǐng)域仍有許多挑戰(zhàn)難以解決。 ?

從實際部署角度看，模型往往是不可復(fù)現(xiàn)的，無法泛化到不同的機器人形態(tài)（多具身泛化）或難以準確理解環(huán)境中的哪些行為是可行的（或可接受的）。此外，大多數(shù)研究使用的都是基于 Transformer 的架構(gòu)，關(guān)注的重點是對物體和場景的語義感知、任務(wù)層面的規(guī)劃、控制。而機器人系統(tǒng)的其它部分則少有人研究，比如針對世界動態(tài)的基礎(chǔ)模型或可以執(zhí)行符號推理的基礎(chǔ)模型。這些都需要跨領(lǐng)域泛化能力。 ? 最后，我們也需要更多大型真實世界數(shù)據(jù)以及支持多樣化機器人任務(wù)的高保真度模擬器。 ? 這篇綜述論文總結(jié)了機器人領(lǐng)域使用的基礎(chǔ)模型，目標是理解基礎(chǔ)模型能以怎樣的方式幫助解決或緩解機器人領(lǐng)域的核心挑戰(zhàn)。 ? 在這篇綜述中，研究者使用的「用于機器人的基礎(chǔ)模型（foundation models for robotics）」這一術(shù)語涵蓋兩個方面： (1) 用于機器人的現(xiàn)有的（主要）視覺和語言模型，主要是通過零樣本和上下文學(xué)習(xí)； (2) 使用機器人生成的數(shù)據(jù)專門開發(fā)和利用機器人基礎(chǔ)模型，以解決機器人任務(wù)。他們總結(jié)了用于機器人的基礎(chǔ)模型的相關(guān)論文中的方法，并對這些論文的實驗結(jié)果進行了元分析（meta-analysis）。

綜述的整體結(jié)構(gòu)

01??預(yù)備知識

為了幫助讀者更好地理解這篇綜述的內(nèi)容，該團隊首先給出了一節(jié)預(yù)備知識內(nèi)容。他們首先將介紹機器人學(xué)的基礎(chǔ)知識以及當前最佳技術(shù)。這里主要聚焦于基礎(chǔ)模型時代之前機器人領(lǐng)域使用的方法。這里進行簡單說明，詳情參閱原論文。

·?機器人的主要組件可分為感知、決策和規(guī)劃、動作生成三大部分。該團隊將機器人感知分為被動感知、主動感知和狀態(tài)估計。

·?在機器人決策和規(guī)劃部分，研究者分經(jīng)典規(guī)劃方法和基于學(xué)習(xí)的規(guī)劃方法進行了介紹。

·?機器的動作生成也有經(jīng)典控制方法和基于學(xué)習(xí)的控制方法。

接下來該團隊又會介紹基礎(chǔ)模型并主要集中在 NLP 和 CV 領(lǐng)域，涉及的模型包括：LLM、VLM、視覺基礎(chǔ)模型、文本條件式圖像生成模型。 ? 02??機器人領(lǐng)域面臨的挑戰(zhàn) ? 典型機器人系統(tǒng)的不同模塊所面臨的五大核心挑戰(zhàn)。圖 3 展示了這五大挑戰(zhàn)的分類情況。

2.1 泛化

機器人系統(tǒng)往往難以準確地感知和理解其環(huán)境。它們也沒有能力將在一個任務(wù)上的訓(xùn)練成果泛化到另一個任務(wù)，這會進一步限制它們在真實世界中的實用性。此外，由于機器人硬件不同，將模型遷移用于不同形態(tài)的機器人也很困難。通過將基礎(chǔ)模型用于機器人，可以部分地解決泛化問題。而在不同機器人形態(tài)上泛化這樣更進一步的問題還有待解答。

? 2.2 數(shù)據(jù)稀缺

為了開發(fā)出可靠的機器人模型，大規(guī)模的高質(zhì)量數(shù)據(jù)至關(guān)重要。人們已經(jīng)在努力嘗試從現(xiàn)實世界收集大規(guī)模數(shù)據(jù)集，包括自動駕駛、機器人操作軌跡等。并且從人類演示收集機器人數(shù)據(jù)的成本很高。不過，由于任務(wù)和環(huán)境的多樣性，在現(xiàn)實世界收集足夠且廣泛的數(shù)據(jù)的過程還會更加復(fù)雜。在現(xiàn)實世界收集數(shù)據(jù)還會有安全方面的疑慮。另外，在現(xiàn)實世界中，大規(guī)模收集數(shù)據(jù)非常困難，而要收集到訓(xùn)練基礎(chǔ)模型所使用的互聯(lián)網(wǎng)規(guī)模級的圖像/文本數(shù)據(jù)，那就更困難了。 ?

為了解決這些挑戰(zhàn)，許多研究工作都嘗試了在模擬環(huán)境中生成合成數(shù)據(jù)。這些模擬能提供真實感很強的虛擬世界，讓機器人可以在接近真實的場景中學(xué)習(xí)和使用自己的技能。但是，使用模擬環(huán)境也有局限性，尤其是在物體的多樣性方面，這使得所學(xué)到的技能難以直接用于真實世界情況。 ? 一種頗具潛力的方法是協(xié)作式數(shù)據(jù)收集，即將不同實驗室環(huán)境和機器人類型的數(shù)據(jù)收集到一起，如圖 4a 所示。但是，該團隊深度研究了 Open-X Embodiment Dataset，發(fā)現(xiàn)在數(shù)據(jù)類型可用性方面還存在一些局限性。

2.3 模型和原語要求

經(jīng)典的規(guī)劃和控制方法通常需要精心設(shè)計的環(huán)境和機器人模型。之前的基于學(xué)習(xí)的方法（如模仿學(xué)習(xí)和強化學(xué)習(xí)）是以端到端的方式訓(xùn)練策略，也就是直接根據(jù)感官輸入獲取控制輸出，這樣能避免構(gòu)建和使用模型。這些方法能部分解決依賴明確模型的問題，但它們往往難以泛化用于不同的環(huán)境和任務(wù)。 ? 這就引出了兩個問題：(1) 怎么學(xué)習(xí)能很好泛化的與模型無關(guān)的策略？(2) 怎么學(xué)習(xí)好的世界模型，以便應(yīng)用經(jīng)典的基于模型的方法？ ?

2.4 任務(wù)規(guī)范 ? 為了得到通用型智能體，一大關(guān)鍵挑戰(zhàn)是理解任務(wù)規(guī)范并將其根植于機器人對世界的當前理解中。通常而言，這些任務(wù)規(guī)范由用戶提供，但用戶只能有限地理解機器人的認知和物理能力的局限性。這會帶來很多問題，包括能為這些任務(wù)規(guī)范提供什么樣的最佳實踐，還有起草這些規(guī)范是否足夠自然和簡單。基于機器人對自身能力的理解，理解和解決任務(wù)規(guī)范中的模糊性也充滿挑戰(zhàn)。 ?

2.5 不確定性和安全性 ? 為了在現(xiàn)實世界中部署機器人，一大關(guān)鍵挑戰(zhàn)是處理環(huán)境和任務(wù)規(guī)范中固有的不確定性。根據(jù)來源的不同，不確定性可以分為認知不確定性（由缺乏知識導(dǎo)致不確定）和偶然不確定性（環(huán)境中固有的噪聲）。 ? 不確定性量化（UQ）的成本可能會高得讓研究和應(yīng)用難以為繼，也可能讓下游任務(wù)無法被最優(yōu)地解決。有鑒于基礎(chǔ)模型大規(guī)模過度參數(shù)化的性質(zhì)，為了在不犧牲模型泛化性能的同時實現(xiàn)可擴展性，提供能保留訓(xùn)練方案同時又盡可能不改變底層架構(gòu)的 UQ 方法至關(guān)重要。設(shè)計能提供對自身行為的可靠置信度估計，并反過來智能地請求清晰說明反饋的機器人仍然是一個尚未解決的挑戰(zhàn)。 ? 近來雖有一些進展，但要確保機器人有能力學(xué)習(xí)經(jīng)驗，從而在全新環(huán)境中微調(diào)自己的策略并確保安全，這一點還依然充滿挑戰(zhàn)。

? 03??當前研究方法概況 ? 本文還總結(jié)了用于機器人的基礎(chǔ)模型的當前研究方法。該團隊將機器人領(lǐng)域使用的基礎(chǔ)模型分成了兩大類：用于機器人的基礎(chǔ)模型和機器人基礎(chǔ)模型（RFM）。 ? 用于機器人的基礎(chǔ)模型主要是指以零樣本的方式將視覺和語言基礎(chǔ)模型用于機器人，也就是說無需額外的微調(diào)或訓(xùn)練。機器人基礎(chǔ)模型則可能使用視覺 - 語言預(yù)訓(xùn)練初始化來進行熱啟動和 / 或直接在機器人數(shù)據(jù)集上訓(xùn)練模型。

分類詳情

3.1 用于機器人的基礎(chǔ)模型

這一部分關(guān)注的是視覺和語言基礎(chǔ)模型在機器人領(lǐng)域的零樣本應(yīng)用。這主要包括將 VLM 以零樣本方式部署到機器人感知應(yīng)用中，將 LLM 的上下文學(xué)習(xí)能力用于任務(wù)層面和運動層面的規(guī)劃以及動作生成。圖 6 展示了一些代表性的研究工作。

3.2 機器人基礎(chǔ)模型（RFM）

隨著包含來自真實機器人的狀態(tài)-動作對的機器人數(shù)據(jù)集的增長，機器人基礎(chǔ)模型（RFM）類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人數(shù)據(jù)來訓(xùn)練模型解決機器人任務(wù)。 ? 研究團隊總結(jié)和討論了不同類型的 RFM。首先是能在單一機器人模塊中執(zhí)行一類任務(wù)的 RFM，這也被稱為單目標機器人基礎(chǔ)模型。比如能生成控制機器人的低層級動作的 RFM 或可以生成更高層運動規(guī)劃的模型。在文章中還會介紹能在多個機器人模塊中執(zhí)行任務(wù)的 RFM，也就是能執(zhí)行感知、控制甚至非機器人任務(wù)的通用模型。 ? 3.3 基礎(chǔ)模型能怎樣幫助解決機器人挑戰(zhàn)？ ? 前文列出了機器人領(lǐng)域面臨的五大挑戰(zhàn)。這里將介紹基礎(chǔ)模型可以怎樣幫助解決這些挑戰(zhàn)。 ? 所有與視覺信息相關(guān)的基礎(chǔ)模型（如 VFM、VLM 和 VGM）都可用于機器人的感知模塊。而 LLM 的功能更多樣，可用于規(guī)劃和控制。機器人基礎(chǔ)模型（RFM）通常用于規(guī)劃和動作生成模塊。表 1 總結(jié)了解決不同機器人挑戰(zhàn)的基礎(chǔ)模型。

從表中可以看到，所有基礎(chǔ)模型都擅長泛化各種機器人模塊的任務(wù)。LLM 尤其擅長任務(wù)規(guī)范。另一方面，RFM 擅長應(yīng)對動態(tài)模型的挑戰(zhàn)，因為大多數(shù) RFM 都是無模型方法。對于機器人感知來說，泛化能力和模型的挑戰(zhàn)是相互耦合的，因為如果感知模型已經(jīng)具有很好的泛化能力，就不需要獲取更多數(shù)據(jù)來執(zhí)行領(lǐng)域適應(yīng)或額外微調(diào)。另外，在安全挑戰(zhàn)方面還缺乏研究，這會是一個重要的未來研究方向。 ? 04??當前的實驗和評估概況 ? 這一部分總結(jié)了當前研究成果的數(shù)據(jù)集、基準和實驗。 ? 4.1 數(shù)據(jù)集和基準 僅依靠從語言和視覺數(shù)據(jù)集學(xué)到的知識是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無法僅通過這些模態(tài)輕松學(xué)習(xí)到。 ? 因此，為了讓機器人智能體能更好地理解世界，研究社區(qū)不僅在適應(yīng)來自語言和視覺領(lǐng)域的基礎(chǔ)模型，也在推進開發(fā)用于訓(xùn)練和微調(diào)這些模型的大型多樣化多模態(tài)機器人數(shù)據(jù)集。 ? 目前這些工作分為兩大方向：從現(xiàn)實世界收集數(shù)據(jù)以及從模擬世界收集數(shù)據(jù)再將其遷移到現(xiàn)實世界。每個方向都各有優(yōu)劣。其中從現(xiàn)實世界收集的數(shù)據(jù)集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。 ? 4.2 對當前方法的評估分析（Meta-Analysis） ? 該團隊的另一大貢獻是對本綜述報告中提到的論文中的實驗進行了元分析，這可以為理清以下問題有所幫助： ?

1）人們研究解決的是哪些任務(wù)？

2）訓(xùn)練模型使用了哪些數(shù)據(jù)集或模擬器？測試用的機器人平臺有哪些？

3）研究社區(qū)使用了哪些基礎(chǔ)模型？解決任務(wù)的效果如何？

4）這些方法中更常使用哪些基礎(chǔ)模型？

表 2-7 和圖 11 給出了分析結(jié)果。