一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航:對(duì)齊人類需求,讓機(jī)器人更高效

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-12 22:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果想讓機(jī)器人幫助你,你通常需要下達(dá)一個(gè)較為精準(zhǔn)的指令,但指令在實(shí)際中的實(shí)現(xiàn)效果不一定理想。如果考慮真實(shí)環(huán)境,當(dāng)要求機(jī)器人找某個(gè)特定的物品時(shí),這個(gè)物品不一定真的存在當(dāng)前的環(huán)境內(nèi),機(jī)器人無論如何也找不到;但是環(huán)境當(dāng)中是不是可能存在一個(gè)其他物品,它和用戶要求的物品有類似的功能,也能滿足用戶的需求呢?這就是用 “需求” 作為任務(wù)指令的好處了。


近日,北京大學(xué)董豪團(tuán)隊(duì)提出了一個(gè)新的導(dǎo)航任務(wù) —— 需求驅(qū)動(dòng)導(dǎo)航(Demand-driven Navigation,DDN),目前已被 NeurIPS 2023 接收。在這個(gè)任務(wù)當(dāng)中,機(jī)器人被要求根據(jù)一條用戶給定的需求指令,尋找能夠滿足用戶需求的物品。同時(shí),董豪團(tuán)隊(duì)還提出了學(xué)習(xí)基于需求指令的物品屬性特征,有效地提高了機(jī)器人尋找物品的成功率。




論文地址:

https://arxiv.org/pdf/2309.08138.pdf

項(xiàng)目主頁(yè):

https://sites.google.com/view/demand-driven-navigation/home



▲項(xiàng)目視頻



任務(wù)說明

具體地說,在任務(wù)的一開始,機(jī)器人會(huì)收到一條需求指令,比如 “我餓了”,“我渴了”,然后機(jī)器人就需要在場(chǎng)景內(nèi)尋找一個(gè)能滿足該需求的物品。因此,需求驅(qū)動(dòng)導(dǎo)航本質(zhì)上還是一個(gè)尋找物品的任務(wù),在這之前已經(jīng)有類似的任務(wù) —— 視覺物品導(dǎo)航(Visual Object Navigation)。這兩個(gè)任務(wù)的區(qū)別在于,前者是告知機(jī)器人 “我的需求是什么”,后者是告知機(jī)器人 “我要什么物品”。




將需求作為指令,意味著機(jī)器人需要對(duì)指令的內(nèi)容進(jìn)行推理和探索當(dāng)前場(chǎng)景中的物品種類,然后才能找到滿足用戶需求的物品。從這一點(diǎn)上來說,需求驅(qū)動(dòng)導(dǎo)航要比視覺物品導(dǎo)航難很多。雖說難度增加了,但是一旦機(jī)器人學(xué)會(huì)了根據(jù)需求指令尋找物品,好處還是很多的。比如:
  • 用戶只需要根據(jù)自己的需求提出指令,而不用考慮場(chǎng)景內(nèi)有什么。
  • 用需求作為指令可以提高用戶需求被滿足的概率。比如當(dāng) “渴了” 的時(shí)候,讓機(jī)器人找 “茶” 和讓機(jī)器人找 “能解渴的物品”,顯然是后者包含的范圍更大。
  • 用自然語(yǔ)言描述的需求擁有更大的描述空間,可以提出更為精細(xì)、更為確切的需求。


為了訓(xùn)練這樣的機(jī)器人,需要建立一個(gè)需求指令到物品的映射關(guān)系,以便于環(huán)境給予訓(xùn)練信號(hào)。為了降低成本,董豪團(tuán)隊(duì)提出了一種基于大語(yǔ)言模型的、“半自動(dòng)” 的生成方式:先用 GPT-3.5 生成場(chǎng)景中存在的物品能滿足的需求,然后再人工過濾不符合要求的。



算法設(shè)計(jì)

考慮到能滿足同一個(gè)需求的物品之間有相似的屬性,如果能學(xué)到這種物品屬性上的特征,機(jī)器人似乎就能利用這些屬性特征來尋找物品。比如,對(duì)于 “我渴了” 這一需求,需要的物品應(yīng)該具有 “解渴” 這一屬性,而 “果汁”、“茶” 都具有這一屬性。這里需要注意的是,對(duì)于一個(gè)物品,在不同的需求下可能表現(xiàn)出不同的屬性,比如 “水” 既能表現(xiàn)出 “清潔衣物” 的屬性(在 “洗衣服” 的需求下),也能表現(xiàn)出 “解渴” 這一屬性(在 “我渴了” 的需求下)。


屬性學(xué)習(xí)階段


那么,如何讓模型理解這種 “解渴”、“清潔衣物” 這些需求呢?注意到在某一需求下物品所表現(xiàn)出的屬性,是一種較為穩(wěn)定的常識(shí)。而最近幾年,隨著大語(yǔ)言模型(LLM)逐漸興起,LLM 所表現(xiàn)出的對(duì)人類社會(huì)常識(shí)方面的理解讓人驚嘆。


因此,北大董豪團(tuán)隊(duì)決定向 LLM 學(xué)習(xí)這種常識(shí)。他們先是讓 LLM 生成了很多需求指令(在圖中稱為 Language-grounding Demand,LGD),然后再詢問 LLM,這些需求指令能被哪些物品滿足(在圖中稱為 Language-grounding Object,LGO)。



在這里要說明,Language-grounding 這一前綴強(qiáng)調(diào)了這些 demand/object 是可以從 LLM 中獲取而不依賴于某個(gè)特定的場(chǎng)景;下圖中的 World-grounding 強(qiáng)調(diào)了這些 demand/object 是與某個(gè)特定的環(huán)境(比如 ProcThor、Replica 等場(chǎng)景數(shù)據(jù)集)緊密結(jié)合的。


然后為了獲取 LGO 在 LGD 下所表現(xiàn)出的屬性,作者們使用了 BERT 編碼 LGD、CLIP-Text-Encoder 編碼 LGO,然后拼接得到 Demand-object Features。注意到在一開始介紹物品的屬性時(shí),有一個(gè) “相似性”,作者們就利用這種相似性,定義了 “正負(fù)樣本”,然后采用對(duì)比學(xué)習(xí)的方式訓(xùn)練 “物品屬性”。


具體來說,對(duì)于兩個(gè)拼接之后的 Demand-object Features,如果這兩個(gè)特征對(duì)應(yīng)的物品能滿足同一個(gè)需求,那么這兩個(gè)特征就互為正樣本(比如圖中的物品 a 和物品 b 都能滿足需求 D1,那么 DO1-a 和 DO1-b 就互為正樣本);其他任何拼接均互為負(fù)樣本。作者們將 Demand-object Features 輸入到一個(gè) TransformerEncoder 架構(gòu)的 Attribute Module 之后,就采用 InfoNCE Loss 訓(xùn)練了。


導(dǎo)航策略學(xué)習(xí)階段


通過對(duì)比學(xué)習(xí),Attribute Module 中已經(jīng)學(xué)到了 LLM 提供的常識(shí),在導(dǎo)航策略學(xué)習(xí)階段,Attribute Module 的參數(shù)被直接導(dǎo)入,然后采用模仿學(xué)習(xí)的方式學(xué)習(xí)由 A* 算法收集的軌跡。在某一個(gè)時(shí)間步,作者采用 DETR 模型,將當(dāng)前視野中的物品分割出來,得到 World-grounding Object,然后由 CLIP-Visual-Endocer 編碼。其他的流程與屬性學(xué)習(xí)階段類似。最后將對(duì)需求指令的 BERT 特征、全局圖片特征、屬性特征拼接,送入一個(gè) Transformer 模型,最終輸出一個(gè)動(dòng)作。



值得注意的是,作者們?cè)趯傩詫W(xué)習(xí)階段使用了 CLIP-Text-Encoder,而在導(dǎo)航策略學(xué)習(xí)階段,作者們使用了 CLIP-Visual-Encoder。這里巧妙地借助于 CLIP 模型在視覺和文本上強(qiáng)大的對(duì)齊能力,將從 LLM 中學(xué)習(xí)到的文本常識(shí)轉(zhuǎn)移到了每一個(gè)時(shí)間步的視覺上。



實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)是在 AI2Thor simulator 和 ProcThor 數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果表明,該方法顯著高于之前各種視覺物品導(dǎo)航算法的變種、大語(yǔ)言模型加持下的算法。



VTN 是一種閉詞匯集的物品導(dǎo)航算法(closed-vocabulary navigation),只能在預(yù)先設(shè)定的物品上進(jìn)行導(dǎo)航任務(wù)。作者們對(duì)它的算法做了一些變種,然而不管是將需求指令的 BERT 特征作為輸入、還是將 GPT 對(duì)指令的解析結(jié)果作為輸入,算法的結(jié)果都不是很理想。當(dāng)換成 ZSON 這種開詞匯集的導(dǎo)航算法(open-vocabulary navigation),由于 CLIP 在需求指令和圖片之間的對(duì)齊效果并不好,導(dǎo)致了 ZSON 的幾個(gè)變種也無法很好的完成需求驅(qū)動(dòng)導(dǎo)航任務(wù)。


而一些基于啟發(fā)式搜索 + LLM 的算法由于 Procthor 數(shù)據(jù)集場(chǎng)景面積較大,探索效率較低,其成功率并沒有很高。純粹的 LLM 算法,例如 GPT-3-Prompt 和 MiniGPT-4 都表現(xiàn)出較差的對(duì)場(chǎng)景不可見位置的推理能力,導(dǎo)致無法高效地發(fā)現(xiàn)滿足要求的物品。


消融實(shí)驗(yàn)表明了 Attribute Module 顯著提高了導(dǎo)航成功率。作者們展示了 t-SNE 圖很好地表現(xiàn)出 Attribute Module 通過 demand-conditioned contrastive learning 成功地學(xué)習(xí)到了物品的屬性特征。而將 Attribute Module 架構(gòu)換成 MLP 之后,性能出現(xiàn)了下降,說明 TransformerEncoder 架構(gòu)更適合用于捕捉屬性特征。BERT 很好提取了需求指令的特征,使得對(duì) unseen instruction 泛化性得到了提升。




下面是一些可視化:


本次研究的通訊作者董豪博士現(xiàn)任北京大學(xué)前沿計(jì)算研究中心助理教授,博士生導(dǎo)師、博雅青年學(xué)者和智源學(xué)者,他于 2019 年創(chuàng)立并領(lǐng)導(dǎo)北大超平面實(shí)驗(yàn)室(Hyperplane Lab),目前已在 NeurIPS、ICLR、CVPR、ICCV、ECCV 等國(guó)際頂尖會(huì)議 / 期刊上發(fā)表論文 40 余篇,Google Scholar 引用 4700 余次,曾獲得 ACM MM 最佳開源軟件獎(jiǎng)和 OpenI 杰出項(xiàng)目獎(jiǎng)。他還曾多次擔(dān)任國(guó)際頂尖會(huì)議如 NeurIPS、 CVPR、AAAI、ICRA 的領(lǐng)域主席和副編委,承擔(dān)多項(xiàng)國(guó)家級(jí)和省級(jí)項(xiàng)目,主持科技部新一代人工智能 2030 重大項(xiàng)目。


原文標(biāo)題:NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航:對(duì)齊人類需求,讓機(jī)器人更高效

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航:對(duì)齊人類需求,讓機(jī)器人更高效

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    智能工業(yè)機(jī)器人:引爆制造業(yè)‘自進(jìn)化’革命

    智能工業(yè)機(jī)器人:引爆制造業(yè)‘自進(jìn)化’革命 在工業(yè)4.0浪潮席卷全球的今天,制造業(yè)正經(jīng)歷從“自動(dòng)化”到“智能化”的質(zhì)變。作為這場(chǎng)變革的核心
    的頭像 發(fā)表于 04-17 13:49 ?387次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機(jī)器人</b>:引爆制造業(yè)‘自進(jìn)化’革命

    解碼“什么是智能工業(yè)機(jī)器人

    在工業(yè)4.0與人工智能深度融合的浪潮中,“什么是智能工業(yè)機(jī)器人”成為制造業(yè)智能化轉(zhuǎn)型的核心議
    的頭像 發(fā)表于 03-21 14:47 ?683次閱讀
    解碼“什么是<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機(jī)器人</b>”

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.智能機(jī)器人的基礎(chǔ)模塊

    智能機(jī)器人的基礎(chǔ)模塊,這個(gè)是本書的第二部分內(nèi)容,主要分為四個(gè)部分:機(jī)器人計(jì)算系統(tǒng),自主機(jī)器人
    發(fā)表于 01-04 19:22

    智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之智能機(jī)器人計(jì)算挑戰(zhàn)

    閱讀《智能機(jī)器人系統(tǒng)》第10-13章,我對(duì)智能
    發(fā)表于 01-04 01:15

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書

    最近在閱讀《智能機(jī)器人系統(tǒng)》這本書的同時(shí),還讀了 《計(jì)算機(jī)視覺之PyTorch數(shù)字圖像處理》一書,這兩本書完全可以視為是互為依托的姊妹篇?!队?jì)算機(jī)視覺之PyTorch數(shù)字圖像處理》
    發(fā)表于 01-01 15:50

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.智能機(jī)器人大模型

    、醫(yī)療、服務(wù)等領(lǐng)域的應(yīng)用前景更加廣闊,也使得人類能夠更輕松地借助機(jī)器完成復(fù)雜工作。我深刻認(rèn)識(shí)到,大模型技術(shù)正在從根本上改變我們對(duì)機(jī)器人能力的認(rèn)知。它們不僅是一種技術(shù)工具,更是推動(dòng)
    發(fā)表于 12-29 23:04

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解智能

    與未來,涵蓋如基于行為的人工智能、生物啟發(fā)的進(jìn)化人工智能及認(rèn)知機(jī)器人技術(shù)的發(fā)展。這一歷史背景為隨后的大模型驅(qū)動(dòng)
    發(fā)表于 12-28 21:12

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    簡(jiǎn)單的智能機(jī)器人的應(yīng)用案例。具體目錄如下: 第一章學(xué)習(xí)
    發(fā)表于 12-27 14:50

    智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之智能機(jī)器人與大模型

    研讀《智能機(jī)器人系統(tǒng)》第7-9章,我被書中對(duì)大模型與機(jī)器人技術(shù)融合的深入分析所吸引。第7章詳細(xì)闡述了ChatGPT for Roboti
    發(fā)表于 12-24 15:03

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在人工智能中的價(jià)值

    嵌入式人工智能(EAI)將人工智能集成到機(jī)器人等物理實(shí)體中,使它們能夠感知、學(xué)習(xí)環(huán)境并與之動(dòng)態(tài)交互。這種能力使此類機(jī)器人能夠在人類社會(huì)中有效
    發(fā)表于 12-24 00:33

    【「智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)

    的快速發(fā)展,相關(guān)人才的需求也在不斷增加,通過閱讀該書可以幫助大家系統(tǒng)性地了解和分析當(dāng)前智能機(jī)器人系統(tǒng)的發(fā)展現(xiàn)狀和前沿研究,為未來的研究和
    發(fā)表于 12-20 19:17

    智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊

    的導(dǎo)引,讀者對(duì)于智能機(jī)器人系統(tǒng)的相關(guān)背景知識(shí)、基礎(chǔ)模塊都有一個(gè)初步的認(rèn)識(shí)和掌握。除了在\"5.3.2 自主
    發(fā)表于 12-19 22:26

    人形機(jī)器人引爆中低壓MOSFET需求

    年均增長(zhǎng)率將高達(dá)154%。 ? 對(duì)于機(jī)器人來說電機(jī)是驅(qū)動(dòng)的核心之一,驅(qū)動(dòng)電機(jī)則需要MOSFET等功率開關(guān)元器件的支持,在機(jī)器人體積有限的空間內(nèi),如何
    的頭像 發(fā)表于 12-09 00:12 ?5786次閱讀
    人形<b class='flag-5'>機(jī)器人</b>引爆中低壓MOSFET<b class='flag-5'>需求</b>

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.51】智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮!

    技術(shù)列為重點(diǎn)支持領(lǐng)域。 近期,中國(guó)機(jī)器人研發(fā)團(tuán)隊(duì)在多模態(tài)交互、語(yǔ)言模型運(yùn)用,以及復(fù)雜任務(wù)規(guī)劃等方面取得了突破。 我國(guó)智能
    發(fā)表于 11-11 10:20

    智能機(jī)器人技術(shù)中的發(fā)展

    智能(Embodied Intelligence)在機(jī)器人技術(shù)中的發(fā)展是人工智能領(lǐng)域的一個(gè)重要趨勢(shì)。以下是對(duì)
    的頭像 發(fā)表于 10-27 09:48 ?1998次閱讀