久久久久亚洲色欲AV无码网站,亚瑟av综合电影网

?項(xiàng)目主頁(yè)：

https://linxuewu.github.io/BIP3D-page/

?論文地址：

https://arxiv.org/abs/2411.14869

概述

在具身智能系統(tǒng)中，3D感知算法是一個(gè)關(guān)鍵組件，它在端側(cè)幫助可以幫助智能體理解環(huán)境信息，在云端可以用來(lái)輔助生成3D場(chǎng)景和3D標(biāo)簽，具備重要的研究?jī)r(jià)值?，F(xiàn)有主流算法主要依賴于點(diǎn)云作為輸入 (point-centric) ，盡管點(diǎn)云提供了精確的幾何信息，但由于其存在稀疏、噪聲、數(shù)據(jù)量較少等問題，仍然限制了感知算法的性能。

在本研究中，我們提出了一種新穎的以圖像為中心 (image-centric) 的3D感知模型——BIP3D，該模型利用具有顯式3D位置編碼的表達(dá)性圖像特征，以克服point-centric的方法的局限性。具體而言，我們利用預(yù)訓(xùn)練的2D視覺基礎(chǔ)模型來(lái)增強(qiáng)語(yǔ)義理解，并引入了一個(gè)空間增強(qiáng)模塊來(lái)提升空間理解能力。這些模塊共同使BIP3D能夠?qū)崿F(xiàn)多視角、多模態(tài)特征融合以及端到端的3D感知。BIP3D在多個(gè)開源數(shù)據(jù)集上獲得了卓越的性能，大幅領(lǐng)先現(xiàn)有算法。

BIP3D架構(gòu)：基于Vision Foundation Model的多模態(tài)感知模型

圖1 BIP3D模型架構(gòu)圖

模型結(jié)構(gòu)上，BIP3D主要包括6個(gè)模塊（圖1 (a) 所示）：

1）text encoder：用于編碼文本特征，當(dāng)采用decoder-only VLM作為基座時(shí)，則用text tokenizer代替；

2）image encoder：用于編碼多視角圖像，輸出多視角多尺度圖像特征；

3）depth encoder：用于編碼多視角深度圖像，輸出深度特征圖，和圖像特征保持pixel對(duì)齊，BIP3D支持純RGB輸入，因此depth encoder為可插拔模塊；

4）feature enhancer：用于融合圖像特征和文本特征；

5）spatial enhancer：利用相機(jī)模型對(duì)圖像特征加上3D位置編碼，同時(shí)融合深度特征；

6）decoder：基于spatial enhancer輸出的3D特征和文本特征，結(jié)合任務(wù)目標(biāo)進(jìn)行解碼；本文主要研究3D感知任務(wù)，因此采用了基于deformable aggregation的多視角特征融合算子來(lái)實(shí)現(xiàn)3D detection和grounding任務(wù)。

BIP3D的結(jié)構(gòu)設(shè)計(jì)使其可以無(wú)縫銜接現(xiàn)有vision foundation model，本文采用Grounding-DINO作為基座來(lái)初始化BIP3D，以此獲得更好的泛化性、更快的收斂速度以及更高的感知精度。除了Grounding-DINO以外，也可以采用VLM類模型（如Qwen-VL）作為基座。

Spatial Enhancer：相機(jī)建模、3D編碼與深度特征融合

連接2D圖像和3D空間最重要的一步就是相機(jī)建模，我們首先利用圖像特征進(jìn)行深度分布估計(jì)，得到一系列帶深度的視點(diǎn)及其概率，將這些視點(diǎn)通過相機(jī)模型投影到統(tǒng)一的3D空間，并對(duì)投影后的3D坐標(biāo)進(jìn)行高維映射，拿到3D point embedding，并將這些3D point embedding聯(lián)合所預(yù)測(cè)的概率分布進(jìn)行加權(quán)求和，作為最終的3D position embedding。當(dāng)模型接收深度圖作為輸入之一時(shí)，我們還會(huì)再深度估計(jì)時(shí)引入深度特征，以獲得更精確的深度分布，并在最終輸出的時(shí)候?qū)⑸疃忍卣骱蛨D像特征進(jìn)行融合，作為decoder的輸入。

我們的3D位置編碼可以提供很好的幾何信息，其特征空間的余弦距離和3D空間的歐氏距離具有顯著的正相關(guān)性，如下圖所示。

3D Perception Decoder：多視圖融合和文本特征融合

我們采用query-based detector的結(jié)構(gòu)，如圖1 (d) 所示。首先生成一系列視角相關(guān)的bbox3d queries，并使用Deformable Aggregation算子實(shí)現(xiàn)任意視角數(shù)據(jù)的特征融合；為了實(shí)現(xiàn)open-set detection和grounding，還加入了text cross-attention。該decoder輸出9 DoF的3d bounding bbox及其高維特征，高維特征和文本特征的余弦距離用來(lái)表示置信度。考慮到9 DoF存在方向和尺寸歧義性，我們采用Wasserstein distance作為bbox3d的回歸損失函數(shù)。其次我們還加入了文本特征和query之間的對(duì)比損失，采用余弦距離和focal loss。具體實(shí)現(xiàn)見論文和代碼。

實(shí)驗(yàn)結(jié)果

表1對(duì)比于BIP3D和point-centric方法的參數(shù)量分布情況，可以看出point-centric方法的主要參數(shù)量集中在3D encoder，而BIP3D集中在2D encoder，這是point-centric和image-centric的主要區(qū)別之一。

表1參數(shù)量分布對(duì)比

BIP3D在3D檢測(cè)和3D grounding上的性能顯著超越了現(xiàn)有方法，各項(xiàng)指標(biāo)上都超過了EmbodiedScan的baseline。并且，當(dāng)僅輸入圖像時(shí)，在沒有深度圖加持的情況下，BIP3D依然能獲得不錯(cuò)的感知能力。

表2 3D檢測(cè)結(jié)果對(duì)比

表3 3D Grounding結(jié)果對(duì)比

我們還證明了，BIP3D這種image-centric的網(wǎng)絡(luò)架構(gòu)可以很好的發(fā)揮出vision foundation model的作用，如表4所示。

表4 VFM的作用

更多的實(shí)驗(yàn)結(jié)果可見huggingface主頁(yè)和論文。

總結(jié)與展望

在本研究中，我們提出了一種以圖像為中心的3D感知模型——BIP3D。該模型克服了點(diǎn)云數(shù)據(jù)的局限性，并充分利用了2D基礎(chǔ)模型的能力，從而在3D感知性能上實(shí)現(xiàn)了顯著提升。BIP3D支持多視角圖像、深度圖和文本作為輸入，使其能夠執(zhí)行3D目標(biāo)檢測(cè)和3D視覺定位任務(wù)。我們?cè)贓mbodiedScan基準(zhǔn)測(cè)試中展示了BIP3D的優(yōu)越性。然而，BIP3D仍有廣闊的探索空間，以下是未來(lái)工作的幾個(gè)方向：(1) 進(jìn)一步優(yōu)化網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方案，以實(shí)現(xiàn)更卓越的感知性能。(2) 將BIP3D應(yīng)用于動(dòng)態(tài)場(chǎng)景，實(shí)現(xiàn)聯(lián)合檢測(cè)與跟蹤。(3) 引入更多感知任務(wù)，如實(shí)例分割、占據(jù)空間估計(jì)和抓取姿態(tài)估計(jì)。(4) 在BIP3D網(wǎng)絡(luò)框架下，改進(jìn)decoder以支持更高級(jí)的任務(wù)，如action和3d reasoning。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2959

瀏覽量
110768
相機(jī)

相機(jī)

+關(guān)注

關(guān)注
4

文章
1468

瀏覽量
54694
感知模型

感知模型

+關(guān)注

關(guān)注
0

文章
3

瀏覽量
5753
具身智能

具身智能

+關(guān)注

關(guān)注
0

文章
143

瀏覽量
474

原文標(biāo)題：CVPR 2025｜BIP3D: 連接圖像和3D空間，提升具身智能的空間感知能力

文章出處：【微信號(hào)：horizonrobotics，微信公眾號(hào)：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

一種以圖像為中心的3D感知模型BIP3D

評(píng)論