一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MAE再發(fā)力,跨模態(tài)交互式自編碼器PiMAE席卷3D目標(biāo)檢測領(lǐng)域

3D視覺工坊 ? 來源:將門創(chuàng)投 ? 2023-04-21 09:36 ? 次閱讀

本文提出了一種基于MAE的跨模態(tài)交互式自編碼器PiMAE,PiMAE同時具有強大的3D點云和RGB圖像特征提取能力。作者通過三個方面的獨特設(shè)計來促進(jìn)多模態(tài)學(xué)習(xí)過程中的交互效果。并對提出的PiMAE進(jìn)行了廣泛的實驗,該框架在多個下游任務(wù)上都展示出了非常出色的性能提升效果,這也側(cè)面表明MAE模式在基礎(chǔ)視覺感知任務(wù)上仍然不過時,具有進(jìn)一步研究的價值。

29b14b20-dfd6-11ed-bfe3-dac502259ad0.png

論文鏈接: https://arxiv.org/abs/2303.08129 代碼鏈接: https://github.com/BLVLab/PiMAE

從2021年kaiming大佬首次提出MAE(Masked Autoencoders)以來,計算機視覺社區(qū)已經(jīng)出現(xiàn)了很多基于MAE的工作,例如將MAE建模拓展到視頻序列中,或者直接對MAE原始結(jié)構(gòu)進(jìn)行改進(jìn),將MAE嵌入到層次的Transformer結(jié)構(gòu)中等等。截止到現(xiàn)在,MAE原文在谷歌學(xué)術(shù)的引用量已經(jīng)達(dá)到1613。

29dd02ba-dfd6-11ed-bfe3-dac502259ad0.png

MAE以其簡單的實現(xiàn)方式、強大的視覺表示能力,可以在很多基礎(chǔ)視覺任務(wù)中展現(xiàn)出良好的性能。但是目前的工作大多是在單一視覺模態(tài)中進(jìn)行,那MAE在多模態(tài)數(shù)據(jù)融合方面表現(xiàn)如何呢?本文為大家介紹一項剛剛被視覺頂會CVPR2023接收的工作,在這項工作中,作者重點探索了點云數(shù)據(jù)和RGB圖像數(shù)據(jù),并且提出了一種基于MAE的自監(jiān)督擴(kuò)模態(tài)協(xié)同感知框架PiMAE。具體來說,PiMAE可以從三個方面來提升模型對3D點云和2D圖像數(shù)據(jù)的交互性能:

1. PiMAE設(shè)計了一個多模態(tài)映射模塊來對兩個不同模態(tài)的masked和可見的tokens進(jìn)行對齊,這一設(shè)計強調(diào)了mask策略在兩個不同模態(tài)中的重要性。

2. 隨后,作者為PiMAE設(shè)計了兩個MAE支路和一個共享的解碼器來實現(xiàn)masked tokens之間的跨模態(tài)交互。

3. 最后PiMAE通過一個新型的跨模態(tài)重建模塊來進(jìn)一步提升兩個模態(tài)的表征學(xué)習(xí)效果。

作者在兩個大規(guī)模多模態(tài)RGB-D場景理解基準(zhǔn)(SUN RGB-D和ScannetV2)上對PiMAE進(jìn)行了大量評估,PiMAE在3D目標(biāo)檢測、2D目標(biāo)檢測以及小樣本圖像分類任務(wù)上都展現(xiàn)出了優(yōu)越的性能。

一、介紹

深度學(xué)習(xí)技術(shù)目前已經(jīng)成為很多自動化裝備的基礎(chǔ)感知手段,例如工業(yè)機器人自動駕駛。在這些實際場景中,機器可以通過攝像頭和眾多傳感器獲得大量的3D或2D點云數(shù)據(jù)以及RGB圖像數(shù)據(jù)。由于成對的2D像素和3D點云可以更全面的呈現(xiàn)同一場景的不同視角,將這些多模態(tài)信息高效的結(jié)合起來可以提高模型決策的準(zhǔn)確性。在本文中,作者旨在探索這樣一個問題:如何設(shè)計一個高效的多模態(tài)(3D點云和RGB模態(tài))無監(jiān)督交互學(xué)習(xí)框架,來實現(xiàn)更好的表征學(xué)習(xí)?為此,作者選用kaiming提出的MAE作為基礎(chǔ)架構(gòu),MAE可以通過一種簡單的自監(jiān)督任務(wù)實現(xiàn)一個強大的ViT預(yù)訓(xùn)練框架。但是MAE在多種模態(tài)交互的情況下表現(xiàn)如何,仍然是未知的。

29f2d9c8-dfd6-11ed-bfe3-dac502259ad0.png

為了探索多模態(tài)3D點云和RGB圖像數(shù)據(jù)交互融合性能,本文提出了PiMAE,這是一種簡單而有效的多模態(tài)MAE框架,PiMAE可以通過交互機制來學(xué)習(xí)更魯棒的3D和2D特征。PiMAE的整體框架如上圖所示,具體來說,PiMAE將成對的3D點云和圖像數(shù)據(jù)作為輸入,并對兩種輸入做一種互補的mask操作。然后對其進(jìn)行編碼得到tokens,將3D點云token投影到RGB圖像塊中,明確對齊兩種模態(tài)之間的Mask關(guān)系。作者認(rèn)為通過這種mask策略可以幫助點云token從圖像嵌入中獲得互補信息,反之亦然。隨后作者設(shè)計了一種對稱的自動編碼器結(jié)構(gòu)來進(jìn)行模態(tài)特征融合,自編碼器由模態(tài)特定編碼器(Specific Encoders)的獨立分支和共享編解碼器構(gòu)成,PiMAE通過多模態(tài)重構(gòu)任務(wù)(即點云重構(gòu)和圖像重構(gòu))來完成兩種模態(tài)的交互和表征學(xué)習(xí)。

二、方法介紹

給定3D點云和RGB多模態(tài)數(shù)據(jù)后,PiMAE通過一種聯(lián)合嵌入的方式來學(xué)習(xí)跨模態(tài)特征。在具體操作中,作者首先對點云數(shù)據(jù)進(jìn)行采樣并執(zhí)行聚類算法將點云數(shù)據(jù)嵌入到token中,然后對點云token進(jìn)行隨機mask。mask后的token隨后被轉(zhuǎn)換到2D平面中,同時RGB圖像塊以互補mask的形式也嵌入到RGB token中。隨后兩個模態(tài)的token數(shù)據(jù)通過PiMAE的聯(lián)合編解碼器進(jìn)行特征建模和融合。

29f2d9c8-dfd6-11ed-bfe3-dac502259ad0.png

PiMAE中的編碼器-解碼器架構(gòu)同時整合了模態(tài)獨立分支和模態(tài)共享分支,其中前者用來保持模型對特定模態(tài)的學(xué)習(xí),后者鼓勵模型通過跨模態(tài)的特征交互來實現(xiàn)模態(tài)之間的高效對齊。

2.1 token投影和對齊

在對點云和RGB圖像進(jìn)行處理時,作者遵循MAE和Point-M2AE[1]中的做法,對于RGB圖像,作者將圖像先分成不重疊的圖像塊,并且為每個塊添加位置編碼嵌入和模態(tài)嵌入,隨后將他們送入到投影層。對于點云數(shù)據(jù),先通過最遠(yuǎn)點采樣(Farthest Point Sampling,F(xiàn)PS)和KNN算法提取聚類中心token,然后同樣為每個中心token添加編碼嵌入和模態(tài)嵌入,并送入到線性投影層。

2.1.1 投影

為了實現(xiàn)多模態(tài)token之間的對齊,作者通過將點云token投影到相機的2D圖像平面上來建立 3D點云和RGB圖像像素之間的嵌入聯(lián)系。對于3D點云2a1f6ca4-dfd6-11ed-bfe3-dac502259ad0.png,可以使用下面定義的投影函數(shù)?Proj?計算出相應(yīng)的2D坐標(biāo):

2a2b2daa-dfd6-11ed-bfe3-dac502259ad0.png

其中 K∈3×4,Rt∈4×4是相機的內(nèi)在和外置參數(shù)矩陣。(x,y,z),(u,v)是點 P 的原始3D坐標(biāo)和投影得到的2D坐標(biāo)。

2.1.2 Mask對齊方式

由于點云token是由一系列聚類中心構(gòu)成,作者隨機從中選擇一部分中心點作為采樣區(qū)域。對于可見點云標(biāo)記Tp,將它們的中心點2a3a56d6-dfd6-11ed-bfe3-dac502259ad0.png投影到相應(yīng)的2D相機平面并獲得其2D坐標(biāo)?2a45842a-dfd6-11ed-bfe3-dac502259ad0.png?它可以自然地落入形狀為?H×W(即圖像形狀)的區(qū)域內(nèi),可以通過以下方式來獲得其相對應(yīng)圖像塊的索引2a4ff22a-dfd6-11ed-bfe3-dac502259ad0.png

2a5c2356-dfd6-11ed-bfe3-dac502259ad0.png

其中 u 和 v表示二維坐標(biāo) p 的 x 軸值和 y 軸值,S 是圖像塊大小。

2a65d40a-dfd6-11ed-bfe3-dac502259ad0.png

在對每個可見點云token進(jìn)行投影和索引后,就可以獲得它們對應(yīng)的圖像塊,如上圖所示。隨后作者使用了一種顯示的mask策略來實現(xiàn)token對齊,具體來說,一個隨機采樣的點云區(qū)域(上圖黑色圓圈處)被投影到圖像塊(藍(lán)色方塊)上,其他點云區(qū)域以類似的方式進(jìn)行采樣和投影(黃色方塊),來構(gòu)成正向Mask模式(Uniform)。相反,上圖右下區(qū)域是相應(yīng)的互補Mask模式(Complement)。

2.2 編碼器和解碼器

2.2.1 編碼器

PiMAE的編碼器遵循AIST++[2]的設(shè)計,由兩個模塊構(gòu)成:模態(tài)特定編碼器和跨模態(tài)編碼器。前者用于更好地提取特定于當(dāng)前模態(tài)的特征,后者用于進(jìn)行跨模態(tài)特征之間的交互。在這一過程中,編碼器側(cè)重于保持不同模態(tài)特征的完整性,可以形式化表示為:

2a7e6a88-dfd6-11ed-bfe3-dac502259ad0.png

其中2a8ddc2a-dfd6-11ed-bfe3-dac502259ad0.png和?2a9bb214-dfd6-11ed-bfe3-dac502259ad0.png是特定于圖像和特定于點云的編碼器,2aa5047c-dfd6-11ed-bfe3-dac502259ad0.png?和?2ab2235a-dfd6-11ed-bfe3-dac502259ad0.png?是可見圖像和點云token,2abc66a8-dfd6-11ed-bfe3-dac502259ad0.png?和?2ac99eea-dfd6-11ed-bfe3-dac502259ad0.png是圖像和點云相應(yīng)的嵌入空間。

2.2.2 解碼器

原始MAE框架中的解碼器是建立在一個具有統(tǒng)一表征能力的編碼基礎(chǔ)之上,但是本文的設(shè)定是編碼器同時捕獲圖像和點云數(shù)據(jù)的特征表示。由于兩種模態(tài)之間的差異,需要使用專門的解碼器將這些特征解碼為各自的模態(tài)。形式上,作者將PiMAE的共享解碼器的輸入表示為2ad4d94a-dfd6-11ed-bfe3-dac502259ad0.png,其中包括編碼的可見特征和兩種模態(tài)的mask tokens。隨后共享解碼器會對這些特征2ae2ff52-dfd6-11ed-bfe3-dac502259ad0.png執(zhí)行跨模態(tài)交互:2aed7a18-dfd6-11ed-bfe3-dac502259ad0.png。然后,在單獨模態(tài)的解碼器階段,解碼器將特征重構(gòu)回原始圖像和點云空間?2af7705e-dfd6-11ed-bfe3-dac502259ad0.png

。其中2b0079ec-dfd6-11ed-bfe3-dac502259ad0.png?和2b08e29e-dfd6-11ed-bfe3-dac502259ad0.png?是圖像特定和點云特定解碼器,2b11163a-dfd6-11ed-bfe3-dac502259ad0.png?和?2b1a0308-dfd6-11ed-bfe3-dac502259ad0.png

是可見圖像和點云區(qū)域,2b278136-dfd6-11ed-bfe3-dac502259ad0.png??和?2b35a8f6-dfd6-11ed-bfe3-dac502259ad0.png是圖像和點云嵌入空間,重構(gòu)過程的損失函數(shù)如下:

2b433d90-dfd6-11ed-bfe3-dac502259ad0.png

其中2b4cd184-dfd6-11ed-bfe3-dac502259ad0.png?是2b553112-dfd6-11ed-bfe3-dac502259ad0.pngChamfer Distance函數(shù)(倒角距離),2b5e0030-dfd6-11ed-bfe3-dac502259ad0.png表示解碼器重構(gòu)函數(shù),2b6a72de-dfd6-11ed-bfe3-dac502259ad0.png?是點云嵌入表示,2b71ac02-dfd6-11ed-bfe3-dac502259ad0.png?是點云ground-truth(即點云輸入)。

2.3 跨模態(tài)重構(gòu)

本文使用三種不同的損失聯(lián)合訓(xùn)練PiMAE:點云重建損失、圖像重建損失和跨模式重建損失。在最后的重建階段,作者利用先前對齊的關(guān)系來獲得mask點云區(qū)域相應(yīng)的二維坐標(biāo)。然后,對重建的圖像特征進(jìn)行上采樣,這樣每個具有2D坐標(biāo)的mask點云都可以與重建的圖像特征相關(guān)聯(lián)。最后,mask點云token通過一個跨模態(tài)預(yù)測頭來恢復(fù)相應(yīng)的可見圖像特征。形式上,跨模式重建損失定義為:

2b79d800-dfd6-11ed-bfe3-dac502259ad0.png

其中2b8878ba-dfd6-11ed-bfe3-dac502259ad0.png?表示均方誤差損失函數(shù),2b91410c-dfd6-11ed-bfe3-dac502259ad0.png?是解碼器的跨模態(tài)重建函數(shù),2b9a42e8-dfd6-11ed-bfe3-dac502259ad0.png是點云表示,2ba29934-dfd6-11ed-bfe3-dac502259ad0.png?是圖像表示。PiMAE通過聯(lián)合以上損失來進(jìn)行訓(xùn)練,通過這樣的設(shè)計,PiMAE可以分別學(xué)習(xí)3D和2D特征,同時保持兩種模態(tài)之間的強交互性。

2bafe35a-dfd6-11ed-bfe3-dac502259ad0.png

三、實驗效果

本文的實驗在兩個大規(guī)模多模態(tài)RGB-D場景理解基準(zhǔn)(SUN RGB-D和ScannetV2)上進(jìn)行,作者先在SUN RGB-D訓(xùn)練集對PiMAE進(jìn)行預(yù)訓(xùn)練,并在多個下游任務(wù)上對PiMAE進(jìn)行評估,包括3D目標(biāo)檢測、3D單目目標(biāo)檢測、2D目標(biāo)檢測和小樣本圖像分類。

3.1 室內(nèi)3D目標(biāo)檢測

對于室內(nèi)的3D目標(biāo)檢測任務(wù),作者將PiMAE的3D特征編碼器加入到不同的backbone網(wǎng)絡(luò)中來提高特征提取的能力,從而實現(xiàn)3D目標(biāo)檢測的能力。作者以兩個SOTA模型3DETR和GroupFree3D來作為baseline模型,如下表所示,本文的PiMAE為兩個模型都帶來了顯著的性能提升,在所有數(shù)據(jù)集上都超過了之前的基線方法。

2bbd72b8-dfd6-11ed-bfe3-dac502259ad0.png

3.2 室外單目3D目標(biāo)檢測

除了室內(nèi)環(huán)境,作者也展示了更具挑戰(zhàn)性的室外場景效果。與室內(nèi)預(yù)訓(xùn)練數(shù)據(jù)相比,室外場景的數(shù)據(jù)具有很大的數(shù)據(jù)分布差距。如下圖所示,本文方法對MonoDETR方法實現(xiàn)了實質(zhì)性的改進(jìn),這證明,PiMAE預(yù)訓(xùn)練對室內(nèi)和室外場景都具有很強的泛化能力。

2bd451ae-dfd6-11ed-bfe3-dac502259ad0.png

3.3 2D目標(biāo)檢測

對于2D目標(biāo)檢測任務(wù),作者直接將PiMAE中的2D分支特征提取器部署在DETR上,并在ScanNetV2 2D檢測數(shù)據(jù)集上進(jìn)行評估。效果如下表所示,PiMAE預(yù)訓(xùn)練可以顯著提高DETR的檢測性能。

2be2ffd8-dfd6-11ed-bfe3-dac502259ad0.png

3.4 小樣本圖像分類

對于few-shot圖像分類任務(wù),作者選取了三個不同的基準(zhǔn)來探索PiMAE圖像編碼器的特征提取能力。為了驗證PiMAE的有效性,作者沒有改動原有模型的分類器,僅在特征編碼器中添加一個線性層,并基于[CLS] token作為輸入來預(yù)測類別。下表展示了PiMAE在小樣本圖像分類任務(wù)上的結(jié)果。與從頭開始訓(xùn)練的模型相比,經(jīng)過PiMAE預(yù)訓(xùn)練的模型具有顯著的性能提升。

2bf3e71c-dfd6-11ed-bfe3-dac502259ad0.png

此外,為了驗證PiMAE跨模態(tài)交互設(shè)計的有效性,作者在下圖中可視化了共享編碼器中的注意力圖??梢钥吹?,PiMAE更專注于具有更高注意力值的更多前景目標(biāo),顯示出較強的跨模態(tài)理解能力。

2c0686ba-dfd6-11ed-bfe3-dac502259ad0.png

四、總結(jié)

本文提出了一種基于MAE的跨模態(tài)交互式自編碼器PiMAE,PiMAE同時具有強大的3D點云和RGB圖像特征提取能力。作者通過三個方面的獨特設(shè)計來促進(jìn)多模態(tài)學(xué)習(xí)過程中的交互效果。首先,通過一種顯示的點云圖像對齊mask策略可以實現(xiàn)更好的特征融合。接下來,設(shè)計了一個共享解碼器來同時對兩種模態(tài)中的token進(jìn)行處理。最后,跨模態(tài)重建機制可以高效的對整體框架進(jìn)行優(yōu)化。作者對提出的PiMAE進(jìn)行了廣泛的實驗,PiMAE在多個下游任務(wù)上都展示出了非常出色的性能提升效果,這也側(cè)面表明MAE模式在基礎(chǔ)視覺感知任務(wù)上仍然不過時,具有進(jìn)一步研究的價值。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1161

    瀏覽量

    41586
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3753

    瀏覽量

    136676
  • 目標(biāo)檢測
    +關(guān)注

    關(guān)注

    0

    文章

    220

    瀏覽量

    15851

原文標(biāo)題:CVPR 2023 | MAE再發(fā)力,跨模態(tài)交互式自編碼器PiMAE席卷3D目標(biāo)檢測領(lǐng)域

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    基于變分自編碼器的異常小區(qū)檢測

    出來?! ”疚奶岢隽艘环N基于變分自編碼器的異常小區(qū)檢測方法,其基本原理是利用異常小區(qū)的KPI數(shù)據(jù)在通過變分自編碼器編碼與解碼過程中所產(chǎn)生的較大波動來實現(xiàn)異常
    發(fā)表于 12-03 15:06

    如何在交互式人臉檢測演示中將Web瀏覽流用作目標(biāo)輸入?

    無法將 Web 瀏覽流用作交互式人臉檢測演示的目標(biāo)輸入。
    發(fā)表于 08-15 06:02

    基于深度自編碼網(wǎng)絡(luò)的慢速移動目標(biāo)檢測

    強雜波背景下的慢速目標(biāo)檢測存在低多普勒頻移、雜波干擾嚴(yán)重、魯棒性不足、特征提取困難與信息利用不充分等問題。為此,提出一種基于深度自編碼網(wǎng)絡(luò)的寬帶信號目標(biāo)
    發(fā)表于 03-29 11:29 ?0次下載
    基于深度<b class='flag-5'>自編碼</b>網(wǎng)絡(luò)的慢速移動<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>

    是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

    標(biāo)準(zhǔn)自編碼器能學(xué)習(xí)生成緊湊的數(shù)據(jù)表達(dá)并重建輸入數(shù)據(jù),然而除了像去噪自編碼器等為數(shù)不多的應(yīng)用外,它的應(yīng)用卻極其有限。其根本原因在于自編碼器將輸入轉(zhuǎn)換為隱含空間中的表達(dá)并不是連續(xù)的,使得其中的插值和擾動難以完成。
    的頭像 發(fā)表于 04-19 16:48 ?1.4w次閱讀
    是什么讓變分<b class='flag-5'>自編碼器</b>成為如此成功的多媒體生成工具呢?

    Torch 3D通過AR工具來開拓3D設(shè)計領(lǐng)域

    3D中設(shè)計和創(chuàng)建可能有點棘手。對于許多領(lǐng)域,需要專業(yè)知識,以及從頭開始使用3D計算機輔助設(shè)計應(yīng)用程序或代碼的技能。Torch 3D Inc 。正試圖通過提供一款移動增強現(xiàn)實(AR)
    發(fā)表于 10-08 10:27 ?1434次閱讀

    英偉達(dá)再出新研究成果 可以渲染合成交互式3D環(huán)境的AI技術(shù)

    據(jù)透露,英偉達(dá)最新研發(fā)的這項成果,是可以渲染合成交互式3D環(huán)境的AI技術(shù)。在創(chuàng)建逼真的3D環(huán)境時,英偉達(dá)研發(fā)團(tuán)隊不再使用傳統(tǒng)的圖形技術(shù),而是使用神經(jīng)網(wǎng)絡(luò) ,特別是“生成模型”,通過來自如YouTube等來源的真實視頻,進(jìn)行模型訓(xùn)
    發(fā)表于 12-12 09:22 ?1059次閱讀

    自編碼器介紹

    自編碼器若僅要求X≈Y,且對隱藏神經(jīng)元進(jìn)行稀疏約束,從而使大部分節(jié)點值為0或接近0的無效值,便得到稀疏自動編碼算法。一般情況下,隱含層的神經(jīng)元數(shù)應(yīng)少于輸入X的個數(shù),因為此時才能保證這個網(wǎng)絡(luò)結(jié)構(gòu)的價值。
    發(fā)表于 06-11 15:07 ?5060次閱讀

    自編碼器基礎(chǔ)理論與實現(xiàn)方法、應(yīng)用綜述

    、異常檢測、數(shù)據(jù)生成等。該文對傳統(tǒng)自編碼基礎(chǔ)理論、自編碼方法、改進(jìn)技術(shù)以及應(yīng)用領(lǐng)域進(jìn)行了比較全面的綜述,首先,該文介紹傳統(tǒng)自編碼基礎(chǔ)理論與實
    發(fā)表于 03-31 11:24 ?9次下載
    <b class='flag-5'>自編碼器</b>基礎(chǔ)理論與實現(xiàn)方法、應(yīng)用綜述

    自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實驗綜述

    、異常檢測、數(shù)據(jù)生成等。該文對傳統(tǒng)自編碼基礎(chǔ)理論、自編碼方法、改進(jìn)技術(shù)以及應(yīng)用領(lǐng)域進(jìn)行了比較全面的綜述。首先,該文介紹傳統(tǒng)自編碼基礎(chǔ)理論與實
    發(fā)表于 06-07 16:38 ?7次下載

    華南理工開源VISTA:雙視角空間注意機制實現(xiàn)3D目標(biāo)檢測SOTA

    我們提出了一種新穎的即插即用融合模塊:雙視角空間注意機制 (VISTA),以產(chǎn)生融合良好的多視角特征,以提高 3D 目標(biāo)檢測器的性能。我
    的頭像 發(fā)表于 04-07 09:39 ?1648次閱讀

    自編碼器 AE(AutoEncoder)程序

    原文鏈接 1.程序講解 (1)香草編碼器 在這種自編碼器的最簡單結(jié)構(gòu)中,只有三個網(wǎng)絡(luò)層,即只有一個隱藏層的神經(jīng)網(wǎng)絡(luò)。它的輸入和輸出是相同的,可通過使用Adam優(yōu)化和均方誤差損失函數(shù),來學(xué)習(xí)如何重構(gòu)
    的頭像 發(fā)表于 01-11 17:29 ?1581次閱讀
    <b class='flag-5'>自編碼器</b> AE(AutoEncoder)程序

    工業(yè)儀器3D交互式產(chǎn)品展示的亮點

    在現(xiàn)代工業(yè)生產(chǎn)中,工業(yè)儀器起著重要的作用。如何推銷展示這些復(fù)雜龐大的工業(yè)儀器效果更好? 3D交互式產(chǎn)品展示 就是一個不錯的方法,廣州華銳互動利用3D可視化技術(shù),將工業(yè)儀器的構(gòu)造和功能還原到線上,可以
    的頭像 發(fā)表于 05-18 15:11 ?587次閱讀

    如何搞定自動駕駛3D目標(biāo)檢測!

    可用于自動駕駛場景下基于圖像的3D目標(biāo)檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個任務(wù),這里只報告了3D檢測基準(zhǔn)(例如KITTI
    發(fā)表于 01-05 10:43 ?743次閱讀
    如何搞定自動駕駛<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>!

    自編碼器的原理和類型

    (Decoder)。編碼器負(fù)責(zé)將輸入數(shù)據(jù)映射到一個低維的潛在空間(latent space),而解碼則負(fù)責(zé)將這個低維表示映射回原始輸入空間,從而實現(xiàn)對輸入數(shù)據(jù)的重構(gòu)。自編碼器目標(biāo)
    的頭像 發(fā)表于 07-09 11:25 ?2112次閱讀

    Google DeepMind發(fā)布Genie 2:打造交互式3D虛擬世界

    交互式體驗。 據(jù)了解,Genie 2是一個自回歸潛在擴(kuò)散模型,它基于大型視頻數(shù)據(jù)集進(jìn)行訓(xùn)練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學(xué)模型中。該模型采用與大語言模型類似的因果掩碼進(jìn)行訓(xùn)練,從而實現(xiàn)了對3D
    的頭像 發(fā)表于 12-05 14:16 ?908次閱讀