一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何利用CLIP 的2D 圖像-文本預習知識進行3D場景理解

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-10-29 16:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言:

3D場景理解是自動駕駛、機器人導航等領(lǐng)域的基礎(chǔ)。當前基于深度學習的方法在3D點云數(shù)據(jù)上表現(xiàn)出了十分出色的性能。然而,一些缺點阻礙了它們在現(xiàn)實世界中的應用。第一個原因是他們嚴重依賴大量的帶注釋點云,尤其是當高質(zhì)量的3D注釋獲取成本高昂時。此外,他們通常不能識別訓練數(shù)據(jù)中從未見過的新物體。因此,可能需要額外的注釋工作來訓練模型識別這些新的對象,這既繁瑣又費時。

OpenAI的CLIP為緩解2D視覺中的上述問題提供了一個新的視角。該方法利用網(wǎng)站上大規(guī)模免費提供的圖文對進行訓練,建立視覺語言關(guān)聯(lián),以實現(xiàn)有前景的開放詞匯識別?;诖耍琈askCLIP做了基于CLIP的2D圖像語義分割的擴展工作。在對CLIP預訓練網(wǎng)絡(luò)進行最小修改的情況下,MaskCLIP可以直接用于新對象的語義分割,而無需額外的訓練工作。PointCLIP將CLIP的樣本分類問題從2D圖像推廣到3D點云。它將點云框架透視投影到2D深度圖的不同視圖中,以彌合圖像和點云之間的模態(tài)間隙。上述研究表明了CLIP在2D分割和3D分類性能方面的潛力。然而,CLIP是否可以及如何有利于3D場景理解仍有待探索。

本文探討了如何利用 CLIP 的2D 圖像-文本預習知識進行3D 場景理解。作者提出了一個新的語義驅(qū)動的跨模態(tài)對比學習框架,它充分利用 CLIP 的語義和視覺信息來規(guī)范3D 網(wǎng)絡(luò)。

作者主要的貢獻如下:

1、作者是第一個將CLIP知識提煉到3D網(wǎng)絡(luò)中用于3D場景理解的。

2、作者提出了一種新的語義驅(qū)動的跨模態(tài)對比學習框架,該框架通過時空和語義一致性正則化來預訓練3D網(wǎng)絡(luò)。

3、作者提出了提出了一種新的語義引導的時空一致性正則化,該正則化強制時間相干點云特征與其對應的圖像特征之間的一致性。

4、該方法首次在無注釋的三維場景分割中取得了良好的效果。當使用標記數(shù)據(jù)進行微調(diào)時,本文的方法顯著優(yōu)于最先進的自監(jiān)督方法。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

相關(guān)工作:

三維零樣本學習:

零樣本學習(ZSL)的目標是識別訓練集中看不見的對象。但是目前的方法主要都是基于2D識別的任務(wù),對三維領(lǐng)域執(zhí)行ZSL的研究特別有限。本文進一步研究了 CLIP 中豐富的語義和視覺知識對三維語義分割任務(wù)的影響。

自監(jiān)督表征學習:

自我監(jiān)督學習的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對比學習來與訓練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預訓練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預先訓練的CLIP知識來幫助理解3D場景。

跨模式知識蒸餾:

近年來,越來越多的研究集中于將二維圖像中的知識轉(zhuǎn)化為三維點云進行自監(jiān)督表示學習。本文首先嘗試利用 CLIP 的知識對一個三維網(wǎng)絡(luò)進行預訓練。

具體方法:

本文研究了用于3D場景理解的CLIP的跨模態(tài)知識轉(zhuǎn)移,稱為CLIP2Scene。本文的工作是利用CLIP知識進行3D場景理解的先驅(qū)。本文的方法由三個主要組成部分組成:語義一致性正則化、語義引導的時空一致性規(guī)則化和可切換的自我訓練策略。

66151314-7633-11ee-939d-92fbcf53809c.png

圖1 語義驅(qū)動的跨模態(tài)對比學習圖解。首先,本文分別通過文本編碼器、圖像編碼器和點編碼器獲得文本嵌入、圖像像素特征和點特征。本文利用CLIP知識來構(gòu)建用于對比學習的正樣本和負樣本。這樣就得到了點-文本對和短時間內(nèi)的所有像素點文本對。因此,和分別用于語義一致性正則化和時空一致性規(guī)則化。最后,通過將點特征拉到其相應的文本嵌入來執(zhí)行語義一致性正則化,并通過將時間上相干的點特征模仿到其對應的像素特征來執(zhí)行時空一致性正則化。

CLIP2Scene

語義一致性正則化

由于CLIP是在2D圖像和文本上預先訓練的,作者首先關(guān)注的是2D圖像和3D點云之間的對應關(guān)系。具體的,使用既可以獲得圖像和點云的因此,可以相應地獲得密集的像素-點對應,其中和表示第i個成對的圖像特征和點特征,它們分別由CLIP的圖像編碼器和3D網(wǎng)絡(luò)提取。M是對數(shù)。

661e7012-7633-11ee-939d-92fbcf53809c.png

圖2 圖像像素到文本映射的圖示。密集像素-文本對應關(guān)系是通過MaskCLIP的方法提出的。

本文提出了一種利用CLIP的語義信息的語義一致性正則化。具體而言,本文通過遵循off-the-shelf方法MaskCLIP(圖2)生成密集像素文本對,其中是從CLIP的文本編碼器生成的文本嵌入。請注意,像素文本映射可從CLIP免費獲得,無需任何額外的訓練。然后,我們將像素文本對轉(zhuǎn)換為點文本對,并利用文本語義來選擇正點樣本和負點樣本進行對比學習。目標函數(shù)如下:其中,代表由第個類名生成,并且是類別的數(shù)量。表示標量積運算,是溫度項()。由于文本是由放置在預定義的模板中的類名組成,因此文本嵌入表示相應的類的語義信息。因此那些具有相同語義的點將被限制在相同的文本嵌入附近,而那些具有不同語義的點將被推開。為此,語義一致性正則化會減少對比學習中的沖突。

語義引導的時空一致性正則化

除了語義一致性正則化之外,本文還考慮圖像像素特征如何幫助正則化3D網(wǎng)絡(luò)。自然替代直接引入點特征及其在嵌入空間中的對應像素。然而,圖像像素的噪聲語義和不完美的像素點映射阻礙了下游任務(wù)的性能。為此,提出了一種新的語義引導的時空一致性正則化方法,通過對局部空間和時間內(nèi)的點施加軟約束來緩解這一問題。

具體地,給定圖像和時間相干LiDAR點云,其中,是秒內(nèi)掃描的次數(shù)。值得注意的是圖像與像素點對的點云第一幀進行匹配。本文通過校準矩陣將點云的其余部分配準到第一幀,并將它們映射到圖像上(圖3)。

66259144-7633-11ee-939d-92fbcf53809c.png

圖3 圖像像素到點映射(左)和語義引導的融合特征生成(右)示意圖。本文建立了在秒內(nèi)圖像和時間相干激光雷達點云之間的網(wǎng)格對應關(guān)系,并且生成語義引到的融合特征。和用于執(zhí)行時空一致性正則化。

因此,我們在短時間內(nèi)獲得所有像素點文本對。接下來,作者將整個縫合的點云劃分為規(guī)則網(wǎng)格,其中時間相干點位于同一網(wǎng)格中。本文通過以下目標函數(shù)在各個網(wǎng)格內(nèi)施加時空一致性約束:

其中,代表像素-點對位于第個網(wǎng)格。是一種語義引導的跨模態(tài)融合特征,由以下公式表示:

其中和是注意力權(quán)重是由以下來計算的:

其中代表溫度項。實際上,局部網(wǎng)格內(nèi)的那些像素和點特征被限制在動態(tài)中心附近。因此,這種軟約束減輕了噪聲預測和校準誤差問題。同時,它對時間相干點特征進行了時空正則化處理。

實驗

數(shù)據(jù)集的選擇:兩個室外數(shù)據(jù)集 SemanticKITTI 和 nuScenes一個室內(nèi)數(shù)據(jù)集 ScanNet

無注釋語義分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是針對不同數(shù)據(jù)集的無注釋的3D語義分割的性能表3 是無注釋三維語義分割的nuScenes數(shù)據(jù)集消融研究。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

高效注釋的語義分割

如表1所示,當對1%和100%nuScenes數(shù)據(jù)集進行微調(diào)時,該方法顯著優(yōu)于最先進的方法,分別提高了8.1%和1.1%。與隨機初始化相比,改進幅度分別為14.1%和2.4%,表明了本文的語義驅(qū)動跨模態(tài)對比學習框架的有效性。定性結(jié)果如圖4所示。此外,本文還驗證了該方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

圖4 對1%nuScenes數(shù)據(jù)集進行微調(diào)的定性結(jié)果。從第一行到最后一行分別是輸入激光雷達掃描、真值、SLidR預測和我們的預測。請注意,我們通過誤差圖顯示結(jié)果,其中紅點表示錯誤的預測。顯然,本文的方法取得了不錯的性能。

結(jié)論

在這項名為CLIP2Scene的工作中,作者探討了CLIP知識如何有助于3D場景理解。為了有效地將CLIP的圖像和文本特征轉(zhuǎn)移到3D網(wǎng)絡(luò)中,作者提出了一種新的語義驅(qū)動的跨模態(tài)對比學習框架,包括語義正則化和時空正則化。作者的預訓練3D網(wǎng)絡(luò)首次以良好的性能實現(xiàn)了無注釋的3D語義分割。此外,當使用標記數(shù)據(jù)進行微調(diào)時,我們的方法顯著優(yōu)于最先進的自監(jiān)督方法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2959

    瀏覽量

    110781
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50434
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    7040
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122799

原文標題:結(jié)論

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中國3D引導類相機市場與競爭分析

    3D技術(shù)區(qū)別于2D技術(shù)的一個顯著特征是,除了顯示對象的X和Y值外,還可以提供記錄場景或?qū)ο蟮纳疃戎怠_@為解決復雜任務(wù)提供了全新的可能,特別是在機器人、工廠自動化和醫(yī)療領(lǐng)域。
    的頭像 發(fā)表于 06-28 16:27 ?625次閱讀
    中國<b class='flag-5'>3D</b>引導類相機市場與競爭分析

    X-ray設(shè)備2D/3D檢測金屬材料及零部件裂紋異物的缺陷

    在高端制造領(lǐng)域,金屬材料及零部件的內(nèi)部質(zhì)量直接關(guān)系到產(chǎn)品性能與安全性。X-ray設(shè)備憑借其獨特的穿透成像能力,成為檢測裂紋、異物等缺陷的關(guān)鍵工具,而2D/3D檢測技術(shù)的結(jié)合,更將檢測精度與效率提升
    的頭像 發(fā)表于 06-27 17:23 ?514次閱讀
    X-ray設(shè)備<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>檢測金屬材料及零部件裂紋異物的缺陷

    TechWiz LCD 3D應用:局部液晶配向

    我們所說的局部摩擦是指給液晶盒中不同區(qū)域(可自定義區(qū)域)進行不同的液晶配向,所以也可以稱之為局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以對液晶盒設(shè)置局部摩擦
    發(fā)表于 06-16 08:46

    告別漫長等待! 3D測量竟然可以如此的絲滑

    據(jù)進行實時處理,快速得到全視角的彩色高精度2D圖像3D點云。產(chǎn)品優(yōu)勢01高精度的在線3D檢測采用業(yè)界頂級的CMOS感光元件和超低畸變遠心光
    的頭像 發(fā)表于 05-12 18:01 ?322次閱讀
    告別漫長等待! <b class='flag-5'>3D</b>測量竟然可以如此的絲滑

    HT 可視化監(jiān)控頁面的 2D3D 連線效果

    HT 是一個靈活多變的前端組件庫,具備豐富的功能和效果,滿足多種開發(fā)需求。讓我們將其效果化整為零,逐一拆解具體案例,幫助你更好地理解其實現(xiàn)方案。 此篇文章中,讓我們一起深入探討 2D3D
    的頭像 發(fā)表于 04-09 11:28 ?566次閱讀
    HT 可視化監(jiān)控頁面的 <b class='flag-5'>2D</b> 與 <b class='flag-5'>3D</b> 連線效果

    安森美這款iToF傳感器讓3D深度測量技術(shù)輕松落地

    現(xiàn)代工業(yè)自動化的成功離不開3D視覺技術(shù)的強大功能。傳統(tǒng)的2D傳感器只能提供平面圖像,這使其在設(shè)備檢測等應用中的效能大打折扣。2D傳感器可以讀取包含物品尺寸的條形碼,但無法獨立測量物體的
    的頭像 發(fā)表于 03-28 14:31 ?557次閱讀
    安森美這款iToF傳感器讓<b class='flag-5'>3D</b>深度測量技術(shù)輕松落地

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是一個關(guān)鍵組件,它在端側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來輔助生成3D場景3D標簽,具備重要的研
    的頭像 發(fā)表于 03-17 13:44 ?474次閱讀
    一種以<b class='flag-5'>圖像</b>為中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    使用海爾曼太通/HellermannTyton 3D CAD 模型進行快速高效的設(shè)計

    提供 3D2D CAD 數(shù)據(jù),可供免費下載。 直接嵌入三維設(shè)計環(huán)境的模型下載功能 在海爾曼太通官網(wǎng)上點擊【產(chǎn)品】選項,工程師現(xiàn)在可以查看和下載眾多產(chǎn)品的 3D CAD 模型。下載功能與供應商
    發(fā)表于 03-14 16:55

    TechWiz LCD 3D應用:局部液晶配向

    我們所說的局部摩擦是指給液晶盒中不同區(qū)域(可自定義區(qū)域)進行不同的液晶配向,所以也可以稱之為局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以對液晶盒設(shè)置局部摩擦
    發(fā)表于 02-08 08:52

    AN-1249:使用ADV8003評估板將3D圖像轉(zhuǎn)換成2D圖像

    電子發(fā)燒友網(wǎng)站提供《AN-1249:使用ADV8003評估板將3D圖像轉(zhuǎn)換成2D圖像.pdf》資料免費下載
    發(fā)表于 01-08 14:28 ?0次下載
    AN-1249:使用ADV8003評估板將<b class='flag-5'>3D</b><b class='flag-5'>圖像</b>轉(zhuǎn)換成<b class='flag-5'>2D</b><b class='flag-5'>圖像</b>

    技術(shù)前沿:半導體先進封裝從2D3D的關(guān)鍵

    技術(shù)前沿:半導體先進封裝從2D3D的關(guān)鍵 半導體分類 集成電路封測技術(shù)水平及特點?? ? 1. 發(fā)展概述 ·自20世紀90年代以來,集成電路封裝技術(shù)快速發(fā)展,推動了電子產(chǎn)品向小型化和多功能方向邁進
    的頭像 發(fā)表于 01-07 09:08 ?1689次閱讀
    技術(shù)前沿:半導體先進封裝從<b class='flag-5'>2D</b>到<b class='flag-5'>3D</b>的關(guān)鍵

    TechWiz LCD 3D應用:局部液晶配向

    我們所說的局部摩擦是指給液晶盒中不同區(qū)域(可自定義區(qū)域)進行不同的液晶配向,所以也可以稱之為局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以對液晶盒設(shè)置局部摩擦
    發(fā)表于 01-03 08:58

    UV光固化技術(shù)在3D打印中的應用

    UV光固化3D打印技術(shù)憑借高精度、快速打印環(huán)保優(yōu)勢,在工業(yè)設(shè)計等領(lǐng)域廣泛應用。SLA、DLP及CLIP技術(shù)各具特色,推動3D打印向高速、高精度發(fā)展。
    的頭像 發(fā)表于 11-15 09:35 ?1503次閱讀
    UV光固化技術(shù)在<b class='flag-5'>3D</b>打印中的應用

    傅里葉光場顯微成像技術(shù)—2D顯微鏡實現(xiàn)3D成像

    近年來,光場顯微技術(shù)的應用越來越廣泛,針對光場顯微鏡的改進和優(yōu)化也不斷出現(xiàn)。目前市場各大品牌的2D顯微鏡比比皆是,如何在其基礎(chǔ)上實現(xiàn)三維成像一直是成像領(lǐng)域的熱門話題,本次主要討論3D成像數(shù)字成像相機
    的頭像 發(fā)表于 10-31 08:05 ?878次閱讀
    傅里葉光場顯微成像技術(shù)—<b class='flag-5'>2D</b>顯微鏡實現(xiàn)<b class='flag-5'>3D</b>成像

    3D封裝熱設(shè)計:挑戰(zhàn)與機遇并存

    隨著半導體技術(shù)的不斷發(fā)展,芯片封裝技術(shù)也在持續(xù)進步。目前,2D封裝和3D封裝是兩種主流的封裝技術(shù)。這兩種封裝技術(shù)在散熱路徑和熱設(shè)計方面有著各自的特點和挑戰(zhàn)。本文將深入探討2D封裝和3D
    的頭像 發(fā)表于 07-25 09:46 ?2097次閱讀
    <b class='flag-5'>3D</b>封裝熱設(shè)計:挑戰(zhàn)與機遇并存