一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度學習的收集透明物體深度數(shù)據(jù)的光學傳感器算法

電子設(shè)計 ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-12-23 11:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器人計算機視覺領(lǐng)域,光學 3D 距離傳感器已經(jīng)得到了廣泛應(yīng)用,比如 RGB-D 攝像頭和 LIDAR 傳感器,都在 3D 環(huán)境繪制和無人駕駛等任務(wù)中扮演了重要角色。

盡管它們性能十分強大,兼具高敏感度、高精度和高可靠性等特質(zhì),但在識別透明物體上卻不盡如人意。想要破壞這些傳感器的成像效果,或者讓機械手臂無從下手,只需要在它們面前放上玻璃杯一類的透明物體就可以了,因此難以在不使用其他傳感器的情況下獨立完成特定任務(wù)。

這是因為光學傳感器算法假設(shè)所有表面均是理想散射的 (Lambert),即物體會在各個方向和各個角度均勻地反射光線。在 Lambert 光照模型中,無論觀察者的視角如何,其表面亮度都是相同的。

現(xiàn)實中的絕大多數(shù)物體符合這一假設(shè),除了透明物體,因為它們的表面既折射又反射光線。這樣一來,光線傳播的復(fù)雜性大幅提升,表面亮度與視角無關(guān)的假設(shè)被破壞了,基于 Lambert 模型的算法也就失效了,導(dǎo)致傳感器收集的透明物體的大多數(shù)深度數(shù)據(jù)都是噪聲或者無效的。

圖 | 透明物體在傳統(tǒng)算法眼中是噪聲(來源:谷歌 AI

為了改善這一問題,讓機器可以更好地感知透明表面,谷歌 AI,Synthesis AI 和哥倫比亞大學的研究人員合作開發(fā)了一種名為 ClearGrasp 的機器學習算法,能夠從 RGB-D 圖像中估算透明物體的準確 3D 數(shù)據(jù)。

根據(jù)谷歌 AI 介紹,在設(shè)計之初,ClearGrasp算法就考慮到了兼容性。它可以與任何標準 RGB-D 相機捕捉的數(shù)據(jù)配合使用,借助神經(jīng)網(wǎng)絡(luò)深度學習來準確地重建透明物體的景深數(shù)據(jù)。

圖 | ClearGrasp 算法的工作原理(來源:谷歌 AI)

與目前所使用的技術(shù)不同,ClearGrasp 算法不依賴于對透明物體的先驗知識,比如預(yù)先對透明物體進行 3D 建模,還要補充觀察視角和光線數(shù)據(jù)。在神經(jīng)網(wǎng)絡(luò)的幫助下,它可以很好地泛化到從未見過的全新物體身上。

在測試過程中,研究人員將新算法集成到了一套現(xiàn)有的拾取機器人控制系統(tǒng)中,最終發(fā)現(xiàn)它對透明塑料物體的抓取成功率有了非常顯著的提升,最多可以提升 6 倍。未來有望在拾取機器人和自動駕駛等領(lǐng)域應(yīng)用。

透明對象的可視數(shù)據(jù)集

無論是什么樣的深度學習模型,訓(xùn)練時都要依賴于大量數(shù)據(jù),比如訓(xùn)練自然語言模型 BERT 需要維基百科,ClearGrasp 也不例外。然而目前廣泛使用的 3D 數(shù)據(jù)集,包括 Matterport3D 和 ScanNet,都會忽略透明表面和物體,因為標記過程過于復(fù)雜和耗時。

這讓研究人員不得不自己創(chuàng)建訓(xùn)練集和測試集,專門針對透明對象設(shè)計。

在訓(xùn)練數(shù)據(jù)集中,他們創(chuàng)造了 5 萬多個符合真實物理原則的渲染圖,每張圖片最多包含 5 個透明物體,放置于平面上或者開放式容器中,視角、背景和光線各不相同。每個物體還有配套的表面法線(曲率)、分割蒙版、邊緣和深度等信息,用于訓(xùn)練各種 2D 和 3D 物體檢測任務(wù)。

至于測試集,研究團隊選擇用真實場景創(chuàng)建圖片和數(shù)據(jù),方便最大程度上測試算法的真實表現(xiàn)。這是一個十分痛苦的過程,因為對于每個場景都要在保證視角、光線和場景布置完全一致的情況下照兩遍:第一遍用透明物體,第二遍用一模一樣的非透明物體替換它們(必須保證位置完全一樣)。

最終他們得到了 286 個真實場景測試圖,其中不僅包括透明物體本身,還有各種不同的背景貼圖和隨機不透明物體。圖片中既包含訓(xùn)練集中存在的已知對象,也包括從未出現(xiàn)過的新物體。

在數(shù)據(jù)集的問題解決之后,下一步是思考如何收集透明物體的深度數(shù)據(jù)。

雖然在透明物體上,RGB-D 經(jīng)典的深度估算方法無法給出準確數(shù)據(jù),但仍然有一些蛛絲馬跡暗示了物體的形狀。最重要的一點是,透明表面會出現(xiàn)鏡面反射,在光線充足的環(huán)境中會顯示成亮點,在 RGB 圖像中非常明顯,而且主要受到物體形狀的影響。

因此,卷積神經(jīng)網(wǎng)絡(luò)可以利用這些反射數(shù)據(jù)推斷出準確的表面法線,然后將其用于深度估算。

另一方面,大多數(shù)機器學習算法都嘗試直接從單眼 RGB 圖像中估計深度,不過即使對于人類而言,這也是一個困難的任務(wù)。尤其在背景表面比較平滑時,現(xiàn)有算法對深度的估計會出現(xiàn)很大的誤差。這也會進一步加大透明物體深度的估算誤差。

基于此,研究人員認為與其直接估算透明物體深度,不如矯正 RGB-D 相機的初始深度估算數(shù)據(jù)。這樣更容易實現(xiàn),還可以通過非透明表面的深度來推算透明表面的深度。

ClearGrasp 算法

ClearGrasp 算法使用了三個神經(jīng)網(wǎng)絡(luò):一個用于估計表面法線,一個用于分析受遮擋邊界(深度不連續(xù)),另一個給透明對象罩上蒙版。蒙版負責刪除透明對象的所有像素,以便填充上正確的深度數(shù)據(jù)。

研究人員使用了一種全局優(yōu)化模塊,可以預(yù)測表面法線并利用其來引導(dǎo)形狀的重建,實現(xiàn)對已知表面深度的拓展,還可以利用推算出的遮擋邊界來保持不同物體之間的分離狀態(tài)。

由于研究人員創(chuàng)建的數(shù)據(jù)集存在局限性,比如訓(xùn)練圖片只包含放在地平面上的透明物體,因此初期的 ClearGrasp 算法判斷墻壁等其他表面法線的表現(xiàn)很差。為了改善這一問題,他們在表面法線估算訓(xùn)練中加入了 Matterport3D 和 ScanNet 數(shù)據(jù)集中的真實室內(nèi)場景,雖然沒有透明物體,但針對真實場景的訓(xùn)練有效提高了算法估算表面法線的準確率。

圖 | 三套神經(jīng)網(wǎng)絡(luò)各有不同分工(來源:谷歌 AI)

為了系統(tǒng)分析 ClearGrasp 的性能,研究人員分別利用 RGB-D 數(shù)據(jù)和 ClearGrasp 數(shù)據(jù)構(gòu)造了 3D 點云。點云顯示了算法所生成的 3D 表面形狀干凈且連貫,沒有原始單眼深度估算法中常見的鋸齒狀噪聲,而且還可以分辨復(fù)雜圖案背景下的透明物體,以及區(qū)分相互遮擋的透明物體。

最重要的是,ClearGrasp 輸出深度數(shù)據(jù)可以直接控制依賴于 RGB-D 圖像的機械臂。

研究人員使用了 UR5 工業(yè)機械臂進行測試,將其原始傳感器數(shù)據(jù)替換成 ClearGrasp 輸出深度數(shù)據(jù)后,它的透明物體抓取成功率得到了顯著改善:平行夾爪的成功率從 12% 大幅提升到 74%,吸爪的成功率從 64% 提升到 86%。

雖然分辨透明物體的準確率已經(jīng)有了大幅提升,但新算法仍然有很大的進步空間。

研究人員認為,受到訓(xùn)練數(shù)據(jù)集和傳統(tǒng)路徑跟蹤及渲染算法的局限性影響,ClearGrasp 仍然不能準確分辨散焦線,經(jīng)常會把明亮的散焦線和物體陰影混淆為獨立的透明物體。這將是未來的重要研究方向之一。

研究人員相信,這項研究成果證明了,基于深度學習的深度數(shù)據(jù)重建方法足以勝過傳統(tǒng)方法,使機器能夠更好地感知透明表面,不僅有望提高 LIDAR 無人駕駛等技術(shù)的安全性,而且還可以在多變的應(yīng)用場景中開啟新的交互方式,讓分類機器人或者室內(nèi)導(dǎo)航等技術(shù)更加高效和可靠。

編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212906
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1709

    瀏覽量

    46781
  • 距離傳感器
    +關(guān)注

    關(guān)注

    3

    文章

    76

    瀏覽量

    15447
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122798
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    技術(shù)指南丨深視智能點光譜共焦位移傳感器測量透明物體厚度操作指南

    深視智能光譜共焦位移傳感器SCI系列透明物體厚度測量操作指南旨在協(xié)助用戶更加全面地了解我們的傳感器設(shè)備。為方便后續(xù)
    的頭像 發(fā)表于 06-16 08:19 ?297次閱讀
    技術(shù)指南丨深視智能點光譜共焦位移<b class='flag-5'>傳感器</b>測量<b class='flag-5'>透明</b><b class='flag-5'>物體</b>厚度操作指南

    光學傳感器的工作原理與應(yīng)用

    在現(xiàn)代科技的廣闊天地中,光學傳感器如同一雙雙敏銳的“眼睛”,無處不在地捕捉著光線中的信息,將其轉(zhuǎn)化為可供我們理解和分析的數(shù)字信號。從智能手機上的指紋解鎖,到自動駕駛汽車的精確導(dǎo)航,再到醫(yī)療領(lǐng)域
    的頭像 發(fā)表于 04-15 18:24 ?591次閱讀

    安森美這款iToF傳感器讓3D深度測量技術(shù)輕松落地

    ,更難以獨立識別潛在的凹痕、缺陷或不規(guī)則之處。此外,2D傳感器讀取的數(shù)據(jù)易受光照條件的影響,不理想的光線往往會使關(guān)鍵區(qū)域變得模糊或失真。然而,深度感知技術(shù)通過模擬
    的頭像 發(fā)表于 03-28 14:31 ?556次閱讀
    安森美這款iToF<b class='flag-5'>傳感器</b>讓3D<b class='flag-5'>深度</b>測量技術(shù)輕松落地

    BP神經(jīng)網(wǎng)絡(luò)與深度學習的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度學習的定義與發(fā)展
    的頭像 發(fā)表于 02-12 15:15 ?863次閱讀

    深度數(shù)智DC-ROMA RISC-V Laptop II入選IEEE Spectrum“Top Tech 2025”

    重磅消息!深度數(shù)智的DC-ROMARISC-VLaptopII榮登IEEESpectrum“TopTech2025”專欄!這一殊榮意味著深度數(shù)智的產(chǎn)品在全球科技圈中得到了高度認可和關(guān)注。這不僅肯定了
    的頭像 發(fā)表于 01-09 17:40 ?802次閱讀
    <b class='flag-5'>深度數(shù)</b>智DC-ROMA RISC-V Laptop II入選IEEE Spectrum“Top Tech 2025”

    NPU在深度學習中的應(yīng)用

    設(shè)計的硬件加速,它在深度學習中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習
    的頭像 發(fā)表于 11-14 15:17 ?1918次閱讀

    GPU深度學習應(yīng)用案例

    GPU在深度學習中的應(yīng)用廣泛且重要,以下是一些GPU深度學習應(yīng)用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?1381次閱讀

    激光雷達技術(shù)的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學習技術(shù)的發(fā)展 深度學習是機器學習的一個分支,它通過模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1071次閱讀

    AI大模型與深度學習的關(guān)系

    人類的學習過程,實現(xiàn)對復(fù)雜數(shù)據(jù)學習和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計算資源來進行訓(xùn)練和推理。深度學習
    的頭像 發(fā)表于 10-23 15:25 ?2897次閱讀

    FPGA做深度學習能走多遠?

    并行計算的能力,可以在硬件層面并行處理大量數(shù)據(jù)。這種并行處理能力使得 FPGA 在執(zhí)行深度學習算法時速度遠超傳統(tǒng)處理,能夠提供更低的延遲和
    發(fā)表于 09-27 20:53

    深度識別算法包括哪些內(nèi)容

    深度識別算法深度學習領(lǐng)域的一個重要組成部分,它利用深度神經(jīng)網(wǎng)絡(luò)模型對輸入數(shù)據(jù)進行高層次的理解和
    的頭像 發(fā)表于 09-10 15:28 ?843次閱讀

    深度識別與多目標識別傳感器的區(qū)別

    的三維信息,以識別和理解物體的形狀、大小和位置。這種技術(shù)在自動駕駛汽車、無人機、虛擬現(xiàn)實等領(lǐng)域尤為重要。 1. 技術(shù)原理 深度識別技術(shù)主要依賴于以下幾種傳感器: 激光雷達(LiDAR) :通過發(fā)射激光脈沖并接收反射回來的光來
    的頭像 發(fā)表于 09-10 14:52 ?802次閱讀

    基于大數(shù)據(jù)深度學習的穿戴式運動心率算法

    性能的關(guān)鍵手段。然而,在復(fù)雜多變的運動環(huán)境中,準確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運用大數(shù)據(jù)深度學習技術(shù)來開
    的頭像 發(fā)表于 09-10 08:03 ?646次閱讀
    基于大<b class='flag-5'>數(shù)據(jù)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的穿戴式運動心率<b class='flag-5'>算法</b>

    限定反射型光學傳感器B5W-LB的線纜可以延長多少?

    Omron 限定反射型光學傳感器 B5W-LB 不易受顏色和材質(zhì)影響的限定反射型鏡面、黑色、透明物體也都會檢測出來。
    的頭像 發(fā)表于 08-01 10:03 ?834次閱讀
    限定反射型<b class='flag-5'>光學</b><b class='flag-5'>傳感器</b>B5W-LB的線纜可以延長多少?

    ESP8266-12退出深度睡眠模式時掛起怎么解決?

    我正在使用 adafruits 的 esp8266 HUZZAH 板 (ESP8266-12),該板連接到溫度/濕度傳感器 (DHTxx),該傳感器正在向 thingspeak 發(fā)送溫度/濕度數(shù)據(jù)
    發(fā)表于 07-22 06:26