一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

未來(lái)實(shí)例分割中更具挑戰(zhàn)性的一個(gè)問(wèn)題 將單個(gè)對(duì)象進(jìn)行細(xì)分

8g3K_AI_Thinker ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-30 17:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,Yann LeCun 等人發(fā)表了一篇針對(duì)未來(lái)實(shí)例分割預(yù)測(cè)的論文。該論文提出了一種預(yù)測(cè)模型,可通過(guò)預(yù)測(cè)卷積特征來(lái)對(duì)未來(lái)實(shí)例分割進(jìn)行預(yù)測(cè)。該算法有以下幾大優(yōu)勢(shì):

可以處理模型輸出大小不固定的情況,如對(duì)象檢測(cè)和實(shí)例分割;

不需要使用帶有標(biāo)記的視頻序列進(jìn)行訓(xùn)練,可以直接從未標(biāo)記的數(shù)據(jù)中計(jì)算出中間的 CNN 特征映射圖;

支持可生成多個(gè)場(chǎng)景解釋的模型,如曲面法線、對(duì)象邊界框和人體部分標(biāo)簽,而不需要針對(duì)這些任務(wù)設(shè)計(jì)合適的編碼器和損失函數(shù)。

▌簡(jiǎn)介

預(yù)測(cè)未來(lái)事件是實(shí)現(xiàn)智能行為的一個(gè)重要的先決條件,而視頻預(yù)測(cè)就是其中一項(xiàng)任務(wù)。最近的研究表明,在對(duì)未來(lái)幀進(jìn)行語(yǔ)義分割時(shí),在語(yǔ)義層面上的預(yù)測(cè),比先預(yù)測(cè) RGB 幀,然后將其分段更加有效。本文考慮了未來(lái)實(shí)例分割中更具挑戰(zhàn)性的一個(gè)問(wèn)題——將單個(gè)對(duì)象進(jìn)行細(xì)分。為了處理各圖像中不同數(shù)量的輸出標(biāo)簽,我們?cè)?Mask R-CNN 實(shí)例分割模型的固定尺寸卷積特征空間中開(kāi)發(fā)了一個(gè)預(yù)測(cè)模型。

我們將 Mask R-CNN 框架的“探測(cè)頭(detection head)”應(yīng)用于預(yù)測(cè)特征,以產(chǎn)生未來(lái)幀的實(shí)例分割。實(shí)驗(yàn)表明,與基于光流(optical flow)的基線相比,該算法在性能上有顯著提升。

圖 1:預(yù)測(cè)未來(lái) 0.5 秒。 光流基線 (a) 和本文算法 (b) 的實(shí)例分割比較。來(lái)自文獻(xiàn) [8] 的算法 (c) 和本文的實(shí)例語(yǔ)義分割算法 (d) 的語(yǔ)義分割比較。實(shí)例建模顯著提高了單個(gè)行人的分割精度。

我們的貢獻(xiàn)如下:

引入未來(lái)實(shí)例預(yù)測(cè)這一新任務(wù),在語(yǔ)義上比之前研究的預(yù)期識(shí)別任務(wù)更為豐富。

基于預(yù)測(cè)未來(lái)幀的高維卷積神經(jīng)網(wǎng)絡(luò)特征的自監(jiān)督算法,支持多種預(yù)期識(shí)別任務(wù)。

實(shí)驗(yàn)結(jié)果表明我們的特征學(xué)習(xí)算法相對(duì)于強(qiáng)光流基線有所改進(jìn)。

預(yù)測(cè)未來(lái)實(shí)例分割的特征

本節(jié)簡(jiǎn)要回顧了 Mask R-CNN 框架實(shí)例分割框架,然后介紹了如何通過(guò)預(yù)測(cè)未來(lái)幀的內(nèi)部 CNN 特征,將該框架用于預(yù)期識(shí)別(anticipated recognition)。

使用 Mask R-CNN 進(jìn)行實(shí)例分割

Mask R-CNN 模型主要由三個(gè)主要階段組成。首先,使用一個(gè) CNN 主干框架結(jié)構(gòu)提取高層特征映射圖。其次,候選區(qū)域生成網(wǎng)絡(luò) (RPN) 利用這些特征以包含實(shí)例邊界框坐標(biāo)的形式產(chǎn)生興趣區(qū)域(ROI)。候選邊界框用作興趣區(qū)域?qū)拥妮斎耄ㄟ^(guò)在每個(gè)邊界框中插入高級(jí)特征,為每個(gè)邊界框獲取固定大小的表示(不管大?。?將每個(gè)興趣區(qū)域的特征輸入到檢測(cè)分支,并產(chǎn)生精確的邊界框坐標(biāo)、類(lèi)別預(yù)測(cè)以及用于預(yù)測(cè)類(lèi)別的固定二進(jìn)制掩碼。最后,在預(yù)測(cè)的邊界框內(nèi)將掩碼插入到圖像分辨率中,并報(bào)告為預(yù)測(cè)類(lèi)的一個(gè)實(shí)例分割。

圖2 :左,自上而下的特征采樣結(jié)合相同分辨率吧的自下而上的特征,從而獲得的 FPN(feature pyramid network) 算法主干框架中的特征。右,為了得到未來(lái)實(shí)例分割,我們從 t-τ 到 t 幀提取 FPN 特征,并預(yù)測(cè) t + 1 幀的 FPN 特征。

預(yù)測(cè)卷積特征

對(duì)處于不同 FPN 層級(jí)的特征進(jìn)行訓(xùn)練,并將其作為共享“探測(cè)頭(detection head)”的輸入。然而,由于分辨率在不同層級(jí)上會(huì)發(fā)生改變,每層上的“空間-時(shí)間”動(dòng)態(tài)特性也會(huì)不同。 因此,我們提出了一種多尺度算法,對(duì)每一級(jí)采用單獨(dú)的網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。每級(jí)網(wǎng)絡(luò)都經(jīng)過(guò)訓(xùn)練,彼此完全獨(dú)立地工作。對(duì)于每一級(jí),我們關(guān)注的是特征維度輸入序列的特征。

實(shí)驗(yàn)評(píng)估

我們使用的是 Cityscapes 數(shù)據(jù)集,數(shù)據(jù)來(lái)自于汽車(chē)在駕駛過(guò)程中錄制的城市環(huán)境視頻,每個(gè)視頻片段時(shí)長(zhǎng) 1.8 秒,一共分為 2,975 個(gè)訓(xùn)練集,500 個(gè)驗(yàn)證集和 1,525 個(gè)測(cè)試集。

我們使用在 MS-COCO 數(shù)據(jù)集上預(yù)先訓(xùn)練好的的 Mask R-CNN 模型,并在 Cityscapes 數(shù)據(jù)集上以端到端的形式對(duì)其進(jìn)行微調(diào)。

未來(lái)實(shí)例分割:表1為未來(lái)特征預(yù)測(cè)算法 (F2F) 的實(shí)例分割結(jié)果,并將其與 Oracle、Copy 和光流基線的性能做比較。由表可知,F(xiàn)2F 算法效果最好,比最佳的中期基線提高了 74% 以上。

表1:Cityscapes val.數(shù)據(jù)集上實(shí)例分割的精確度

未來(lái)語(yǔ)義分割:我們發(fā)現(xiàn),F(xiàn)2F 算法在 IoU 方面比所有的短期分割方法都有明顯的改進(jìn),以61.2 %的成績(jī)排名第一。

表2: 不同算法在 Cityscapes val. 數(shù)據(jù)集上的移動(dòng)對(duì)象( 8 類(lèi))短期和中期語(yǔ)義分割表現(xiàn)。

圖4顯示,與 Warp 基線相比, F2F 算法能夠與對(duì)象的實(shí)際布局更好地對(duì)齊,這表明該算法已經(jīng)學(xué)會(huì)了對(duì)場(chǎng)景和對(duì)象的動(dòng)態(tài)建模,且效果比基線好。如預(yù)期所示,預(yù)測(cè)的掩碼也比那些 S2S 算法更加精確。

圖4:對(duì)三個(gè)序列的中期預(yù)測(cè)(未來(lái) 0.5 秒)。

通過(guò)圖5展示的示例,我們可以更好地理解,為什么在語(yǔ)義分割度量標(biāo)準(zhǔn)方面,F(xiàn)2F 和 Warp 基線之間的差異比實(shí)例分割度量標(biāo)準(zhǔn)要小很多。

圖5:用 Warp 基線和 F2F 模型獲得的中期預(yù)測(cè)的實(shí)例和語(yǔ)義分割。不準(zhǔn)確的實(shí)例分割會(huì)導(dǎo)致精確的語(yǔ)義分割區(qū)域,請(qǐng)看圖中的橙色矩形高光部分。

失敗案例討論

在圖6(a) 的第一個(gè)例子中,由于前面的所有模型認(rèn)為白色轎車(chē)完全被另一輛車(chē)遮擋,因此沒(méi)有檢測(cè)到。這是不可避免的一種情況,除非對(duì)象在較早的幀中可見(jiàn),在這種情況下,長(zhǎng)期記憶機(jī)制可能會(huì)避免不必要的錯(cuò)誤。

在圖 6(b) 中,卡車(chē)和行人的預(yù)測(cè)掩碼在形狀和位置上都不連貫。用明確建模遮擋機(jī)制或許可以獲得更一致的預(yù)測(cè)。

最后,由于對(duì)象本身比較模糊,某些運(yùn)動(dòng)和形狀轉(zhuǎn)換很難得到準(zhǔn)確的預(yù)測(cè),如圖 6(c)中的行人的腿部,對(duì)于這種情況,確切的姿勢(shì)存在高度的不確定性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3793

    瀏覽量

    137921
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41213
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48987

    瀏覽量

    249027

原文標(biāo)題:Yann LeCun等最新研究:如何對(duì)未來(lái)實(shí)例分割進(jìn)行預(yù)測(cè)?

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何選擇LTE系統(tǒng)測(cè)試方法,存在哪些挑戰(zhàn)

    TD-LTE、FDD-LTE和LTE-Advanced(LTE-A)無(wú)線技術(shù)使用了幾種不同的多種輸入多路輸出(MIMO)技術(shù)。鑒于MIMO系統(tǒng)的復(fù)雜正在日益提高,因此相關(guān)的測(cè)試方法也更具
    發(fā)表于 02-28 11:18

    設(shè)計(jì)了個(gè)定制形狀的圣誕樹(shù)

    描述圣誕樹(shù)我們?cè)O(shè)計(jì)了個(gè)定制形狀的 PCB,并將其發(fā)送到 PCBWAY 進(jìn)行制造。它是從美國(guó)俄亥俄州到中國(guó)的往返行程,8 天后返回。為了制作我們的自定義形狀,我們繪圖導(dǎo)入 PCB 設(shè)
    發(fā)表于 08-02 07:58

    如何使用Wemos D1 mini制作款簡(jiǎn)單但具有挑戰(zhàn)性的游戲?

    我使用 Wemos D1 mini 制作了款簡(jiǎn)單但具有挑戰(zhàn)性的游戲。 我盡量使說(shuō)明盡可能詳細(xì),但如果您對(duì)此有任何疑問(wèn),請(qǐng)告訴我。 您所要做的就是魔杖從電線的端拿到另
    發(fā)表于 05-23 06:14

    基于視頻對(duì)象的區(qū)域分割及其應(yīng)用

    為適應(yīng)MPEG-4 基于對(duì)象的應(yīng)用,提出種基于視頻對(duì)象的區(qū)域分割算法。在視頻對(duì)象的指導(dǎo)下,利用均值漂移
    發(fā)表于 10-04 14:06 ?12次下載

    音頻設(shè)計(jì):比你所想象的更富挑戰(zhàn)性

    音頻設(shè)計(jì):比你所想象的更富挑戰(zhàn)性 通常會(huì)認(rèn)為20 Hz ~20 kHz常規(guī)頻段的音頻設(shè)計(jì)是基本的、不具挑戰(zhàn)性的。但是本篇特別報(bào)道的作者----音頻工程(audio engineering)的專(zhuān)家們對(duì)
    發(fā)表于 09-16 10:02 ?885次閱讀

    聚焦語(yǔ)義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語(yǔ)義圖像分割?

    一對(duì)象。作者沿著該領(lǐng)域的研究脈絡(luò),說(shuō)明如何用卷積神經(jīng)網(wǎng)絡(luò)處理語(yǔ)義圖像分割的任務(wù)。 更具體地講,語(yǔ)義圖像分割的目標(biāo)在于標(biāo)記圖片中每
    發(fā)表于 09-17 15:21 ?673次閱讀

    Facebook AI使用單神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割和語(yǔ)義分割

    新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了個(gè)用于語(yǔ)義分割的分支。這新架構(gòu)
    的頭像 發(fā)表于 04-22 11:46 ?3159次閱讀
    Facebook AI使用單<b class='flag-5'>一</b>神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>和語(yǔ)義<b class='flag-5'>分割</b>

    四軸飛行器進(jìn)行特技飛行極具挑戰(zhàn)性

    然而,用四軸飛行器進(jìn)行特技飛行極具挑戰(zhàn)性,無(wú)人機(jī)駕駛員需要多年的實(shí)踐才能安全地做到這點(diǎn),而又不會(huì)損害硬件,自身或他人。
    發(fā)表于 07-08 17:15 ?1275次閱讀

    深度學(xué)習(xí)在視頻對(duì)象分割的應(yīng)用及相關(guān)研究

    視頻對(duì)象分割是指在給定的段視頻序列的各幀圖像,找岀屬于特定前景對(duì)象的所有像素點(diǎn)位置區(qū)域。隨著硬件平臺(tái)計(jì)算能力的提升,深度學(xué)習(xí)受到了越來(lái)越
    發(fā)表于 03-24 15:47 ?9次下載
    深度學(xué)習(xí)在視頻<b class='flag-5'>對(duì)象</b><b class='flag-5'>分割</b><b class='flag-5'>中</b>的應(yīng)用及相關(guān)研究

    什么是圖像實(shí)例分割?常見(jiàn)的圖像實(shí)例分割有哪幾種?

    圖像實(shí)例分割是在對(duì)象檢測(cè)的基礎(chǔ)上進(jìn)步細(xì)化,分離對(duì)象的前景與背景,實(shí)現(xiàn)像素級(jí)別的對(duì)象分離。
    的頭像 發(fā)表于 06-17 11:15 ?2.7w次閱讀
    什么是圖像<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>?常見(jiàn)的圖像<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>有哪幾種?

    深度學(xué)習(xí)部分監(jiān)督的實(shí)例分割環(huán)境

    實(shí)例分割的任務(wù)是圖像的像素分組為單個(gè)事物的實(shí)例,并用類(lèi)標(biāo)簽(可計(jì)數(shù)的
    的頭像 發(fā)表于 10-21 14:05 ?2069次閱讀

    點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥?

    自動(dòng)駕駛領(lǐng)域的下游任務(wù),我認(rèn)為主要包括目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割和全景分割。其中目標(biāo)檢測(cè)是指在區(qū)域中提取目標(biāo)的候選框并分類(lèi),語(yǔ)義分割是對(duì)區(qū)
    的頭像 發(fā)表于 12-14 14:25 ?3270次閱讀

    每日課 | 在智慧燈桿視覺(jué)技術(shù)實(shí)例分割技術(shù)簡(jiǎn)介

    3.2.5實(shí)例分割圖3-9所示為實(shí)例分割示意圖。圖3-9實(shí)例分割
    的頭像 發(fā)表于 03-08 09:19 ?623次閱讀
    每日<b class='flag-5'>一</b>課 | 在智慧燈桿視覺(jué)技術(shù)<b class='flag-5'>中</b>的<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>技術(shù)簡(jiǎn)介

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    、亮度等。圖像分割的目的是圖像感興趣的部分與背景分離,以便進(jìn)行進(jìn)一步的處理和分析。 1.1 圖像分割的類(lèi)型 圖像
    的頭像 發(fā)表于 07-17 09:55 ?1933次閱讀

    康謀分享 | 在基于場(chǎng)景的AD/ADAS驗(yàn)證過(guò)程,識(shí)別挑戰(zhàn)性場(chǎng)景!

    基于場(chǎng)景的驗(yàn)證是AD/ADAS系統(tǒng)開(kāi)發(fā)過(guò)程的重要步驟,然而面對(duì)海量駕駛記錄數(shù)據(jù)時(shí),如何實(shí)現(xiàn)自動(dòng)且高效地識(shí)別、分類(lèi)和提取駕駛記錄挑戰(zhàn)性場(chǎng)景?本文康謀為您介紹IVEX軟件識(shí)別挑戰(zhàn)性場(chǎng)
    的頭像 發(fā)表于 08-28 10:16 ?1420次閱讀
    康謀分享 | 在基于場(chǎng)景的AD/ADAS驗(yàn)證過(guò)程<b class='flag-5'>中</b>,識(shí)別<b class='flag-5'>挑戰(zhàn)性</b>場(chǎng)景!