一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文簡(jiǎn)析人-物交互檢測(cè)中結(jié)構(gòu)感知轉(zhuǎn)換

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:Owen ? 2022-11-08 17:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Human-Object Interaction (HOI) Detection Background and Motivations

HOI Detection要求定位出存在交互的人、物并給出兩者之間的動(dòng)作關(guān)系,即最終要求給出三元組$$。實(shí)際的HOI系統(tǒng)執(zhí)行以人為中心的場(chǎng)景理解,因此有著廣泛的用途,例如監(jiān)控事件監(jiān)測(cè)和機(jī)器人模仿學(xué)習(xí)。

傳統(tǒng)的HOI范式傾向于以多階段的方式來解決這個(gè)有挑戰(zhàn)性的復(fù)雜問題,即先執(zhí)行object detection,再執(zhí)行動(dòng)作關(guān)系的分類,這種范式需要繁重的后處理(post-processing),例如啟發(fā)式匹配來完成任務(wù),這導(dǎo)致其無法以端到端的方式進(jìn)行training,導(dǎo)致了次優(yōu)的性能。

最近sota的一系列HOI方法往往受啟發(fā)于DETR,將HOI Detection視為集合預(yù)測(cè)問題來克服這一問題,實(shí)現(xiàn)end-to-end的訓(xùn)練優(yōu)化,這類方法的基本流程如下圖(a)中所示,可以看出,這類方法往往利用transformer來將可學(xué)習(xí)的queries映射為HOI的預(yù)測(cè)集合,從而實(shí)現(xiàn)one-stage的HOI detection

然而,這些HOI檢測(cè)范式中的parametric interaction queries(參數(shù)化的交互queries)往往是隨機(jī)初始化的,這就導(dǎo)致范式中的queris和輸出HOI 預(yù)測(cè)之間的對(duì)應(yīng)關(guān)系是動(dòng)態(tài)的,其中對(duì)應(yīng)于每個(gè)目標(biāo)HOI三元組的query,例如$$,在預(yù)測(cè)開始時(shí)往往是未知的,這將嚴(yán)重影響模型去探索先驗(yàn)知識(shí),即inter-interaction 或 intra-interaction structure,即交互間的結(jié)構(gòu)性關(guān)系和交互內(nèi)的結(jié)構(gòu)性關(guān)系知識(shí),而這對(duì)于交互間的關(guān)系reasoning是非常有幫助的。

34cc6282-5f44-11ed-8abf-dac502259ad0.png

(a)之前的Transformer風(fēng)格的HOI檢測(cè)范式(b)本文方法示意圖

Inter&Intra-interaction Structure For HOI Detection

交互間的結(jié)構(gòu)性(Inter-interaction Structure)非常有助于互相提供線索來提高檢測(cè)效果,例如上圖中“human wear (baseball) glove” 就提供了非常強(qiáng)的線索來提示另一個(gè)interaction:“human hold bat”,有趣的是,內(nèi)部交互結(jié)構(gòu)(Intra-interaction Structure)可以解釋為每個(gè)HOI三元組的局部空間結(jié)構(gòu),例如人和物體的布局結(jié)構(gòu)以一種額外的先驗(yàn)知識(shí)來將model的注意力引導(dǎo)到有效的圖像區(qū)域,從而描述交互行為

STIP : Structure-aware Transformer over Interaction Proposals

講了背景知識(shí)和基本的motivations,終于步入正題了,作者提出的方法叫做STIP( Structure-aware Transformer over Interaction Proposals),其將一階段的HOI檢測(cè)方案分解為了兩階段的級(jí)聯(lián)pipeline:首先產(chǎn)生交互proposals(有可能存在交互的人-物對(duì)),接著基于這些proposal 執(zhí)行HOI集合預(yù)測(cè),如上圖中所示,STIP將這些proposal視為非參交互queries,從而啟發(fā)后續(xù)的HOI集合預(yù)測(cè)問題,也可以將其視為靜態(tài)的、query-based的HOI檢測(cè)pipeline。

下面將分別介紹Interaction Proposal Network 、Interaction-centric Graph和Structure-aware Transformer。

34ffef80-5f44-11ed-8abf-dac502259ad0.png

STIP整體流程示意圖

Interaction Proposal Network

STIP利用DETR作為物體(和人)檢測(cè)的base network,訓(xùn)練過程中,DETR部分的權(quán)重是凍住的,不進(jìn)行學(xué)習(xí),基于DETR給出的檢測(cè)結(jié)果,Interaction Proposal Network(IPN)將構(gòu)建存在潛在交互的的human-object對(duì),對(duì)于每個(gè)human-object對(duì),IPN將通過MLP給出潛在交互的分?jǐn)?shù),即 interactiveness score。只有Top-K個(gè)最高得分的human-object對(duì)將送入下一階段。

Human-Object Pairs Construction

STIP為了充分利用knowledge,從不同的信息層次來構(gòu)建Human-Object對(duì),每個(gè)HO對(duì)都由外觀特征、空間特征、和語(yǔ)言學(xué)特征(linguistic features)來構(gòu)成。具體來說,外觀特征是從DETR中得到的human和object實(shí)例特征來構(gòu)建,即分類頭前的、256通道維度的區(qū)域特征(即ROI區(qū)域特征)。我們將human和object的bounding box定義為: and ,則空間特征由

來構(gòu)建,其中,則分別代表了人的區(qū)域,物體的區(qū)域,交叉的區(qū)域和聯(lián)合bounding box的區(qū)域信息。語(yǔ)言學(xué)特征則是將bounding box的類別名編碼為one-hot向量,向量的通道維度大小為300。每個(gè)HO對(duì)都將被如上方式進(jìn)行表征,最終concat到一起,送入MLP中。

Interactiveness Prediction

構(gòu)建Human-Object Pairs 后,將構(gòu)建出的Human-Object Pairs 經(jīng)過hard mining strategy(難樣本挖掘策略)來篩選出負(fù)樣本,正樣本則是由置信度大于0.5的human和object的bounding box IOUs組成。STIP需要預(yù)測(cè)出每個(gè)proposal成立的可能度,因此將其視為一個(gè)二分類問題,從而利用Focal loss來進(jìn)行優(yōu)化。在推理階段,只有top-K個(gè)最高得分的human-object 對(duì)將被送入下個(gè)階段作為交互proposal。

Interaction-Centric Graph

利用IPN來篩選出潛在的proposal后,接著STIP利用Interaction-Centric Graph來充分利用豐富的inter-interaction和intra-interaction structure的先驗(yàn)知識(shí),在實(shí)際實(shí)現(xiàn)中,將每個(gè)interaction proposal作為一個(gè)單一的graph node(圖節(jié)點(diǎn)),因此完整的interaction-centric graph利用每?jī)蓚€(gè)nodes之間的連接來作為圖的edge。

Exploit Inter-interaction in Interaction-Centric Graph

回到本文開頭提到的motivation:交互間的結(jié)構(gòu)性(Inter-interaction Structure)非常有助于互相提供線索來提高檢測(cè)效果,舉個(gè)栗子,當(dāng)圖中有一個(gè)interaction為 human hold mouse,那么很有可能圖中還有另一個(gè)相同human instance的interaction:human look-at screen。這個(gè)有趣的先驗(yàn)現(xiàn)象啟發(fā)了作者構(gòu)建一個(gè)graph來充分利用該prior的知識(shí)。作者定義了下圖所示的六種交互間的關(guān)系來充分利用該先驗(yàn):

3554256e-5f44-11ed-8abf-dac502259ad0.png

這六種類間語(yǔ)義關(guān)系由兩個(gè)交互proposal之間是否共享相同的humanobject來被具體指派。

Exploit Intra-interaction in Interaction-Centric Graph

接著我們看本文開頭提到的另一條motivation:內(nèi)部交互結(jié)構(gòu)(Intra-interaction Structure)可以解釋為每個(gè)HOI三元組的局部空間結(jié)構(gòu),例如人和物體的布局結(jié)構(gòu)以一種額外的先驗(yàn)知識(shí)來將model的注意力引導(dǎo)到有效的圖像區(qū)域。 STIP也通過分類、編碼來利用interaction內(nèi)的空間關(guān)系,如下圖所示:

357ce724-5f44-11ed-8abf-dac502259ad0.png

將背景、union、human、object、intersection分別進(jìn)行轉(zhuǎn)換編碼,從而將spatial layout structures編碼進(jìn)features中,參與特征交互。

Structure-aware Self-attention & Structure-aware Cross-attention

Structure-aware Self-attention & Structure-aware Cross-attention和傳統(tǒng)的self- attention基本類似,就不細(xì)講了~其中值得注意的是,作者受相對(duì)位置編碼的啟發(fā),將每個(gè)key 與其的 inter-interaction semantic dependency 結(jié)合:

Training Objective

針對(duì)action的監(jiān)督,也是利用folcal loss:

Experiments

35b2925c-5f44-11ed-8abf-dac502259ad0.png

可以看出,在VCOCO數(shù)據(jù)集上,STIP的性能非常強(qiáng)勁,比之前的IDN高了十幾個(gè)點(diǎn),HICO-DET上的性能也很強(qiáng)。

Ablation Study

35de31fa-5f44-11ed-8abf-dac502259ad0.png

從消融實(shí)驗(yàn)中可以看出, inter-interaction 和intra-interaction的相關(guān)module都非常漲點(diǎn),

Conclusion

STIP不同與以往的query-based 范式,將proposal set prediction拆開為兩個(gè)stage,第一個(gè)stage產(chǎn)生高質(zhì)量的queries,其中融合了豐富、多樣的的prior features來充分利用背景知識(shí),從而有了非常驚艷的性能效果。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138069
  • ROI
    ROI
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    6447
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4621

原文標(biāo)題:CVPR2022 人-物交互檢測(cè)中結(jié)構(gòu)感知轉(zhuǎn)換

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    人機(jī)交互界面設(shè)計(jì)在產(chǎn)品設(shè)計(jì)的應(yīng)用

    `  人機(jī)交互界面是產(chǎn)品設(shè)計(jì)實(shí)現(xiàn)與機(jī)器信息傳遞的界面,是、機(jī)器及環(huán)境發(fā)生交互關(guān)系的具體表達(dá)形式,是用戶與機(jī)器
    發(fā)表于 01-25 16:18

    【設(shè)計(jì)技巧】rtos的核心原理簡(jiǎn)

    rtos的核心原理簡(jiǎn)rtos全稱real-time operating system(實(shí)時(shí)操作系統(tǒng)),我來簡(jiǎn)單分析下:我們都知道,c語(yǔ)句中調(diào)用個(gè)函數(shù)后,該函數(shù)的返回地址都是放在堆棧
    發(fā)表于 07-23 08:00

    怎樣去設(shè)計(jì)種基于聯(lián)網(wǎng)感知的家居人體健康狀況檢測(cè)系統(tǒng)

    =>身高串口獲取不定長(zhǎng)數(shù)據(jù)摘要為滿足家居生活檢測(cè)身體健康狀況的需求,鑒于現(xiàn)有的健康檢測(cè)系統(tǒng)具有使用環(huán)境局限性大、測(cè)試指標(biāo)不夠完善、不能聯(lián)網(wǎng)等缺點(diǎn),本系統(tǒng)從聯(lián)網(wǎng)
    發(fā)表于 07-28 08:31

    如何去實(shí)現(xiàn)種基于聯(lián)網(wǎng)感知的家居人體健康狀況檢測(cè)系統(tǒng)設(shè)計(jì)

    為什么要設(shè)計(jì)種基于聯(lián)網(wǎng)感知的家居人體健康狀況檢測(cè)系統(tǒng)?如何去實(shí)現(xiàn)種基于聯(lián)網(wǎng)
    發(fā)表于 10-20 06:23

    CVPR2022 -交互檢測(cè)結(jié)構(gòu)感知轉(zhuǎn)換相關(guān)資料推薦

    1、CVPR2022-交互檢測(cè)結(jié)構(gòu)感知
    發(fā)表于 11-09 17:26

    OpenHarmony應(yīng)用核心技術(shù)理念與需求機(jī)遇簡(jiǎn)

    、核心技術(shù)理念 圖片來源:OpenHarmony官方網(wǎng)站 二、需求機(jī)遇簡(jiǎn) 新的萬互聯(lián)智能世界代表著新規(guī)則、新賽道、新切入點(diǎn)、新財(cái)富機(jī)會(huì);各WEB網(wǎng)站、客戶端( 蘋果APP、安卓
    發(fā)表于 09-22 16:12

    EPON技術(shù)簡(jiǎn)

    EPON技術(shù)簡(jiǎn) EPON是個(gè)新技術(shù),用于保證提供個(gè)高品質(zhì)與高帶寬利用率的應(yīng)用。   EPON在日本、韓國(guó)、中國(guó)大陸、中國(guó)臺(tái)灣及其它以以太網(wǎng)絡(luò)為基礎(chǔ)的地區(qū)都
    發(fā)表于 01-22 10:43 ?991次閱讀

    鼠標(biāo)HID例程()簡(jiǎn)

    鼠標(biāo) HID 例程簡(jiǎn) 緊接《鼠標(biāo) HID 例程簡(jiǎn)(上)》,繼續(xù)向大家介紹鼠 標(biāo) HID
    發(fā)表于 07-26 15:18 ?0次下載

    工業(yè)機(jī)器技術(shù)特點(diǎn)現(xiàn)狀情況及技術(shù)趨勢(shì)簡(jiǎn)

    般來說,工業(yè)機(jī)器由3大部分6個(gè)子系統(tǒng)組成。3大部分是機(jī)械部分、傳感部分和控制部分。6個(gè)子系統(tǒng)可分為機(jī)械結(jié)構(gòu)系統(tǒng)、驅(qū)動(dòng)系統(tǒng)、感知系統(tǒng)、機(jī)器
    發(fā)表于 08-08 08:50 ?3073次閱讀

    簡(jiǎn)555電壓檢測(cè)電路資料下載

    電子發(fā)燒友網(wǎng)為你提供簡(jiǎn)555電壓檢測(cè)電路資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-13 08:41 ?25次下載
    <b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>555電壓<b class='flag-5'>檢測(cè)</b>電路資料下載

    5G AAU 功放控制和監(jiān)測(cè)模塊簡(jiǎn)

    5G AAU 功放控制和監(jiān)測(cè)模塊簡(jiǎn)
    發(fā)表于 10-28 12:00 ?2次下載
    5G AAU 功放控制和監(jiān)測(cè)模塊<b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>

    AFE8092幀同步特性簡(jiǎn)

    AFE8092幀同步特性簡(jiǎn)
    的頭像 發(fā)表于 08-24 13:37 ?963次閱讀
    AFE8092幀同步特性<b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>

    簡(jiǎn)電動(dòng)汽車充電樁檢測(cè)技術(shù)應(yīng)用及分析

    簡(jiǎn)電動(dòng)汽車充電樁檢測(cè)技術(shù)應(yīng)用及分析 張穎姣 安科瑞電氣股份有限公司?上海嘉定 201801 摘要:直流和交流充電樁是我國(guó)當(dāng)前電動(dòng)汽車充電樁投運(yùn)數(shù)量多的種類,為了維持正常運(yùn)行和使用,
    的頭像 發(fā)表于 02-26 10:52 ?2043次閱讀
    <b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>電動(dòng)汽車充電樁<b class='flag-5'>檢測(cè)</b>技術(shù)應(yīng)用及分析

    【鴻蒙】OpenHarmony 4.0藍(lán)牙代碼結(jié)構(gòu)簡(jiǎn)

    OpenHarmony 4.0藍(lán)牙代碼結(jié)構(gòu)簡(jiǎn)前言 OpenHarmony 4.0上藍(lán)牙倉(cāng)和目錄結(jié)構(gòu)進(jìn)行次較大整改,本文基于4.0以上版本
    的頭像 發(fā)表于 02-26 16:08 ?2190次閱讀
    【鴻蒙】OpenHarmony 4.0藍(lán)牙代碼<b class='flag-5'>結(jié)構(gòu)</b><b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>

    簡(jiǎn)智慧燈桿鍵告警功能的實(shí)用場(chǎng)景

    智慧路燈桿是種兼具智能化和多功能的新型聯(lián)網(wǎng)基礎(chǔ)設(shè)施,通過搭載鍵告警對(duì)講盒,能夠大大豐富安防及報(bào)警求助資源,對(duì)提升城市的安全性和管理效能具有重要的作用。本篇就結(jié)合城市的不同場(chǎng)景,
    的頭像 發(fā)表于 04-28 16:42 ?656次閱讀
    <b class='flag-5'>簡(jiǎn)</b><b class='flag-5'>析</b>智慧燈桿<b class='flag-5'>一</b>鍵告警功能的實(shí)用場(chǎng)景