一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人類視覺理解機理

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2020-07-04 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,上海交通大學(xué)盧策吾團隊在《自然 - 機器智能》子刊上發(fā)表了關(guān)于高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時,該團隊將論文代碼與近兩年在視頻理解領(lǐng)域的先進成果開源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(wù)(MOT)和行為理解(AVA 單模型)上都達到最高準確率,相比 SlowFast (AVA 單模型)有 12.6% 的性能提升。

動作理解任務(wù)的時空信息特征圖。左:輸入序列;右:空間特征更關(guān)注物體形狀,時間特征更關(guān)注物體運動趨勢。

AlphaVideo 中的行為理解(Alphaction)

時空概念提取展示

人類視覺理解機理

在人類的視覺認知過程中,時間和空間概念是解耦的。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類的記憶形成過程中,時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體,進而形成完整的記憶。

新技能:自主學(xué)習(xí)時空概念

通過模仿人類的認知機制,盧策吾團隊提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型(SCS)。

SCS 自主發(fā)掘(awareness)時間 - 空間概念,并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機器學(xué)習(xí)模型自主掌握了時空的概念,這是一種更高層的智能。更進一步,時空信息概念的分離也讓「概念編輯」成為可能。

半耦合結(jié)構(gòu)模型(SCS)

半耦合結(jié)構(gòu)首先解耦時空信息(模仿人腦中的兩條信息通路),并在分別處理時間和空間信息之后將二者耦合(模仿海馬體):

該研究通過堆疊這種半耦合的元結(jié)構(gòu)來構(gòu)建深度模型,其中時空信息始終以先解耦再融合的模式向后流動。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設(shè)計為不對稱的結(jié)構(gòu),同時,使用兩個特殊的監(jiān)督目標 r_s、r_t 來進一步約束二者關(guān)注各自的工作。

該研究進一步提出了一種訓(xùn)練注意力機制。這種注意力機制控制模型在優(yōu)化過程中學(xué)習(xí)哪種信息。例如在視頻信息中,模型可以優(yōu)先將注意力集中在空間信息上,待空間信息有效且穩(wěn)定時,再逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時間信息上。

SCS 的表現(xiàn)如何?

該研究展示了 SCS 在多項任務(wù)中與傳統(tǒng) LSTM 的性能對比結(jié)果:

SCS 在視頻動作分類、自動駕駛、天氣預(yù)報等 4 個任務(wù)上的性能均超越傳統(tǒng)的序列模型。

概念編輯

有了時空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用于預(yù)測狗運動軌跡的模型來預(yù)測貓的軌跡。這樣就能以較小的代價實現(xiàn)模型的泛化,同時也拓寬了模型的使用場景,降低了部署難度。

概念編輯 demo

研究者讓計算機看 Flappy Bird 的視頻,然后看一張靜態(tài)的 Mario 圖片(外觀形象)。在這個過程中,模型并沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」,在測試時 SCS 可以準確地預(yù)測 Mario 的運動軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時空概念分解,研究者還提供了單階段端對端訓(xùn)練的多目標跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼,即可調(diào)用預(yù)訓(xùn)好的各類模型。

AlphAction

AlphAction 是面向行為理解的開源系統(tǒng),基于 MVIG 提出的交互理解與異步訓(xùn)練策略 在 AVA 數(shù)據(jù)集上達到最優(yōu)準確率,速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓(xùn)練模型(CVPR2020-oral),是首個單階段端對端訓(xùn)練的多目標跟蹤模型。它在 MOT-16 數(shù)據(jù)集上達到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓(xùn)練數(shù)據(jù)下達到的最高精度 。

TubeTK 可視化結(jié)果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無法檢測到的被遮擋目標(圖中黃色框)。
責任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解耦
    +關(guān)注

    關(guān)注

    0

    文章

    42

    瀏覽量

    12086
  • 自動駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14307

    瀏覽量

    170534
  • 機器智能
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    8790
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?1412次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)<b class='flag-5'>理解</b>模型

    詳解半導(dǎo)體集成電路的失效機理

    半導(dǎo)體集成電路失效機理中除了與封裝有關(guān)的失效機理以外,還有與應(yīng)用有關(guān)的失效機理。
    的頭像 發(fā)表于 03-25 15:41 ?682次閱讀
    詳解半導(dǎo)體集成電路的失效<b class='flag-5'>機理</b>

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然語言。以下
    的頭像 發(fā)表于 03-17 15:32 ?4001次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言模型)?詳細解析

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1738次閱讀
    一文詳解<b class='flag-5'>視覺</b>語言模型

    超越人類視覺!昱感微“多維像素”多模態(tài)超級攝像頭方案產(chǎn)品賦能超凡感知力

    如今人工智能發(fā)展之日新月異,令人不由感嘆也許科幻電影里仿生人的應(yīng)用不再是遙不可及,那么未來AI會超越人類甚至取代人類嗎?也許現(xiàn)在AI的大腦還無法做到,但眼睛已經(jīng)做到,機器視覺的感知力已全面超越
    的頭像 發(fā)表于 12-12 17:17 ?860次閱讀
    超越<b class='flag-5'>人類</b><b class='flag-5'>視覺</b>!昱感微“多維像素”多模態(tài)超級攝像頭方案產(chǎn)品賦能超凡感知力

    鐵磁性的概念、產(chǎn)生機理、應(yīng)用

    本文簡單介紹鐵磁性的概念、產(chǎn)生機理、應(yīng)用等內(nèi)容。 鐵磁性是一種最引人入勝且被廣泛研究的磁現(xiàn)象,指某些材料(如鐵、鈷、鎳及其合金)表現(xiàn)出強大且永久磁性的機制。這種特性使鐵磁性材料在從家用磁鐵、電動機到
    的頭像 發(fā)表于 12-06 16:36 ?3213次閱讀

    【小白入門必看】一文讀懂深度學(xué)習(xí)計算機視覺技術(shù)及學(xué)習(xí)路線

    一、什么是計算機視覺?計算機視覺,其實就是教機器怎么像我們?nèi)艘粯?,用攝像頭看看周圍的世界,然后理解它。比如說,它能認出這是個蘋果,或者那邊有輛車。除此之外,還能把拍到的照片或者視頻轉(zhuǎn)換成有用的信息
    的頭像 發(fā)表于 10-31 17:00 ?1216次閱讀
    【小白入門必看】一文讀懂深度學(xué)習(xí)計算機<b class='flag-5'>視覺</b>技術(shù)及學(xué)習(xí)路線

    視覺檢測是什么意思?機器視覺檢測的適用行業(yè)及場景有哪些?

    檢測的定義與原理 機器視覺檢測,是利用光學(xué)成像、數(shù)字信號處理和計算機技術(shù),模擬人類視覺的功能,對目標物體進行自動檢測和分析的技術(shù)。它包括圖像采集、預(yù)處理、特征提取、分類識別等多個環(huán)節(jié),通過這些步驟,機器能夠完
    的頭像 發(fā)表于 08-30 11:20 ?882次閱讀

    如何理解LC表和選擇關(guān)于TPS563202的LC

    電子發(fā)燒友網(wǎng)站提供《如何理解LC表和選擇關(guān)于TPS563202的LC.pdf》資料免費下載
    發(fā)表于 08-26 10:02 ?0次下載
    如何<b class='flag-5'>理解</b>LC表和選擇<b class='flag-5'>關(guān)于</b>TPS563202的LC

    計算機視覺有哪些優(yōu)缺點

    計算機視覺作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時也伴隨著一些挑戰(zhàn)和局限性。以下是對計算機
    的頭像 發(fā)表于 08-14 09:49 ?2026次閱讀

    計算機視覺技術(shù)的AI算法模型

    計算機視覺技術(shù)作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標,計算機視覺技術(shù)依賴于多種先進的AI算法模型。以下將詳細介紹幾種常
    的頭像 發(fā)表于 07-24 12:46 ?1789次閱讀

    什么是機器視覺opencv?它有哪些優(yōu)勢?

    機器視覺(Machine Vision)是一種利用計算機和圖像處理技術(shù)來模擬人類視覺系統(tǒng)的功能,實現(xiàn)對圖像的識別、分析和理解的技術(shù)。OpenCV(Open Source Compute
    的頭像 發(fā)表于 07-16 10:33 ?1351次閱讀

    機器視覺和計算機視覺有什么區(qū)別

    機器視覺和計算機視覺是兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機器視覺 機器視覺,又稱為計算機視覺,是指利用計算機、圖像處理技術(shù)和人工智
    的頭像 發(fā)表于 07-16 10:23 ?1154次閱讀

    機器視覺的應(yīng)用實例解析

    機器視覺是一種利用計算機視覺技術(shù)對圖像進行處理、分析和理解的技術(shù)。它在許多領(lǐng)域都有廣泛的應(yīng)用,包括工業(yè)自動化、醫(yī)療診斷、交通監(jiān)控、安全監(jiān)控等。 一、引言 機器視覺技術(shù)的發(fā)展可以追溯到2
    的頭像 發(fā)表于 07-16 10:19 ?1001次閱讀

    機器視覺的四大類應(yīng)用是什么?

    機器視覺是一種利用計算機和圖像處理技術(shù),模擬人類視覺系統(tǒng),實現(xiàn)對圖像的獲取、處理、分析和理解的技術(shù)。它在工業(yè)、醫(yī)療、農(nóng)業(yè)、交通等領(lǐng)域有著廣泛的應(yīng)用。以下是機器
    的頭像 發(fā)表于 07-16 10:17 ?2584次閱讀