一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦和Meta提出Open-VCLIP:兼顧時(shí)序建模與開(kāi)集識(shí)別的視頻理解模型

CVer ? 來(lái)源:CVer ? 2023-06-25 15:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:

CLIP[1]是一個(gè)強(qiáng)大的開(kāi)放詞匯模型,在圖像領(lǐng)域表現(xiàn)出強(qiáng)大的零樣本識(shí)別能力,但如何將該能力遷移到視頻領(lǐng)域是一個(gè)較難的問(wèn)題,主要存在兩大挑戰(zhàn):一是如何為圖像CLIP模型注入時(shí)序建模能力;二是在視頻領(lǐng)域遷移的過(guò)程中如何保持其對(duì)開(kāi)放詞匯理解能力。

許多工作通過(guò)在視頻數(shù)據(jù)集上進(jìn)行微調(diào)以實(shí)現(xiàn)CLIP向視頻領(lǐng)域的遷移,然而由于微調(diào)時(shí)使用的數(shù)據(jù)集規(guī)模相對(duì)較小,導(dǎo)致模型發(fā)生過(guò)擬合,使得CLIP模型原有的零樣本識(shí)別能力有所丟失。

本文提出了一種新的CLIP向視頻領(lǐng)域的遷移方法,找到模型泛化和專用化之間的平衡,讓模型既能識(shí)別微調(diào)時(shí)已經(jīng)見(jiàn)過(guò)的動(dòng)作和事件,又能夠借助CLIP的零樣本識(shí)別能力泛化到新的視頻動(dòng)作和事件。

e7a78f9a-12a8-11ee-962d-dac502259ad0.png

問(wèn)題歸納:將開(kāi)放詞匯視頻模型構(gòu)建問(wèn)題近似于持續(xù)學(xué)習(xí)問(wèn)題

假設(shè)存在一個(gè)包含所有的“視頻-文本”對(duì)的數(shù)據(jù)集,那么可以通過(guò)在上最小化”視頻-文本“對(duì)比損失來(lái)獲得最佳開(kāi)放視頻詞匯模型:

然而,現(xiàn)實(shí)中如此理想的數(shù)據(jù)集不可能存在,人們只能通過(guò)盡可能大規(guī)模、多樣化的視頻文本數(shù)據(jù)集來(lái)近似。視頻動(dòng)作識(shí)別是視頻內(nèi)容理解中一類重要任務(wù),本文選取了視頻動(dòng)作識(shí)別數(shù)據(jù)集作為近似。此時(shí),由于動(dòng)作類別數(shù)量的限制(例如Kinetics-400只包含了400個(gè)類別),模型在微調(diào)過(guò)程中容易發(fā)生過(guò)擬合。

另一方面,本文發(fā)現(xiàn)CLIP的訓(xùn)練數(shù)據(jù)包含大規(guī)模“圖像-文本”對(duì),且圖像可以容易地?cái)U(kuò)展為靜態(tài)視頻,因此可以認(rèn)為原始CLIP的權(quán)重在大規(guī)?!办o態(tài)視頻-文本”(記作上已經(jīng)達(dá)到最優(yōu)。如果將數(shù)據(jù)集結(jié)合作為的近似,那么優(yōu)化目標(biāo)將轉(zhuǎn)化為:

此處數(shù)據(jù)集是私有數(shù)據(jù)集,在CLIP遷移學(xué)習(xí)的過(guò)程中完全無(wú)法觸碰,而已知CLIP權(quán)重是數(shù)據(jù)集上的最優(yōu)解,因此本文目標(biāo)是利用和構(gòu)建開(kāi)放詞匯視頻模型。自然地,開(kāi)放詞匯視頻模型構(gòu)建問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)持續(xù)學(xué)習(xí)的過(guò)程:在保持對(duì)歷史任務(wù)()性能的同時(shí),不斷地在新的視頻-文本數(shù)據(jù)集()上訓(xùn)練模型,提升模型的泛化能力。

Open-VCLIP方法介紹:

為了解決上述問(wèn)題,本文提出Open-VCLIP方法,包括模型架構(gòu)和算法改進(jìn)兩部分。在架構(gòu)設(shè)計(jì)方面,通過(guò)修改自注意層將時(shí)序建模能力注入到CLIP模型中;在算法改進(jìn)方面,提出了插值權(quán)重優(yōu)化的新方法,取得更好的閉集性能與零樣本識(shí)別性能的權(quán)衡。

(1)注入CLIP時(shí)序建模能力

本文參考了Space-Time Mixing[2],通過(guò)修改自注意層的信息關(guān)注范圍,讓自注意力操作過(guò)程中的每個(gè)塊關(guān)注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來(lái)實(shí)現(xiàn)局部時(shí)序信息聚合,并隨著自注意力層的堆疊完成全局時(shí)間信息聚合,從而實(shí)現(xiàn)時(shí)序建模能力的注入。該過(guò)程不需要增加額外參數(shù),適配于后文引入的權(quán)重插值優(yōu)化方法。

(2)權(quán)重插值優(yōu)化算法

本文解決的是一個(gè)零歷史信息的持續(xù)學(xué)習(xí)問(wèn)題,即以為模型初始化參數(shù),通過(guò)優(yōu)化將模型遷移到數(shù)據(jù)集上,同時(shí)需要盡可能保持最小。然而,標(biāo)準(zhǔn)的微調(diào)訓(xùn)練方式往往容易使模型過(guò)擬合到,導(dǎo)致CLIP原始的開(kāi)放詞匯能力流失嚴(yán)重,進(jìn)而影響模型的泛化能力,這將是本文著重想要解決的問(wèn)題。

受到[3]的啟發(fā),本文首先引入了一個(gè)無(wú)需優(yōu)化的權(quán)重插值策略:通過(guò)加權(quán)系數(shù)對(duì)CLIP原始參數(shù)和在數(shù)據(jù)集上完成微調(diào)后的參數(shù)進(jìn)行加權(quán)平均操作,防止遷移學(xué)習(xí)后的模型在原始數(shù)據(jù)集上的過(guò)度遺忘。具體形式如下:

但這種做法由于不存在顯示的優(yōu)化約束,導(dǎo)致插值得到的模型可能會(huì)在上有較為嚴(yán)重的欠擬合。針對(duì)此問(wèn)題,本文提出在訓(xùn)練過(guò)程中對(duì)于插值模型在數(shù)據(jù)集上添加正則化約束,從而緩解插值得到的模型在新數(shù)據(jù)上欠擬合嚴(yán)重的問(wèn)題。具體來(lái)說(shuō),本文提出在訓(xùn)練過(guò)程中對(duì)插值權(quán)重系數(shù)進(jìn)行隨機(jī)采樣,針對(duì)一系列取值下的插值模型在上進(jìn)行優(yōu)化約束,最終的優(yōu)化目標(biāo)如下:

其中,插值系數(shù)在區(qū)間區(qū)間均勻采樣,該范圍對(duì)應(yīng)了期望構(gòu)建的低損失區(qū)域。是正則化損失的權(quán)重系數(shù),本篇文章實(shí)現(xiàn)時(shí)將其取值為。對(duì)應(yīng)的梯度計(jì)算如下:

最后,本文在訓(xùn)練過(guò)程中對(duì)插值權(quán)重應(yīng)用隨機(jī)權(quán)重平均(SWA)[4]來(lái)進(jìn)一步提高方法穩(wěn)定性和泛化性。在實(shí)踐中,只需要維護(hù)模型權(quán)重的移動(dòng)平均值,并在最后進(jìn)行權(quán)重插值即可,形式化描述如下。

實(shí)驗(yàn)

本文實(shí)驗(yàn)采用Kinetics-400視頻動(dòng)作識(shí)別數(shù)據(jù)集作為微調(diào)CLIP的訓(xùn)練數(shù)據(jù),并將UCF、HMDB以及Kinetics-600子集作為測(cè)試視頻模型的零樣本識(shí)別能力的數(shù)據(jù)集。

(1)零樣本識(shí)別性能

與CLIP基線和標(biāo)準(zhǔn)微調(diào)模型進(jìn)行對(duì)比,可以看出,相比于標(biāo)準(zhǔn)微調(diào)方法容易出現(xiàn)較為嚴(yán)重的遺忘現(xiàn)象,本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識(shí)別能力,在不同主干網(wǎng)絡(luò)、不同數(shù)據(jù)集上都取得了最佳的零樣本識(shí)別準(zhǔn)確率。

e7ee614a-12a8-11ee-962d-dac502259ad0.png

此外,本文同當(dāng)前先進(jìn)零樣本識(shí)別性能的方法進(jìn)行了對(duì)比??梢钥吹?,Open-VCLIP方法在不同數(shù)據(jù)集上均取得最佳零樣本準(zhǔn)確率。除此之外,文章還對(duì)比了凍結(jié)原始CLIP模型參數(shù)下微調(diào)Adapter模塊的高效參數(shù)微調(diào)方法,結(jié)果表明,高效參數(shù)微調(diào)方法無(wú)法有效提升零樣本識(shí)別準(zhǔn)確率。

e80b57be-12a8-11ee-962d-dac502259ad0.png

(2)零樣本識(shí)別性能與閉集性能的權(quán)衡

e8331a60-12a8-11ee-962d-dac502259ad0.png

文章對(duì)不同方法應(yīng)用權(quán)重插值修復(fù)算法[3]進(jìn)行探究,并將不同的加權(quán)系數(shù)下的性能用折線圖的方式展現(xiàn),橫坐標(biāo)表示閉集性能,縱坐標(biāo)為零樣本識(shí)別性能。結(jié)果表明:(i)具有時(shí)序建模能力的模型具備更強(qiáng)的零樣本識(shí)別性能,顯示出時(shí)序建模能力對(duì)于CLIP模型向視頻領(lǐng)域的遷移是必要的;(ii)Open-VCLIP曲線高于標(biāo)準(zhǔn)微調(diào)方法,反映出本文所提出的優(yōu)化策略不僅能提升模型的零樣本視頻識(shí)別能力,而且能夠在零樣本識(shí)別性能和閉集性能中取得最佳權(quán)衡;(iii)同時(shí),圖中紅色五角星對(duì)應(yīng)同一個(gè)插值模型,可以看到單個(gè)模型能夠在多個(gè)數(shù)據(jù)集中取得接近最優(yōu)的零樣本識(shí)別性能,且保持較高的閉集準(zhǔn)確率,顯示出方法無(wú)需針對(duì)特定數(shù)據(jù)集專門(mén)調(diào)整插值權(quán)重。

(3)零樣本視頻文本檢索性能

e86bec96-12a8-11ee-962d-dac502259ad0.png

評(píng)估文本到視頻/視頻到文本的檢索性能可以進(jìn)一步了解模型的泛化能力。實(shí)驗(yàn)遵循了在Kinetics-400數(shù)據(jù)集上訓(xùn)練模型,并在MSR-VTT數(shù)據(jù)集上測(cè)試的范式。結(jié)果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能,且在視頻檢索文本任務(wù)上,Open-VCLIP方法明顯高于CLIP基線,進(jìn)一步驗(yàn)證了本文方法有效性。

總結(jié)

本篇工作提出了Open-VCLIP方法,通過(guò)微調(diào)于視頻識(shí)別數(shù)據(jù)集有效將CLIP轉(zhuǎn)變?yōu)殚_(kāi)放詞匯的視頻模型。文章主題包含三個(gè)部分:將問(wèn)題歸納為無(wú)歷史數(shù)據(jù)的持續(xù)學(xué)習(xí)問(wèn)題;為模型添加輕量化時(shí)序建模能力;設(shè)計(jì)正則化插值優(yōu)化策略提升模型泛化能力,減輕遺忘現(xiàn)象發(fā)生。實(shí)驗(yàn)表明,Open-VCLIP在零樣本動(dòng)作識(shí)別任務(wù)明顯優(yōu)于最先進(jìn)的方法,并在閉集性能和零樣本視頻動(dòng)作識(shí)別性能之間實(shí)現(xiàn)了最佳的權(quán)衡,所提方法也為大模型微調(diào)提供了新思路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    317

    瀏覽量

    61583
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25444
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    7033

原文標(biāo)題:ICML 2023 | 復(fù)旦和Meta提出Open-VCLIP:兼顧時(shí)序建模與開(kāi)集識(shí)別的視頻理解模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    關(guān)于功能驗(yàn)證、時(shí)序驗(yàn)證、形式驗(yàn)證、時(shí)序建模的論文

    半定制/全定制混合設(shè)計(jì)的特點(diǎn),提出并實(shí)現(xiàn)了一套半定制/全定制混合設(shè)計(jì)流程中功能和時(shí)序驗(yàn)證的方法。論文從模擬驗(yàn)證、等價(jià)性驗(yàn)證和全定制設(shè)計(jì)的功能驗(yàn)證三個(gè)方面對(duì)FF-DX的分支控制部件進(jìn)行功能驗(yàn)證。對(duì)于模擬
    發(fā)表于 12-07 17:40

    高階API構(gòu)建模型和數(shù)據(jù)使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動(dòng)態(tài)執(zhí)行(TensorFlow2.0默認(rèn)eager模式,無(wú)需啟動(dòng)會(huì)話執(zhí)行計(jì)算圖),同時(shí)刪除了雜亂低階API,使用高階API簡(jiǎn)單地構(gòu)建復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,本文主要分享用高階API構(gòu)建模型和數(shù)據(jù)
    發(fā)表于 11-04 07:49

    多片段時(shí)序數(shù)據(jù)建模預(yù)測(cè)實(shí)踐資料分享

    數(shù)據(jù)進(jìn)行模型的構(gòu)建與預(yù)測(cè)分析的,但是在實(shí)際的工程使用中會(huì)有一種特殊的情況就是:我們通過(guò)實(shí)驗(yàn)所采集到的數(shù)據(jù)往往不是絕對(duì)連續(xù)的而是多“片段”的。何為 “片段”?以我之前的時(shí)序
    發(fā)表于 06-30 07:52

    分享一種comsol磁場(chǎng)與結(jié)構(gòu)場(chǎng)耦合模型建模

    的專業(yè)知識(shí),無(wú)需在意,不求甚解主要學(xué)習(xí)本專業(yè)的建模,要及時(shí)補(bǔ)充專業(yè)知識(shí)、了解相關(guān)知識(shí)(指一些術(shù)語(yǔ)、名詞)遇到問(wèn)題難以理解的,且暫時(shí)沒(méi)能解決,先記住,以后遇到再深究COMSOL學(xué)習(xí)自學(xué)(孤家寡人),主要學(xué)習(xí)磁場(chǎng)與結(jié)構(gòu)場(chǎng)耦合模型
    發(fā)表于 07-09 06:40

    結(jié)合碼本和運(yùn)行期均值法的雙層背景建模方法

    背景建模視頻處理的重要部分,是后續(xù)運(yùn)動(dòng)目標(biāo)檢測(cè)、識(shí)別和跟蹤的基礎(chǔ)。針對(duì)現(xiàn)有的背景建模方法無(wú)法兼顧抗干擾性、適應(yīng)光照、背景更新速度和遮擋等問(wèn)
    發(fā)表于 11-29 10:04 ?0次下載
    結(jié)合碼本和運(yùn)行期均值法的雙層背景<b class='flag-5'>建模</b>方法

    開(kāi)漏(opendrain)和開(kāi)(opencollector)介紹

    在電路設(shè)計(jì)時(shí)我們常常遇到開(kāi)漏(open drain)和開(kāi)open collector)的概念。開(kāi)
    發(fā)表于 01-11 14:21 ?6w次閱讀
    <b class='flag-5'>開(kāi)</b>漏(opendrain)和<b class='flag-5'>開(kāi)</b><b class='flag-5'>集</b>(opencollector)介紹

    基于視頻的人臉識(shí)別轉(zhuǎn)換為圖像識(shí)別

    將基于視頻的人臉識(shí)別轉(zhuǎn)換為圖像識(shí)別問(wèn)題,并提出兩種流形來(lái)表示每個(gè)圖像:一種是類間流形,表示每
    發(fā)表于 01-21 11:10 ?4次下載

    基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

    相比,深度卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Network.CNN)在動(dòng)作識(shí)別領(lǐng)域的表現(xiàn)并不突出,原因有以下兩點(diǎn):第一,現(xiàn)今視頻數(shù)據(jù)較小并且噪聲信息較多。視頻
    發(fā)表于 04-17 10:46 ?0次下載
    基于<b class='flag-5'>視頻</b>深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作<b class='flag-5'>識(shí)別</b><b class='flag-5'>模型</b>

    可高效識(shí)別視頻不同內(nèi)容的視頻摘要算法

    針對(duì)如何高效地識(shí)別視頻中具有代表性的內(nèi)容問(wèn)題,提出了一種對(duì)不同的視頻幀賦予不同重要性的視頻摘要算法。首先使用長(zhǎng)短期記憶網(wǎng)絡(luò)來(lái)
    發(fā)表于 04-29 15:07 ?24次下載
    可高效<b class='flag-5'>識(shí)別</b><b class='flag-5'>視頻</b>不同內(nèi)容的<b class='flag-5'>視頻</b>摘要算法

    面向人臉識(shí)別的FusNet網(wǎng)絡(luò)模型

    面向人臉識(shí)別的FusNet網(wǎng)絡(luò)模型
    發(fā)表于 06-09 14:59 ?8次下載

    模型在Close set和在Open set的表現(xiàn)是否存在一定的相關(guān)性呢

    開(kāi)識(shí)別:指對(duì)一個(gè)在訓(xùn)練上訓(xùn)練好的模型,當(dāng)利用一個(gè)測(cè)試(該測(cè)試
    的頭像 發(fā)表于 09-09 09:26 ?1320次閱讀

    基于實(shí)體和動(dòng)作時(shí)空建模視頻文本預(yù)訓(xùn)練

    摘要 盡管常見(jiàn)的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯(cuò)的效果,現(xiàn)有的模型通常將視頻或者文本視為一個(gè)整體建模跨模態(tài)的表示,顯示結(jié)
    的頭像 發(fā)表于 05-25 11:29 ?1028次閱讀
    基于實(shí)體和動(dòng)作時(shí)空<b class='flag-5'>建模</b>的<b class='flag-5'>視頻</b>文本預(yù)訓(xùn)練

    如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練?

    圖像識(shí)別的自動(dòng)學(xué)習(xí)和自動(dòng)訓(xùn)練。 首先,讓我們了解一下圖像識(shí)別的基本概念。圖像識(shí)別是指通過(guò)計(jì)算機(jī)程序識(shí)別理解圖像內(nèi)容的過(guò)程。自動(dòng)學(xué)習(xí)和自動(dòng)訓(xùn)
    的頭像 發(fā)表于 01-12 16:06 ?935次閱讀

    Meta發(fā)布新型無(wú)監(jiān)督視頻預(yù)測(cè)模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無(wú)監(jiān)督視頻預(yù)測(cè)模型,名為“V-JEPA”。這一模型視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)?/div>
    的頭像 發(fā)表于 02-19 11:19 ?1346次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)

    Meta在人工智能領(lǐng)域邁出了重要一步。通過(guò)這款模型,Meta希望能夠?yàn)橛脩籼峁└幼匀弧⒘鲿车脑钪娼换ンw驗(yàn)。數(shù)字代理在元宇宙中的動(dòng)作將更加逼真,從而增強(qiáng)用戶的沉浸感和參與度。 除了Meta
    的頭像 發(fā)表于 12-16 10:34 ?972次閱讀