一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里&華科大提出ONE-PEACE:更好的通用表征模型,刷新多個(gè)SOTA!

CVer ? 來(lái)源:CVer ? 2023-06-02 17:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上次介紹ImageBind給大家預(yù)告了我們近期會(huì)推出一個(gè)新工作,今天正式推出我們的通用多模態(tài)表征模型ONE-PEACE,拿到多個(gè)SOTA,展現(xiàn)emergent zeroshot的能力。正式放arxiv,github repo剛開(kāi),歡迎關(guān)注以及給個(gè)star支持下!

d39877cc-f885-11ed-90ce-dac502259ad0.png

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

論文:https://arxiv.org/abs/2305.11172

代碼:https://github.com/OFA-Sys/ONE-PEACE

為什么是通用多模態(tài)表征模型

表征模型的重要性無(wú)需多言,尤其CLIP之后大家都意識(shí)到一個(gè)好的多模態(tài)表征模型在很多單模態(tài)任務(wù)上都會(huì)發(fā)揮著至關(guān)重要的基礎(chǔ)模型的作用。學(xué)習(xí)了大量模態(tài)alignment的數(shù)據(jù)之后的模型逐漸在學(xué)會(huì)去理解各個(gè)模態(tài)和模態(tài)間蘊(yùn)含的知識(shí)。但過(guò)去大部分模型,基本都把重點(diǎn)關(guān)注在圖文數(shù)據(jù)上了,主要還是得益于社區(qū)貢獻(xiàn)了大量高質(zhì)量的如LAION這類(lèi)的數(shù)據(jù)集。然而如果想更進(jìn)一步去理解世界,我們希望能夠把全世界各種模態(tài)的信息關(guān)聯(lián)在一起,至少我們希望看到一個(gè)prototype來(lái)說(shuō)明怎么實(shí)現(xiàn)一個(gè)不限模態(tài)(unlimited modalities)的通用表征模型。

ImageBind算是跨出了重要的一步,但我之前文章提了我的個(gè)人觀點(diǎn),就是采用小規(guī)模其他模態(tài)和圖像的對(duì)齊數(shù)據(jù)來(lái)實(shí)現(xiàn)其他模態(tài)encoder和CLIP的vision encoder的方案,這類(lèi)取巧的方案成本低實(shí)現(xiàn)容易,也能拿到不錯(cuò)的結(jié)果,但真想做到足夠好,還有一定距離。

我們大概去年意識(shí)到這個(gè)問(wèn)題開(kāi)始嘗試做這個(gè)事情,相對(duì)來(lái)說(shuō)兩位核心輸出的同學(xué)做起來(lái)有點(diǎn)苦哈哈,辛苦去收集數(shù)據(jù)和吭吭搞大規(guī)模預(yù)訓(xùn)練。不過(guò)功夫不負(fù)有心人,我們還是一把輸出了一個(gè)4B規(guī)模的通用表征模型(圖文音三模態(tài)統(tǒng)一),在語(yǔ)義分割、音文檢索、音頻分類(lèi)和視覺(jué)定位幾個(gè)任務(wù)都達(dá)到了新SOTA表現(xiàn),在視頻分類(lèi)、圖像分類(lèi)圖文檢索、以及多模態(tài)經(jīng)典benchmark也都取得了比較領(lǐng)先的結(jié)果。另外,模型展現(xiàn)出來(lái)新的zeroshot能力,即實(shí)現(xiàn)了新的模態(tài)對(duì)齊,比如音頻和圖像的對(duì)齊,或者音頻+文字和圖像的對(duì)齊,而這類(lèi)數(shù)據(jù)并沒(méi)有出現(xiàn)在我們的預(yù)訓(xùn)練數(shù)據(jù)集里。下面我來(lái)具體介紹下方法實(shí)現(xiàn)

ONE-PEACE的方法

總體而言,ONE-PEACE的模型結(jié)構(gòu)核心還是基于transformer,只不過(guò)針對(duì)多模態(tài)做了特殊的設(shè)計(jì),當(dāng)然這里也得感謝前人的很多工作積累了非常多有用的經(jīng)驗(yàn)。預(yù)訓(xùn)練任務(wù)的思路就是幾個(gè)重要的多任務(wù)訓(xùn)練,圍繞contrastive learning展開(kāi)。模型架構(gòu)和訓(xùn)練方法整體如下圖所示:

d3a5f0aa-f885-11ed-90ce-dac502259ad0.jpg

模型結(jié)構(gòu)本質(zhì)上還是transformer,處理方法和我們之前做OFA接近,通過(guò)各自模態(tài)的adaptor實(shí)現(xiàn)信息的向量化,傳入Transformer engine。這里language adaptor就是最簡(jiǎn)單的word embedding,vision adaptor采用了hierarchical MLP,相比過(guò)去使用ResNet或者CLIP ViT成本更低,audio adaptor采用的是convolutional feature extractor。輸入Transformer模型后,我們希望模型既有統(tǒng)一處理的部分,也有模態(tài)特定的處理部分。參考VLMo和BeiT-3的成功經(jīng)驗(yàn),我們將FFN部分設(shè)計(jì)成multiway(Modality-specific MoE)的方式,每個(gè)模態(tài)包含各自的FFN層。而在Transformer內(nèi)部,主要實(shí)現(xiàn)了幾處改動(dòng)。一是GeGLU的引入,相比GeLU能實(shí)現(xiàn)更好的效果;二是相對(duì)位置編碼,實(shí)現(xiàn)更好的position表示;三是使用了Magneto的方案,在attention和FFN均新增layernorm增加訓(xùn)練穩(wěn)定性,四是使用LayerScale,同樣能夠提升訓(xùn)練穩(wěn)定性。

訓(xùn)練方法上,我們主要圍繞對(duì)比學(xué)習(xí)展開(kāi),只不過(guò)實(shí)際實(shí)現(xiàn)并非只使用一個(gè)模態(tài)一個(gè)embedding然后做InfoNCE的方案。這部分主要分為兩類(lèi)任務(wù):

跨模態(tài)對(duì)比學(xué)習(xí):這部分可以認(rèn)為和CLIP的訓(xùn)練方法類(lèi)似,只不過(guò)擴(kuò)展到更多的模態(tài)組合,從而實(shí)現(xiàn)模態(tài)和模態(tài)之間的對(duì)齊。這里我們同樣沒(méi)有遍歷所有模態(tài)的兩兩組合,而選用文本作為中介。

模態(tài)內(nèi)去噪對(duì)比學(xué)習(xí):名字有點(diǎn)拗口,這里用的詞是intra-modal denoising contrastive learning。這個(gè)任務(wù)的本質(zhì)是masked element(language/image/audio)modeling,但走的是feature distillation的路線(xiàn)。之后有機(jī)會(huì)整理下feature distillation這條線(xiàn)的工作,在表征學(xué)習(xí)上還是取得不錯(cuò)的進(jìn)展。那么這里的masked element modeling,用的是拿沒(méi)被mask的輸入得到的表征作為teacher指導(dǎo)被mask輸入得到的表征這個(gè)student。有別于對(duì)應(yīng)位置向量做L1/L2 loss的經(jīng)典方案,這里用的是對(duì)比學(xué)習(xí)。

整個(gè)訓(xùn)練分為兩個(gè)階段,第一個(gè)階段可以理解為奠定基礎(chǔ)的訓(xùn)練,即經(jīng)典的圖文數(shù)據(jù)預(yù)訓(xùn)練。在這一部分圖文相關(guān)的參數(shù)都會(huì)被更新,包括self attention以及這兩個(gè)模態(tài)各自的FFN。而訓(xùn)練完備后,如果要增加新的模態(tài),比如語(yǔ)音,只需要使用語(yǔ)音-文本對(duì)數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練,而這個(gè)階段就只有語(yǔ)音相關(guān)的參數(shù)會(huì)被更新,比如語(yǔ)音adaptor和語(yǔ)音FFN等。這種增加模態(tài)的方案同樣可以不斷拓展到更多模態(tài)上,只要使用上能夠align上其中一個(gè)模態(tài)的配對(duì)數(shù)據(jù)即可,而且因?yàn)楹芏鄥?shù)共用,相比重新訓(xùn)一個(gè)modality specific的encoder更容易拿到好結(jié)果。

實(shí)驗(yàn)效果

實(shí)驗(yàn)分為finetuning和zeroshot兩個(gè)部分,其中finetuning更多追求效果上的絕對(duì)提升,而zeroshot則是觀測(cè)其本身作為通用模型的表現(xiàn),尤其是emergent zeroshot capabilities這個(gè)部分更是展現(xiàn)這種模型能夠達(dá)到類(lèi)比無(wú)監(jiān)督訓(xùn)練的效果。

這里我調(diào)換下順序先介紹下比較有趣的emergent zeroshot capabilities。這里我們沒(méi)有合適的benchmark去評(píng)估,但是可以看不少有趣的例子。可以看到,模型不僅實(shí)現(xiàn)了新的模態(tài)對(duì)齊,還學(xué)會(huì)組合不同模態(tài)的元素去對(duì)齊新的模態(tài)。比如一個(gè)經(jīng)典的例子就是語(yǔ)音+文本召回圖片,比如snow這個(gè)文本配上鳥(niǎo)叫的聲音,就能召回鳥(niǎo)在雪中的圖片,挺有意思。下面給出更多例子:

d3ad2ee2-f885-11ed-90ce-dac502259ad0.jpg

再看finetuning部分,ONE-PEACE主要在CV的任務(wù)上表現(xiàn)比較突出。其中在ADE20K上做語(yǔ)義分割,超出了EVA、BeiT-3、InternImage等一眾SOTA模型:

d3b59320-f885-11ed-90ce-dac502259ad0.jpg

在MSCOCO上做物體檢測(cè)和實(shí)例分割僅次于RevCol,并且ONE-PEACE并沒(méi)有做Object365的intermediate finetuning:

d3bd349a-f885-11ed-90ce-dac502259ad0.jpg

視頻分類(lèi)的K400上,也達(dá)到88.1,超過(guò)了之前諸如CoCa的模型:

d3c627da-f885-11ed-90ce-dac502259ad0.jpg

而落到語(yǔ)音領(lǐng)域,不管在音文檢索、音頻分類(lèi)還是語(yǔ)音VQA上,都實(shí)現(xiàn)了新的SOTA,超過(guò)了LAION的LAION-CLAP:

d3cdd1f6-f885-11ed-90ce-dac502259ad0.jpg

d3d76ad6-f885-11ed-90ce-dac502259ad0.jpg

經(jīng)典的多模態(tài)benchmark上,在視覺(jué)定位這個(gè)任務(wù)上ONE-PEACE直接達(dá)到了SOTA表現(xiàn),并且在out-of-domain的setup下面也有很robust的表現(xiàn):

d3e10780-f885-11ed-90ce-dac502259ad0.jpg

d3e9ed82-f885-11ed-90ce-dac502259ad0.jpg

圖文檢索上,我們主要和沒(méi)有經(jīng)過(guò)intermediate finetuning的模型進(jìn)行比較,主要對(duì)標(biāo)的是雙塔召回模型,同樣可以看到ONE-PEACE不俗的表現(xiàn):

d3f3e97c-f885-11ed-90ce-dac502259ad0.jpg

VQA和NLVR-2屬實(shí)肝不動(dòng)BeiT-3,不過(guò)相比其他基本都有明顯優(yōu)勢(shì):

d3faf726-f885-11ed-90ce-dac502259ad0.jpg

當(dāng)然,說(shuō)這么多效果方面的東西,只是為了證明這個(gè)模型還是比較能打的。雖然沒(méi)法全部刷新那么狠,但可以看到一個(gè)模型可以做到整體這個(gè)效果,應(yīng)該拉出去實(shí)際場(chǎng)景用用還是可以的。

不足與未來(lái)工作

不足之處其實(shí)上文也可以看到確實(shí)有些效果沒(méi)太做到頂,但僅僅追求SOTA意義其實(shí)不大。下一步我們要做的,其實(shí)是給出更多成功的實(shí)踐將這個(gè)模型擴(kuò)展更多模態(tài),尤其是對(duì)比如視頻這類(lèi)復(fù)雜模態(tài),怎么在真正高難度的任務(wù)上做得更好。另外,表征模型的潛力絕不僅僅只是在finetuning,也不在單純的zeroshot檢索,而在于其良好的對(duì)齊從而通過(guò)通用大模型做更復(fù)雜的人物,比如結(jié)合LLM。當(dāng)前多模態(tài)LLM這個(gè)賽道發(fā)展如火如荼,ONE-PEACE怎么實(shí)現(xiàn)和強(qiáng)大的LLM結(jié)合,從而實(shí)現(xiàn)對(duì)世界的跨模態(tài)復(fù)雜任務(wù)的處理,也許相比追求benchmark更加關(guān)鍵。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41301
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50452
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25463

原文標(biāo)題:阿里&華科大提出ONE-PEACE:更好的通用表征模型,刷新多個(gè)SOTA!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IGBT的物理結(jié)構(gòu)模型—BJT&MOS模型(1)

    在前面關(guān)于PIN&MOS模型分析中,特別強(qiáng)調(diào)了這個(gè)模型所存在的一個(gè)短板,即所有電流都通過(guò)MOS溝道,實(shí)際上只有電子電流通過(guò)MOS溝道,而空穴電流則通過(guò)p-base。
    的頭像 發(fā)表于 12-01 10:17 ?2097次閱讀
    IGBT的物理結(jié)構(gòu)<b class='flag-5'>模型</b>—BJT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MOS<b class='flag-5'>模型</b>(1)

    厲害了!阿里安全圖靈實(shí)驗(yàn)室在ICDAR2017 MLT競(jìng)賽刷新世界最好成績(jī)

    。該模型已經(jīng)全面支撐阿里生態(tài)中的商品內(nèi)容安全、業(yè)務(wù)安全、平臺(tái)治理、評(píng)價(jià)、交互、認(rèn)證等多個(gè)業(yè)務(wù)場(chǎng)景,同時(shí),還通過(guò)阿里云盾-內(nèi)容安全(綠網(wǎng))產(chǎn)品,輸出給第三方客戶(hù)使用。目前,ATL Can
    發(fā)表于 03-14 10:54

    Slew Rate of Op Amp Circuits

    of the output of an op amp circuit. The SR in general describes the degradation effect on the high frequency response of the active amplifier (
    發(fā)表于 09-26 10:45 ?12次下載

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    存儲(chǔ)類(lèi)&amp;作用域&amp;生命周期&amp;鏈接屬性

    、鏈接屬性前言本篇文章將會(huì)為大家介紹一些變量相關(guān)的存儲(chǔ)屬性、作用域、生命周期以及鏈接屬性的一些知識(shí),有助于大家更好地理解程序,分析程序。一、存儲(chǔ)類(lèi)&amp;amp;作用域&amp;
    發(fā)表于 12-09 15:51 ?5次下載
    存儲(chǔ)類(lèi)&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯(cuò)誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1954次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來(lái)咱們來(lái)嘗試解決這個(gè)問(wèn)題。假設(shè) if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一個(gè)“普通的變量”。它勢(shì)必要有能力在執(zhí)行的時(shí)候能夠動(dòng)態(tài)改動(dòng)值。
    的頭像 發(fā)表于 05-08 11:01 ?1392次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    攝像機(jī)&amp;amp;amp;雷達(dá)對(duì)車(chē)輛駕駛的輔助

    攝像機(jī)&amp;amp;雷達(dá)擔(dān)負(fù)著可輔助駕駛員安全駕駛的、高級(jí)駕駛輔助系統(tǒng)的傳感功能。尼得科正在進(jìn)一步推進(jìn)攝像機(jī)&amp;amp;雷達(dá)的高性能化進(jìn)程。
    的頭像 發(fā)表于 11-26 10:02 ?1390次閱讀
    攝像機(jī)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達(dá)對(duì)車(chē)輛駕駛的輔助

    科大&amp;amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、多模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地,輸入一張圖像以及一條指令(可以是檢測(cè)、識(shí)別、spotting、語(yǔ)義理解)
    的頭像 發(fā)表于 08-31 15:29 ?1938次閱讀
    中<b class='flag-5'>科大</b>&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節(jié)<b class='flag-5'>提出</b>UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大<b class='flag-5'>模型</b>

    低成本擴(kuò)大輸入分辨率!科大提出Monkey:新的多模態(tài)大模型

    下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場(chǎng)景問(wèn)答、以場(chǎng)景文本為中心的視覺(jué)問(wèn)答和面向文檔的視覺(jué)問(wèn)答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA
    的頭像 發(fā)表于 12-04 15:33 ?1725次閱讀
    低成本擴(kuò)大輸入分辨率!<b class='flag-5'>華</b><b class='flag-5'>科大提出</b>Monkey:新的多模態(tài)大<b class='flag-5'>模型</b>

    高分工作!Uni3D:3D基礎(chǔ)大模型,刷新多個(gè)SOTA!

    的結(jié)果,但是在3D視覺(jué)中模型的scale up始終沒(méi)有成功。我們旨在將NLP/2D中scale up的成功復(fù)現(xiàn)到3D表征模型上。
    的頭像 發(fā)表于 01-30 15:56 ?1395次閱讀
    高分工作!Uni3D:3D基礎(chǔ)大<b class='flag-5'>模型</b>,<b class='flag-5'>刷新</b><b class='flag-5'>多個(gè)</b><b class='flag-5'>SOTA</b>!

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?2次下載