一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一篇解決表示學(xué)習(xí)坍塌問題的工作報告

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:Fareise ? 2022-08-31 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 表示學(xué)習(xí)中的坍塌問題

在表示學(xué)習(xí)中,一種很常見的做法是利用孿生網(wǎng)絡(luò)的結(jié)構(gòu),讓同一個樣本的不同數(shù)據(jù)增強后的表示相似。比如對于一張圖像,使用翻轉(zhuǎn)、裁剪等方法生成另一個增強圖像,兩個圖像分別經(jīng)過兩個共享參數(shù)的編碼器,得到表示,模型的優(yōu)化目標是讓這兩個表示的距離近。

這種方法一個比較大的挑戰(zhàn)在于,模型在訓(xùn)練過程中容易出現(xiàn)坍塌問題。模型可以把所有樣本的表示都學(xué)成完全相同的常數(shù)向量(比如每個樣本模型的輸出都是全0向量),這樣就能滿足上述兩個表示距離近的要求了。

2 解決坍塌問題的方法

業(yè)內(nèi)有很多解決坍塌問題的方法,主要可以分為4種類型:

對比學(xué)習(xí)方法:在訓(xùn)練一對正樣本對時,同時采樣大量的負樣本,讓正樣本之間離得近,負樣本之間離得遠,避免模型偷懶把所有樣本的表示都學(xué)成一樣的。

聚類方法:在訓(xùn)練過程中增加一個聚類過程,將樣本分配給不同的類簇,然后在類簇級別進行對比學(xué)習(xí)。

基于蒸餾的方法:通過模型結(jié)構(gòu)的角度避免坍塌問題,學(xué)習(xí)一個student network來預(yù)測teacher network的表示,teacher network是student network參數(shù)的滑動平均,teacher network不通過反向傳播更新參數(shù)。

信息最大化方法:讓生成的embedding中每一維的向量相互正交,使其信息量最大化,這樣可以避免各個維度的值信息過于冗余,防止坍塌問題。

目前常用的負樣本采樣方法,一個比較大的問題是計算開銷大,取得好的效果往往需要大量負樣本,因此有了MoCo等對比學(xué)習(xí)框架。本文提出的方法基于信息最大化的思路,能夠只使用正樣本對實現(xiàn)表示學(xué)習(xí)的同時,防止坍現(xiàn)象的發(fā)生。關(guān)于對比學(xué)習(xí)的常用經(jīng)典方法,可以參考這篇文章:對比學(xué)習(xí)中的4種經(jīng)典訓(xùn)練模式

3 信息最大化方法歷史工作

基于信息最大化的方法典型的工作有兩篇ICLM 2021的文章,分別是Whitening for Self-Supervised Representation Learning(ICML 2021,W-MSE)Barlow twins: Self-supervised learning via redundancy reduction(ICML 2021)。下面介紹一下這兩篇文章的整體思路,F(xiàn)acebook的這篇論文也是基于這個思路設(shè)計的。

d3146b2a-284d-11ed-ba43-dac502259ad0.png

W-MSE的整體網(wǎng)絡(luò)結(jié)構(gòu)如上圖,模型中輸入一對互為正樣本的樣本對(例如一個圖像的不同增強形式),使用共享參數(shù)Encoder分別編碼后,增加一個whitening模塊,對每個batch內(nèi)的所有embedding進行白化,讓embedding的各個維度變量線性無關(guān),后面再接norm處理。下圖形式化表明了W-MSE的用途,通過白化+norm讓樣本形成一個球形分布,正樣本之間距離近,每個樣本需要調(diào)整自己在圓周上的位置拉進正樣本之間的距離,形成最終的簇。

d33098f4-284d-11ed-ba43-dac502259ad0.png


Barlow twins方法也是同樣的思路,只是做法不同。在得到一對正樣本的兩個embedding后,計算兩個向量各個變量之間的相關(guān)性矩陣,優(yōu)化這個矩陣接近對角矩陣,以此實現(xiàn)embedding中各個變量之間線性無關(guān)。

d3550ca2-284d-11ed-ba43-dac502259ad0.png

4 VICREG

Facebook團隊提出的VICREG是上述基于信息最大化表示學(xué)習(xí)方法的一個擴展,損失函數(shù)主要包括variance、invariance、covariance三個部分。模型的主體結(jié)構(gòu)如下,仍然是一個孿生網(wǎng)絡(luò)結(jié)構(gòu),輸入一個樣本的不同view互為正樣本。

d370b272-284d-11ed-ba43-dac502259ad0.png

variance部分主要是讓batch內(nèi)每個樣本embedding向量的每一維變量之間的方差不小于一個值,這樣可以有效防止每個樣本的向量都對應(yīng)同一個點的情況,防止坍塌的發(fā)生。

invariance部分即讓正樣本對的表示embedding距離盡可能小,是正常的表示學(xué)習(xí)loss。

covariance借鑒了Barlow twins中的思路,讓batch內(nèi)的embedding非對角線元素盡可能為0,即讓表示向量各個維度變量線性無關(guān)。

最終的表示學(xué)習(xí)loss是由上述3個loss的加和:

d3817d8c-284d-11ed-ba43-dac502259ad0.png

5 實驗結(jié)果

作者進行了一些實驗驗證VICREG表示學(xué)習(xí)方法的效果。在ImageNet數(shù)據(jù)集上,使用不同方法預(yù)訓(xùn)練的表示接一個線性層進行分類,或者基于預(yù)訓(xùn)練的表示使用部分數(shù)據(jù)進行finetune,對比圖像分類效果,實驗結(jié)果如下:

d38f8f9e-284d-11ed-ba43-dac502259ad0.png

作者也對比了在不同方法上是否采用variance或covariance等loss的效果變化:

d3a9c04e-284d-11ed-ba43-dac502259ad0.png

6 總結(jié)

本文介紹了Facebook AI團隊在2022年ICLR的一篇解決表示學(xué)習(xí)坍塌問題的工作,順帶介紹了基于信息最大化的防坍塌工作,有助于幫助我們更深層次理解表示學(xué)習(xí)的原理,以及如何解決實際應(yīng)用表示學(xué)習(xí)、對比學(xué)習(xí)時遇到的坍塌問題。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 矩陣
    +關(guān)注

    關(guān)注

    1

    文章

    434

    瀏覽量

    35249
  • Network
    +關(guān)注

    關(guān)注

    0

    文章

    64

    瀏覽量

    30110

原文標題:ICLR2022 | Facebook AI提出解決表示學(xué)習(xí)坍塌問題新方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    章 W55MH32 高性能以太網(wǎng)單片機的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)、入門循序漸進學(xué)習(xí)。參考兩份手冊,提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)
    的頭像 發(fā)表于 05-26 09:07 ?111次閱讀
    第<b class='flag-5'>一</b>章 W55MH32 高性能以太網(wǎng)單片機的<b class='flag-5'>學(xué)習(xí)</b>方法概述

    1000+例各類獲獎電賽作品資料集(電路、代碼、教程文末免費領(lǐng)?。?/a>

    本資料匯集了歷屆電賽的優(yōu)秀獲獎作品,并對所有作品資料進行仔細分類方便用戶們選擇學(xué)習(xí),是套價值極高的參考學(xué)習(xí)資料,適合每位電子愛好者、電子工程師和對電賽感興趣的學(xué)生,相信通過這套資料
    的頭像 發(fā)表于 05-22 11:41 ?213次閱讀
    1000+例各類獲獎電賽作品資料集(電路<b class='flag-5'>篇</b>、代碼<b class='flag-5'>篇</b>、教程<b class='flag-5'>篇</b>文末免費領(lǐng)?。? />    </a>
</div>                              <div   id=

    180發(fā)燒功放制作學(xué)習(xí)資料【經(jīng)典】

    一百多經(jīng)典學(xué)習(xí)資料,部分資料內(nèi)容截取: 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點贊、評論支持下哦~)
    發(fā)表于 05-19 16:38

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+ 入門學(xué)習(xí)

    的是基礎(chǔ),主要從為什么要學(xué)習(xí)AI Agent和開發(fā)AI Agent的知識儲備入手進行介紹。作為入門AI Agent的小白還是很有必要學(xué)習(xí)的。這里將些重要觀點作個歸納 1.AI Ag
    發(fā)表于 05-02 09:26

    STM32Cube學(xué)習(xí)筆記 (十六全)

    資料介紹: STM32Cube學(xué)習(xí)筆記,步手把手帶你進入STM32Cube的世界,包括點燈,按鍵,串口,ADC,DAC等等共16
    發(fā)表于 03-22 17:02

    兩會定調(diào)!2025政府工作報告未提“安防”二字,但......

    《2025政府工作報告》發(fā)布,安防行業(yè)將迎來多項工作任務(wù)。智能家居、消費安防、智慧養(yǎng)老和AI產(chǎn)業(yè)應(yīng)用將推動行業(yè)發(fā)展。政府將出臺多項補貼政策,為安防企業(yè)提供市場機遇。
    的頭像 發(fā)表于 03-13 09:28 ?481次閱讀

    6G首次進入政府工作報告2025是關(guān)鍵之年

    行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年03月06日 11:35:38

    AI看點:中國AI人才缺口達500萬人 政府工作報告:支持AI大模型廣泛應(yīng)用

    業(yè)界既需要技術(shù)和理論創(chuàng)新型AI人才,也需要能夠結(jié)合各行業(yè)實際需求的實操型AI人才。相關(guān)人才將迎來更廣闊的發(fā)展空間。 政府工作報告:支持AI大模型廣泛應(yīng)用 正值兩會期間,我們看到AI備受關(guān)注,在今年的政府工作報告中提出,激發(fā)數(shù)字經(jīng)濟創(chuàng)新活力。
    的頭像 發(fā)表于 03-05 14:59 ?903次閱讀

    2025年,多地籌謀集成電路產(chǎn)業(yè)

    來源:中國電子報? 近日,全國各?。ㄊ校┘娂姲l(fā)布2025政府工作報告,總結(jié)2024工作,并提出2025年工作總體要求和重點任務(wù)。其中,多地對集成電路產(chǎn)業(yè)做出規(guī)劃。 北京:推動集成電路重點項目產(chǎn)能爬坡
    的頭像 發(fā)表于 01-28 13:21 ?3003次閱讀

    廣電計量新年首深度研究報告出爐

    新年伊始,廣電計量首深度研究報告出爐,公司憑借全面發(fā)展的企業(yè)實力和資本市場的優(yōu)異表現(xiàn)在新的年獲得資本市場的認可。
    的頭像 發(fā)表于 01-03 11:31 ?758次閱讀

    中國發(fā)展報告:我國是無人機第大技術(shù)來源國

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近日,國務(wù)院發(fā)展研究中心撰寫并在京發(fā)布的《中國發(fā)展報告2024》顯示,與發(fā)展新質(zhì)生產(chǎn)力相適應(yīng)的新型生產(chǎn)關(guān)系正加快完善。比如低空經(jīng)濟,從20多個省份將其寫入政府工作報告
    的頭像 發(fā)表于 01-03 00:17 ?4575次閱讀

    廣電計量助力第二屆低空科技發(fā)展大會區(qū)順利舉辦

    低空經(jīng)濟是新質(zhì)生產(chǎn)力的典型代表,也將是中國經(jīng)濟新的增長點,其戰(zhàn)略意義重大,發(fā)展前景廣闊。今年年初低空經(jīng)濟在全國兩會上作為“新增長引擎”寫入政府工作報告。2024年伊始,低空經(jīng)濟被寫入陜西省政府工作報告,陜西低空經(jīng)濟發(fā)展迎來全新機遇。
    的頭像 發(fā)表于 12-24 11:23 ?728次閱讀

    杰和科技攜新品受邀參加深圳計算機行業(yè)協(xié)會會員大會

    2024年8月23日杰和科技攜新品受邀參加深圳計算機行業(yè)協(xié)會會員大會2024年8月23日,深圳計算機行業(yè)協(xié)會舉行了第十一屆第次會員大會,杰和科技受邀參加此次活動,審議第十屆理事會工作報告、監(jiān)事會
    的頭像 發(fā)表于 09-12 08:12 ?472次閱讀
    杰和科技攜新品受邀參加深圳計算機行業(yè)協(xié)會會員大會

    羅德與施瓦茨發(fā)布城市空中交通eVTOL測試解決方案

    2024年政府工作報告提出,“積極打造生物制造、商業(yè)航天、低空經(jīng)濟等新增長引擎”。這是低空經(jīng)濟首次被寫入政府工作報告。低空經(jīng)濟依托于1000米以內(nèi)的低空空域,以各種有人駕駛和無人駕駛航空器的各類低空飛行活動為牽引,輻射帶動相關(guān)領(lǐng)域融合發(fā)展。
    的頭像 發(fā)表于 08-16 16:30 ?832次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ),對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此閱讀,但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索
    發(fā)表于 07-25 14:33