一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來(lái)源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-03-03 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說(shuō)到Transformer,大家可能會(huì)想到BERT[1]、GPT-3[2]等等,這些都是利用無(wú)監(jiān)督訓(xùn)練的大型預(yù)訓(xùn)練模型。既然Transformer也能用在CV上,那么能不能做類似的事情呢?這篇論文利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型(IPT)。

Motivation

目前很多l(xiāng)ow-level的task其實(shí)都是有一定相關(guān)性的,就是在一個(gè)low-level task上預(yù)訓(xùn)練對(duì)另一個(gè)task是有幫助的,但是目前幾乎沒(méi)有人去做相關(guān)的工作。而且pre-training在某些數(shù)據(jù)稀缺的task上就很有必要,并且無(wú)論在CV還是NLP,使用pre-trained model是非常常見(jiàn)的事情。對(duì)于一些輸入和輸出都是image的low-level算法來(lái)說(shuō),目前的pre-trained model顯然是不適合的。

準(zhǔn)備數(shù)據(jù)集

因?yàn)門ransformer需要大量的數(shù)據(jù)去擬合,所以必須使用一個(gè)大型的數(shù)據(jù)集。在這篇論文中,作者用的是imagenet。對(duì)于imagenet的每一張圖片生成各種任務(wù)對(duì)應(yīng)的圖像對(duì),例如對(duì)于超分(super-resolution)來(lái)說(shuō),模型的輸入數(shù)據(jù)是imagenet經(jīng)過(guò)下采樣的數(shù)據(jù),而標(biāo)簽是原圖。

IPT

在上篇文章介紹過(guò)了,因?yàn)門ransformer本身是用于NLP領(lǐng)域的,輸入應(yīng)該是一個(gè)序列,因此這篇的論文做法和ViT[3]一樣,首先需要把feature map分塊,每個(gè)patch則視為一個(gè)word。但是不同的是,因?yàn)镮PT是同時(shí)訓(xùn)練多個(gè)task,因此模型定義了多個(gè)head和tail分別對(duì)應(yīng)不同的task。

整個(gè)模型架構(gòu)包含四個(gè)部分:用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對(duì)應(yīng)于不同的task,由于IPT需要處理多個(gè)task,因此是一個(gè)multi-head的結(jié)構(gòu),每個(gè)head由3層卷積層組成。Heads要完成的任務(wù)可以描述為:fH = Hi(x),x是輸入圖像,f是第i個(gè)Head的輸出。

Transformer encoder

在輸入Transformer前,需要將Head輸出的feature map分成一個(gè)個(gè)patch,同樣還需要加入位置編碼信息,與ViT不同,這里是直接相加就可以作為Transformer Encoder的輸入了,不需要做linear projection。

ef62fdc4-778b-11eb-8b86-12bb97331649.png

fpi是feature map的一個(gè)patch,Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization,MSA是多頭self-attention模塊,F(xiàn)FN是feed forward network。

Transformer decoder

Transformer decoder的輸入時(shí)encoder的輸出和task embedding。這些task embedding是可訓(xùn)練的,不同的task embedding代表處理不同的task。decoder的計(jì)算可以表示如下:

efacf5dc-778b-11eb-8b86-12bb97331649.png

fEi是指encoder的輸出,fDi是指decoder的輸出。

Tails

Tails與Heads是相對(duì)應(yīng)的,但是不同的tail的輸出的大小可能不一樣,例如超分,做超分時(shí)輸出比輸入的圖像大,因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成,分別是Lcontrastive和Lsupervised的加權(quán)和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對(duì)于來(lái)自同一張圖的不同patch的輸出的距離,最大化對(duì)于不同圖片的patch之間的輸出的距離。

實(shí)驗(yàn)與結(jié)果

作者用了32塊NVIDIA Tesla V100,以256的batch size訓(xùn)練了200個(gè)epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50369
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25428
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22609

原文標(biāo)題:視覺(jué)新范式Transformer之IPT

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    請(qǐng)問(wèn)如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項(xiàng)目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對(duì)象檢測(cè)模型。它在 ubuntu 電腦上運(yùn)行良好。現(xiàn)在我想在我的 imx8mplus 板上運(yùn)行該模型
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?1623次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢》,其中高昂的預(yù)
    的頭像 發(fā)表于 02-19 16:10 ?982次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這動(dòng)向的前沿。Keras 擁有專用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?492次閱讀

    使用英特爾AI PC為YOLO模型訓(xùn)練加速

    之后,情況有了新的變化,PyTorch2.5正式開始支持英特爾顯卡,也就是說(shuō),此后我們能夠借助英特爾 銳炫 顯卡來(lái)進(jìn)行模型訓(xùn)練了。
    的頭像 發(fā)表于 12-09 16:14 ?1576次閱讀
    使用英特爾AI PC為YOLO<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>加速

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    從零開始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個(gè)大型語(yǔ)言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?777次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大語(yǔ)言<b class='flag-5'>模型</b>需要投資多少錢?

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM
    的頭像 發(fā)表于 11-08 09:30 ?1486次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為個(gè)
    的頭像 發(fā)表于 11-05 17:43 ?1391次閱讀

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指個(gè)先進(jìn)的人工智能模型,可能是個(gè)虛構(gòu)的或者是
    的頭像 發(fā)表于 10-27 14:24 ?868次閱讀

    AI大模型訓(xùn)練數(shù)據(jù)來(lái)源分析

    學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet個(gè)廣泛用于圖像識(shí)別任務(wù)的大
    的頭像 發(fā)表于 10-23 15:32 ?3622次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟。以下是個(gè)詳細(xì)的
    的頭像 發(fā)表于 10-23 15:07 ?4937次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?587次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    如何訓(xùn)練ai大模型

    訓(xùn)練AI大模型個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟和細(xì)致的考量。 、數(shù)據(jù)準(zhǔn)備 1. 數(shù)據(jù)收集 確定數(shù)據(jù)類型 :根據(jù)
    的頭像 發(fā)表于 10-17 18:17 ?2587次閱讀