一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAl提出了一種適用于文本、圖像和語(yǔ)音的稀疏Transformer

nlfO_thejiangme ? 來(lái)源:lq ? 2019-04-28 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OpenAl提出了一種適用于文本、圖像和語(yǔ)音的稀疏Transformer,將先前基于注意力機(jī)制的算法處理序列的長(zhǎng)度提高了三十倍。

對(duì)復(fù)雜高維度的數(shù)據(jù)分布進(jìn)行估計(jì)一直是非監(jiān)督學(xué)習(xí)領(lǐng)域的核心問題,特別是針對(duì)像文本、語(yǔ)音、圖像等長(zhǎng)程、相關(guān)性數(shù)據(jù)更使得這一領(lǐng)域充滿了挑戰(zhàn)。同時(shí),對(duì)于復(fù)雜數(shù)據(jù)的建模也是非監(jiān)督表示學(xué)習(xí)的關(guān)鍵所在。近年來(lái),神經(jīng)自回歸模型在這一領(lǐng)域取得了一系列十分優(yōu)秀進(jìn)展,針對(duì)自然語(yǔ)言、原始音頻和圖像成功建模。這些方法將聯(lián)合概率分布分解成了條件概率分布的乘積來(lái)解決。但由于數(shù)據(jù)中包含許多復(fù)雜、長(zhǎng)程的依賴性并需要合適的表達(dá)模型架構(gòu)來(lái)進(jìn)行學(xué)習(xí),使得對(duì)數(shù)據(jù)的條件概率分布建模依舊十分復(fù)雜。基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)在這個(gè)方向取得了一系列進(jìn)展,但需要一定的深度來(lái)保證足夠的感受野。

為了解決這一問題,WaveNet引入了膨脹卷積(dilated conv)幫助網(wǎng)絡(luò)在的對(duì)數(shù)數(shù)量層數(shù)下學(xué)習(xí)長(zhǎng)程依賴性。于此同時(shí)Transformer由于可以利用一定的層數(shù)為任意的依賴性建模,在自然語(yǔ)言任務(wù)上顯示出了強(qiáng)大的優(yōu)勢(shì)。由于每個(gè)自注意力層用于全局感受野使得網(wǎng)絡(luò)可以將表示能力用于最有用的輸入?yún)^(qū)域,對(duì)于生成多樣性的數(shù)據(jù)具有更加靈活的特征。但這種方法在處理序列時(shí)需要面臨隨著序列長(zhǎng)度平方增長(zhǎng)的內(nèi)存與算力。對(duì)于過長(zhǎng)的序列,現(xiàn)有的計(jì)算機(jī)將無(wú)法處理和實(shí)現(xiàn)。為了解決這一問題,OpenAI的研究人員在最新的論文中為注意力矩陣引入了多種稀疏的分解方式,通過將完全注意力計(jì)算分解為多個(gè)更快的注意力操作,通過稀疏組合來(lái)進(jìn)行稠密注意力操作,在不犧牲性能的情況下大幅降低了對(duì)于內(nèi)存和算力的需求。

新提出了稀疏Transformer將先前Transforme的平方復(fù)雜度O(N^2)降低為O(NN^1/2),通過一些額外的改進(jìn)使得自注意力機(jī)制可以直接用于長(zhǎng)程的語(yǔ)音、文本和圖像數(shù)據(jù)。原先的方法大多集中于一個(gè)特定的領(lǐng)域、并且很難為超過幾千個(gè)元素長(zhǎng)度的序列建模,而稀疏Transformer則可利用幾百層的模型為上萬(wàn)個(gè)數(shù)據(jù)長(zhǎng)度的序列建模,并在不同領(lǐng)域中實(shí)現(xiàn)了最優(yōu)異的結(jié)果。

Deep Attention

在Transformer中,輸入和輸出的每一個(gè)元素都通過權(quán)重相連,利用注意力機(jī)制算法可以根據(jù)實(shí)際情況動(dòng)態(tài)更新權(quán)重,使得Transformer具有更加靈活的特性。但在工程實(shí)踐中,針對(duì)N維輸出我們需要N*N的注意力矩陣來(lái)為每一層存儲(chǔ)權(quán)重,這將消耗大量的內(nèi)存,特別是針對(duì)音頻和圖像這種長(zhǎng)序列的數(shù)據(jù)來(lái)說,內(nèi)存分分鐘就將被算法吃完。下表給出了針對(duì)不同數(shù)據(jù)所需要的內(nèi)存大小和計(jì)算量。

這一表格針對(duì)64層4heads的深度Transformer對(duì)于內(nèi)存和計(jì)算的需求,而一般的顯卡只有12-32G顯存,顯然對(duì)于長(zhǎng)程的圖像、語(yǔ)言數(shù)據(jù)是無(wú)能為力的。受到深度學(xué)習(xí)中減小內(nèi)存的啟發(fā),研究人員們?cè)谧⒁饬仃嚪聪騻鞑r(shí)引入了checkpoint的概念,這使得內(nèi)存的消耗與網(wǎng)絡(luò)層的數(shù)量解耦,讓更深的網(wǎng)絡(luò)訓(xùn)練成為可能。

稀疏注意力機(jī)制

解決了內(nèi)存的問題并不意味著我們可以水到渠成地訓(xùn)練長(zhǎng)程數(shù)據(jù)了。即使對(duì)于單個(gè)注意力矩陣來(lái)說對(duì)于長(zhǎng)程數(shù)據(jù)的計(jì)算在實(shí)際中依然很難實(shí)現(xiàn)。為了處理這一問題,研究人員利用了稀疏注意力模式從輸入數(shù)據(jù)中選出一小部分來(lái)計(jì)算輸出,這一個(gè)輸入子集相對(duì)于輸入整體來(lái)說很小,使得最終對(duì)于每一個(gè)長(zhǎng)程序列的計(jì)算結(jié)果變得可控。為了驗(yàn)證這種方法的有效性,研究人員對(duì)學(xué)習(xí)到的注意力模式進(jìn)行了可視化,并在其中發(fā)現(xiàn)了很多具有可解釋性的稀疏模式。下圖中可以看到白色發(fā)光的像素被被注意力頭所接受并用于預(yù)測(cè)下一個(gè)位置的輸出。當(dāng)輸入集中于很小一個(gè)子集并加入較高的正則化時(shí),這一層將會(huì)變得系數(shù)化。下圖中可以看到不同的層學(xué)會(huì)了不同的稀疏注意力機(jī)制,左圖是19層基于每一行來(lái)進(jìn)行預(yù)測(cè),而右圖為20層基于每一列來(lái)進(jìn)行預(yù)測(cè),將完全注意力機(jī)制進(jìn)行了有效的分解。

不同層的注意力具有不同的側(cè)重。有的層只對(duì)特定的空間位置產(chǎn)生注意力只注重特定的位置,而有的層注意力則高度依賴于輸入的數(shù)據(jù),具有全局的動(dòng)態(tài)注意力。

為了保留模型對(duì)于這些模式的學(xué)習(xí)能力,研究人員將注意力矩陣進(jìn)行了二維分解,以便網(wǎng)絡(luò)可以通過兩步稀疏注意力實(shí)現(xiàn)對(duì)于所有位置的審視。

上圖中間是第一種步進(jìn)注意力的版本,可以粗略的理解為每一個(gè)位置需要注意它所在的行和列;另一種固定注意力的方式則嘗試著從固定的列和元素中進(jìn)行處理,這種方式對(duì)于非二維結(jié)構(gòu)的數(shù)據(jù)有著很好的效果。

實(shí)驗(yàn)結(jié)果

在CIFAR-10,Enwik8和Imagenet64上研究人員比較了新提出方法的密度建模性能,可以看到這種方法對(duì)于各個(gè)數(shù)據(jù)集建模都有著優(yōu)秀的能力。

同時(shí)研究人員還發(fā)現(xiàn)稀疏注意力比完全注意力的損失更小、更快。

由于transformer對(duì)全局結(jié)構(gòu)具有一定的理解,可以對(duì)缺失的圖像進(jìn)行補(bǔ)全。

同時(shí)利用極大似然估計(jì)從模型中進(jìn)行采樣生成了一系列圖像:

稀疏Transformer對(duì)于原始的音頻輸入依然能進(jìn)行有效的處理,實(shí)驗(yàn)中可以生成65000個(gè)元素的聲音序列(近5s鐘的音頻)。只需要稍微改變模型的位置嵌入就可以適應(yīng)不同形式的輸入。

在未來(lái)研究人員還將繼續(xù)針對(duì)長(zhǎng)程序列研究高效的建模方式,并探索不同類型的稀疏性結(jié)合。雖然這種方法取得了很好的效果,但是對(duì)于高分辨的圖像甚至視頻依然無(wú)法有效處理。研究人員計(jì)劃在未來(lái)引入高維數(shù)據(jù)建模方式和稀疏注意力共同解決這一挑戰(zhàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103568
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41239
  • 數(shù)據(jù)建模
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7072

原文標(biāo)題:OpenAI提出新方法Sparse Transformer,大幅度提高長(zhǎng)程序列數(shù)據(jù)建模能力

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種適用于鋰電池的電流監(jiān)測(cè)電路設(shè)計(jì)

    提出了一種適用于鋰電池的電流監(jiān)測(cè)電路,通過在鋰電池供電環(huán)路引入靈敏電阻對(duì)電流進(jìn)行采樣,并使用時(shí)鐘控制開關(guān)電容運(yùn)算放大器和高速比較器,實(shí)現(xiàn)從模擬信號(hào)到數(shù)字信號(hào)的轉(zhuǎn)換。
    發(fā)表于 09-09 16:25 ?2555次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>適用于</b>鋰電池的電流監(jiān)測(cè)電路設(shè)計(jì)

    一種能同時(shí)適用于ISM兩頻段的功率分配器設(shè)計(jì)

    ,ISM射頻段2.45 GHz和5.8 GHz的有很大的比例。因此,本文提出了一種能同時(shí)適用于該兩頻段的功率分配器,通過嚴(yán)格的電路設(shè)計(jì)得出了其具體的理想設(shè)計(jì)參數(shù),通過電磁仿真AWR-M
    發(fā)表于 07-02 07:55

    一種適用于模擬/數(shù)字混合信號(hào)環(huán)境的接地技術(shù)

    本文分享了一種適用于模擬/數(shù)字混合信號(hào)環(huán)境的接地技術(shù)。
    發(fā)表于 04-25 07:46

    分享一種不錯(cuò)的無(wú)線語(yǔ)音傳輸系統(tǒng)設(shè)計(jì)方案

    本文介紹了nRF401的特點(diǎn),提出了一種將其應(yīng)用于無(wú)線集群語(yǔ)音傳輸系統(tǒng)的實(shí)現(xiàn)方案。此方案硬件電路簡(jiǎn)單,易于調(diào)試,軟件編程也不復(fù)雜,是一種較好
    發(fā)表于 05-31 06:36

    一種適用于嵌入式系統(tǒng)的模塊動(dòng)態(tài)加載技術(shù)

    嵌入式系統(tǒng)中的模塊動(dòng)態(tài)加載技術(shù)摘要提出一種適用于嵌入式系統(tǒng)的模塊動(dòng)態(tài)加載技術(shù),設(shè)計(jì)實(shí)現(xiàn)簡(jiǎn)單,占用資源少,開銷小,并且成功運(yùn)用于DeltaOS.可提高系統(tǒng)的靈活性和擴(kuò)屬性.介招加載與動(dòng)態(tài)
    發(fā)表于 12-20 06:32

    一種適用于空間觀測(cè)任務(wù)的實(shí)時(shí)多目標(biāo)識(shí)別算法分享

    基于嵌入式圖像處理平臺(tái)的實(shí)時(shí)多目標(biāo)識(shí)別算法人工智能技術(shù)與咨詢 昨天本文來(lái)自《科學(xué)技術(shù)與工程》,作者王旭輝等摘 要提出了一種適用于空間觀測(cè)任務(wù)的實(shí)時(shí)多目標(biāo)識(shí)別算法,它基于DSP和FPGA
    發(fā)表于 12-21 07:02

    一種有效的文本圖像二值化方法

    針對(duì)文本圖像二值化方法--全局閾值法和局部閾值法所存在的不足,提出了一種整體與局部相結(jié)合的二值化方法,該方法根據(jù)文本圖像的特點(diǎn),自適應(yīng)調(diào)
    發(fā)表于 06-11 09:08 ?13次下載

    一種適用于可視電話的快速運(yùn)動(dòng)估計(jì)算法

    本文提出了一種適用于可視電話視頻特性的快速運(yùn)動(dòng)估計(jì)算法。針對(duì)可視電話低碼率的要求和頭肩序列小運(yùn)動(dòng)的特性設(shè)計(jì)了一種計(jì)算量更小的塊匹配方案。經(jīng)過實(shí)驗(yàn)證明,這種算法可
    發(fā)表于 03-01 15:37 ?10次下載

    一種適用于多規(guī)格定子繞組制作的絕緣內(nèi)圈

    一種適用于多規(guī)格定子繞組制作的絕緣內(nèi)圈_單志友
    發(fā)表于 01-02 15:44 ?0次下載

    一種適用于醫(yī)學(xué)領(lǐng)域的頻率可調(diào)濾波器

    一種適用于醫(yī)學(xué)領(lǐng)域的頻率可調(diào)濾波器_李嚴(yán)
    發(fā)表于 01-07 16:06 ?0次下載

    一種適用于任意余數(shù)基的高性能后向轉(zhuǎn)換結(jié)構(gòu)_楊鵬

    一種適用于任意余數(shù)基的高性能后向轉(zhuǎn)換結(jié)構(gòu)_楊鵬
    發(fā)表于 01-07 22:23 ?0次下載

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪
    發(fā)表于 01-07 22:23 ?0次下載

    基于嶺回歸的稀疏編碼文本圖像復(fù)原方法

    為解決現(xiàn)有稀疏編碼方法在文本圖像復(fù)原中存在的編碼碼元表述空間有限和計(jì)算時(shí)間長(zhǎng)的問題,提出了一種基于嶺回歸的稀疏編碼
    發(fā)表于 11-28 17:10 ?1次下載

    適用于稀疏多徑信道的稀疏自適應(yīng)常模盲均衡算法

    。為了提高稀疏多徑信道條件下的通信質(zhì)量,通常需要在接收端采用均衡技術(shù),來(lái)消除多徑傳播引起的符號(hào)間干擾。 為了提高稀疏多徑信道盲均衡器的收斂速度,提出了一種
    發(fā)表于 01-29 10:19 ?0次下載
    <b class='flag-5'>適用于</b><b class='flag-5'>稀疏</b>多徑信道的<b class='flag-5'>稀疏</b>自適應(yīng)常模盲均衡算法

    一種適用于動(dòng)態(tài)場(chǎng)景的多層次地圖構(gòu)建算法

    本文提出了一種適用于動(dòng)態(tài)場(chǎng)景的多層次地圖構(gòu)建算法,如圖1所示的系統(tǒng)框架。首先,利用YOLOX[8]獲取場(chǎng)景的語(yǔ)義信息,采用多目標(biāo)跟蹤算法對(duì)漏檢進(jìn)行補(bǔ)償,利用DBSCAN密度聚類算法和深度信息進(jìn)
    發(fā)表于 08-28 10:56 ?1036次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>適用于</b>動(dòng)態(tài)場(chǎng)景的多層次地圖構(gòu)建算法