一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于一項改進Transformer的工作

深度學(xué)習(xí)自然語言處理 ? 來源:復(fù)旦DISC ? 作者:復(fù)旦DISC ? 2021-04-22 10:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NAACL2021中,復(fù)旦大學(xué)大學(xué)數(shù)據(jù)智能與社會計算實驗室(Fudan DISC)和微軟亞洲研究院合作進行了一項改進Transformer的工作,論文的題目為:Mask Attention Networks: Rethinking and Strengthen Transformer,被收錄為長文。

文章摘要

Transformer的每一層都由兩部分構(gòu)成,分別是自注意力網(wǎng)絡(luò)(SAN)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)。當(dāng)前的大部分研究會拆開這兩份部分來分別進行增強。在我們的研究當(dāng)中,我們發(fā)現(xiàn)SAN和FFN本質(zhì)上都屬于一類更廣泛的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),遮罩注意力網(wǎng)絡(luò)(MANs),并且其中的遮罩矩陣都是靜態(tài)的。我們認為這樣的靜態(tài)遮罩方式限制了模型對于局部信息的建模的。因此,我們提出了一類新的網(wǎng)絡(luò),動態(tài)遮罩注意力網(wǎng)絡(luò)(DMAN),通過自身的學(xué)習(xí)來調(diào)整對于局部信息的建模。為了更好地融合各個子網(wǎng)絡(luò)(SAN,F(xiàn)FN,DMAN)的優(yōu)勢,我們提出了一種層疊機制來將三者融合起來。我們在機器翻譯和文本摘要任務(wù)上驗證了我們的模型的有效性。

研究背景

目前大家會從SAN或者FFN來對Transformer進行改進,但是這樣的方案忽略了SAN和FFN的內(nèi)在聯(lián)系。

在我們的工作當(dāng)中,我們使用Mask Attention Network作為分析框架來重新審視SAN和FFN。Mask Attention Networks使用一個遮罩矩陣來和鍵值對的權(quán)重矩陣進行對應(yīng)位置的相乘操作來確定最終的注意力權(quán)重。在下圖中,我們分別展示了SAN和FFN的遮罩矩陣。由于對于關(guān)系建模沒有任何的限制,SAN更擅長長距離建模來從而可以更好地捕捉全局語意,而FFN因為遮罩矩陣的限制,無法獲取到其他的token的信息,因而更關(guān)注自身的信息。

盡管SAN和FFN取得了相當(dāng)好的效果,但是最近的一些研究結(jié)果表明,Transformer在捕捉局部信息的能力上有所欠缺。我們認為這種欠缺是因為是因為注意力矩陣的計算當(dāng)中都是有靜態(tài)遮罩矩陣的參與所導(dǎo)致的。我們發(fā)現(xiàn)兩個不相關(guān)的token之間的權(quán)重可能因為中間詞的關(guān)系而錯誤地產(chǎn)生了較大的注意力權(quán)重。例如“a black dog jumps to catch the frisbee”, 盡管“catch”和“black”關(guān)系不大,但是因為二者都共同的鄰居“dog”的關(guān)系很大,進而產(chǎn)生了錯誤了聯(lián)系,使得“catch”忽略了自己真正的鄰居。

為了強化Transformer在局部建模的能力,我們提出了動態(tài)遮罩注意力網(wǎng)絡(luò)(DMAN)。在DMAN當(dāng)中, 在特定距離內(nèi)的單詞相比于一般的注意力機制會得到更多的注意力權(quán)重,進而得到更多的關(guān)注。另外,為了更好地融合SAN,F(xiàn)FN和DMAN三者的能力,我們提出使用DMAN-》SAN-》FFN這樣的方式來搭建網(wǎng)絡(luò)結(jié)構(gòu)。

方法描述

回顧Transformer

SAN的注意力機制使用下面的公式來將鍵值對映射到新的輸出。

其中是查詢向量組成的有序矩陣,是鍵值對的組合,是的特征維度。

為了進一步增強transformer捕捉不同文本特征的的能力,對于一個文本特征的輸入序列, SAN會使用多頭注意力機制。

在FFN當(dāng)中,每一個

的計算都是獨立于其他的輸入的。具體來說,它由兩個全連接層組成。

定義一類新網(wǎng)絡(luò): Mask Attention Networks

我們在SAN的注意力函數(shù)的基礎(chǔ)上定義帶遮罩的注意力函數(shù)。

其中M是一個遮罩矩陣,它既可以是靜態(tài)的,也可以是動態(tài)的。

在這個新的遮罩矩陣的基礎(chǔ)上,我們定義一類新網(wǎng)絡(luò): Mask Attention Networks(MANs)

其中F是激活函數(shù),M^i是第i個注意力上的遮罩矩陣。

接下來我們來說明SAN和FFN都是MANs當(dāng)中的特例。

從MANs的視角來看,對于SAN,我們令

這個時候MANs可以寫成下面的形式。這個結(jié)果告訴我們SAN是MANs當(dāng)中固定遮罩矩陣為全1的特例

對于FFN,我們令

那么得到SAN是MANs當(dāng)中固定遮罩矩陣為單位陣的特例。

SAN和FFN在局部建模上的問題

直觀上來說,因為FFN的遮罩矩陣是一個單位陣,所以FFN只能獲取自身的信息而無法獲知鄰居的信息。對于SAN,每一個token都可以獲取到句子其它的所有token的信息。我們發(fā)現(xiàn)不在鄰域當(dāng)中的單詞也有可能得到一個相當(dāng)大的注意力得分。因此,SAN可能在語義建模的過程當(dāng)中引入噪聲,進而忽視了局部當(dāng)中的有效信號。

動態(tài)遮罩注意力網(wǎng)絡(luò)

顯然地我們可以通過靜態(tài)的遮罩矩陣來使模型只考慮特定鄰域內(nèi)的單詞,從而達到更好的局部建模的效果。但是這樣的方式欠缺靈活性,考慮到鄰域的大小應(yīng)該隨著query token來變化,所以我們構(gòu)建了下面的策略來動態(tài)地調(diào)節(jié)鄰域的大小。

其中是當(dāng)前的層數(shù),是當(dāng)前的注意力head, 和分別是兩個和的位置。都是可學(xué)習(xí)的變量。

組合Mask Attention Networks當(dāng)中的各類網(wǎng)絡(luò)結(jié)構(gòu)

我們采用下圖的方式來組合這三種網(wǎng)絡(luò)結(jié)構(gòu)。

8614737c-a295-11eb-aece-12bb97331649.png

實驗

我們的實驗主要分為兩個部分,機器翻譯和文本摘要。

機器翻譯

我們在IWSLT14 De-En和WMT14 En-De上分別對我們的模型進行了驗證。相比于Transformer,我們的模型在base和big的參數(shù)大小設(shè)定下,分別取得了1.8和2.0的BLEU的提升。

文本摘要

在文本摘要的任務(wù)上,我們分別在CNN/Daily Mail和Gigaword這兩個數(shù)據(jù)集上分別進行了驗證。相比于Transformer,我們的模型在R-avg上分別有1.5和0.7的效果提升。

對比不同的子網(wǎng)絡(luò)堆疊方式

87275a4a-a295-11eb-aece-12bb97331649.png

我們對比了一些不同的子網(wǎng)絡(luò)堆疊方式的結(jié)果。從這張表中我們可以發(fā)現(xiàn):

C#5,C#4,C#3》C#1,C#2,這說明DMAN的參與可以提高模型的效果。

C#5,C#4》C#3,C#2,說明DMAN和SAN有各自的優(yōu)點,它們分別更擅長全局建模和局部建模,所以可以更好地合作來增強彼此。

C#5》C#4,說明先建模局部再全局比相反的順序要更好一些。

87364faa-a295-11eb-aece-12bb97331649.png

我們比較了兩組不同的靜態(tài)遮罩策略。

SMAN1:遮蓋距離超過b的所有單詞,,為句子長度。

SMAN2:b=4。

從結(jié)果來看,我們發(fā)現(xiàn)DMAN的效果遠遠好于上述兩種靜態(tài)遮罩方法,這說明給不同的單詞確實在鄰域的建模上確實存在差異。

結(jié)論

在這篇論文當(dāng)中,我們介紹了遮罩注意力網(wǎng)絡(luò)(MANs)來重新審視SAN和FFN,并指出它們是MANs的兩種特殊情況。我們進而分析了兩種網(wǎng)絡(luò)在局部建模上的不足,并提出使用動態(tài)遮罩的方法來更好地進行局部建模??紤]到SAN,F(xiàn)FN和DMAN不同的優(yōu)點,我們提出了一種DMAN-》SAN-》FFN的方式來進行建模。我們提出的模型在機器翻譯和文本摘要上都比transformer取得了更好的效果。

原文標(biāo)題:遮罩注意力網(wǎng)絡(luò):對Transformer的再思考與改進

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7815

    瀏覽量

    90969
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8889

原文標(biāo)題:遮罩注意力網(wǎng)絡(luò):對Transformer的再思考與改進

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?296次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的<b class='flag-5'>工作</b>流程

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關(guān)系時變得高效。因此 Vaswani 等人的論文強調(diào)“注意力是所需的切”。
    的頭像 發(fā)表于 02-06 10:21 ?4051次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第個用于transformer(ChatGPT中的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1159次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    【面試題】人工智能工程師高頻面試題匯總:Transformer篇(題目+答案)

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,Transformer些知識,這些都是加分,能有效提高面試通過率。本篇小編整理了些高頻的Transf
    的頭像 發(fā)表于 12-13 15:06 ?1386次閱讀
    【面試題】人工智能工程師高頻面試題匯總:<b class='flag-5'>Transformer</b>篇(題目+答案)

    AMD獲得一項玻璃基板技術(shù)專利

    近日,處理器大廠AMD宣布獲得了一項涵蓋玻璃芯基板技術(shù)的專利(專利號“12080632”),這消息標(biāo)志著AMD在高性能系統(tǒng)級封裝(SiP)領(lǐng)域的研究取得了重要進展。
    的頭像 發(fā)表于 12-02 10:33 ?525次閱讀

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1569次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1018次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    谷歌云宣布一項重要人事任命

    近日,谷歌云(Google Cloud)正式宣布了一項重要人事任命,尹世明將加入谷歌云,擔(dān)任大中華區(qū)總裁職。這任命無疑將為谷歌云在大中華區(qū)的業(yè)務(wù)發(fā)展和市場拓展注入新的活力和動力。 尹世明在業(yè)
    的頭像 發(fā)表于 11-18 15:07 ?599次閱讀

    自動駕駛中直說的BEV+Transformer到底是個啥?

    在很多車企的自動駕駛介紹中,都會聽到個關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企在自動駕駛技術(shù)中都十分追捧這項技術(shù)?其實“BEV
    的頭像 發(fā)表于 11-07 11:19 ?1387次閱讀
    自動駕駛中<b class='flag-5'>一</b>直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    蘋果新獲一項投影儀專利

     10月17日資訊,科技博客Patently Apple于10月15日發(fā)布報道,指出蘋果公司新獲一項投影儀專利,此專利允許用戶無需佩戴頭顯設(shè)備,即可在桌子、墻壁等平面上展示混合增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)內(nèi)容。
    的頭像 發(fā)表于 10-17 16:01 ?1199次閱讀

    PCB生產(chǎn),在鉆咀和成品孔徑之間,你會優(yōu)先滿足哪一項

    客戶的回復(fù),卻別出心裁,好多非標(biāo)的成品尺寸,好多非標(biāo)的鉆咀尺寸,還有那些特殊的孔徑公差要求。 沒有神的光環(huán),那就握緊手中的平凡。 先來解決第個問題,鉆咀與成品孔徑的關(guān)系,優(yōu)先保證哪一項,因為這兩
    發(fā)表于 09-24 10:11

    PCB生產(chǎn),在鉆咀和成品孔徑之間,你會優(yōu)先滿足哪一項

    PCB生產(chǎn)既要滿足鉆咀尺寸又要滿足成品孔徑,當(dāng)這兩個要求有沖突時,如果你只能滿足其中一項時,你會優(yōu)先保證哪一項,請走進今天的案例,看看你選對了嗎……
    的頭像 發(fā)表于 09-24 10:10 ?530次閱讀
    PCB生產(chǎn),在鉆咀和成品孔徑之間,你會優(yōu)先滿足哪<b class='flag-5'>一項</b>呢

    在THS3201的datasheet中,有一項指標(biāo)noise figure,其值為11dB,這個指標(biāo)怎么解釋?

    請問專家,在THS3201的datasheet中,有一項指標(biāo)noise figure,其值為11dB(G=10V/V,RG=28歐姆,RF=255歐姆),這個指標(biāo)怎么解釋?
    發(fā)表于 09-12 06:25

    蘋果獲得一項突破性智能戒指技術(shù)的專利

    8月23日傳來新動態(tài),美國商標(biāo)與專利局最新披露的清單中,蘋果公司赫然獲得了一項突破性智能戒指技術(shù)的專利。這款創(chuàng)新之作,深度融合了尖端傳感器技術(shù),旨在為用戶提供前所未有的健康監(jiān)測體驗。
    的頭像 發(fā)表于 08-23 15:59 ?732次閱讀

    東軟載波全資子公司獲得一項發(fā)明專利

    近日,東軟載波股份有限公司傳來喜訊,其全資子公司——上海東軟載波微電子有限公司成功斬獲一項重要發(fā)明專利,標(biāo)志著公司在電容式觸摸技術(shù)領(lǐng)域取得了顯著突破。該專利的核心成果為“電容式觸摸按鍵系統(tǒng)及其按鍵檢測方法”,不僅為行業(yè)帶來了革命性的技術(shù)革新,也進步鞏固了東軟載波在智能控
    的頭像 發(fā)表于 07-23 16:49 ?984次閱讀