一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于選擇機制的自注意力網(wǎng)絡模型

深度學習自然語言處理 ? 來源:博客 ? 作者:哈工大SCIR ? 2020-08-31 10:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 簡介

自注意力網(wǎng)絡(SANs)在許多自然語言處理任務中取得顯著的成功,其中包括機器翻譯、自然語言推理以及語義角色標注任務。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡以及卷積神經(jīng)網(wǎng)絡,自注意力網(wǎng)絡優(yōu)勢在于其高度的運算并行性以及更加靈活的建模輸入元素的依存關(guān)系能力。傳統(tǒng)的自注意力網(wǎng)絡模型在計算每個元素的表示的時候,將所有的輸入的元素考慮在內(nèi),而不管其對于當前元素的相關(guān)性。本問題提出通用的基于選擇機制的自注意力網(wǎng)絡模型(SSANs),其可以針對每個計算表示的元素,動態(tài)地選擇其相關(guān)性的子集,以此作為輸入進行后續(xù)的自注意力網(wǎng)絡的計算。實驗結(jié)果顯示,SSANs模型在多個典型的自然語言處理任務上相比傳統(tǒng)的自注意力網(wǎng)絡模型獲得提升。通過多個探測任務進行分析,SSANs相比傳統(tǒng)的SANs模型有更強的詞序信息編碼能力以及結(jié)構(gòu)信息建模能力。

2. 模型結(jié)構(gòu)

2.1 傳統(tǒng)的自注意力網(wǎng)絡

現(xiàn)在的自注意力網(wǎng)絡是傳統(tǒng)的注意力網(wǎng)路的特例,其計算注意力權(quán)重的兩個元素來源同樣的輸入序列。給定輸入隱層表示,自注意力網(wǎng)絡SANs首先將H分別線性變換成、以及。自注意力網(wǎng)絡的輸出O計算過程如下:

其中是基于點積的注意力機制,其計算過程如下:

其中√d是縮放因子且d是隱含層狀態(tài)表示的維度。傳統(tǒng)的自注意力網(wǎng)絡結(jié)構(gòu)如圖 1所示。

圖1 傳統(tǒng)的自注意力網(wǎng)絡框架

2.2 基于選擇機制的自注意力網(wǎng)絡

相比傳統(tǒng)的自注意力網(wǎng)絡,本文引入一個選擇器模塊(Selector),其主要針對每個待計算表示的元素,動態(tài)地選擇輸入元素的集合中的一個子集作為其相關(guān)元素集合,基于此集合進行后續(xù)的常規(guī)的自注意力網(wǎng)絡的計算,其整體的框架如圖 2所示。

圖2 基本自注意力機制的自注意力網(wǎng)絡框架

選擇器模塊本文使用額外的策略網(wǎng)絡參數(shù)化選擇動作,其中表示其對應的元素被選擇進行后續(xù)的常規(guī)的自注意力網(wǎng)路的計算,而則代表相應的元素未被選中。其輸出動作序列計算過程如下:

其中以及是線性變換的結(jié)果。本文使用sigmoid作為激活函數(shù)計算策略分布。通過使用額外的選擇器模塊,SSANs的注意力權(quán)重計算過程如下:

最終基于選擇機制的自注意力網(wǎng)絡的輸出計算過程如下:

Gumbel-Sigmoid本文使用gumbel-softmax對隱含變量A的梯度進行評估,其主要將離散的采樣過程連續(xù)化,這樣使用正常的BP算法就可以實現(xiàn)對其梯度評估。相比REINFORCE算法,其穩(wěn)定性更高。本文策略網(wǎng)絡使用sigmoid作為激活函數(shù),其可以看作是softmax的特例,從而依據(jù)gumbel-softmax函數(shù)計算方法,可以推導出gumbel-sigmoid形式如下:

其中G'和G''是gumbel noise。

3 實驗結(jié)果

基于選擇機制的自注意力網(wǎng)絡模型在三個典型的NLP任務上取得一致的提升。特別的,在機器翻譯任務上,SSANs在三個英語到其他語言的翻譯上超過傳統(tǒng)的SANs模型。在英語=>羅馬尼亞以及英語=>日語的翻譯任務上,SSANs分別獲得+0.69和+0.61 BLEU提升。此外,在相對規(guī)模比較大的英=>德翻譯任務上,SSANs也獲得一致的提升(+0.90 BLEU)。

表1 基于選擇的自注意力網(wǎng)絡模型在不同任務上的結(jié)果

4 實驗分析

4.1 詞序信息編碼能力評價

為了評價SSANs的對于局部詞序信息以及全局詞序信息編碼的能力,本文引入兩個特定的檢測任務分別評價模型對于兩種類型信息編碼的能力。其中,局部詞序信息檢測任務目標是分類是否句子中存在兩個相鄰詞的進行交換,而全局詞序信息檢測任務隨機選擇句子中的某個詞語,并將其插入到另一個位置,而任務的目標就是通過分類找到被插入的詞匯以及其原來所在的位置。實驗結(jié)果顯示,SSANs在兩個任務上,相比傳統(tǒng)的SANs,均取得較大的提升。通過分析其相應的自注意力網(wǎng)絡權(quán)重發(fā)現(xiàn),SSANs能夠根據(jù)任務將更多的注意力權(quán)重分配到重要的信息建模上。

表2 局部信息檢測任務實驗結(jié)果

圖3 局部信息檢測任務注意力權(quán)重分布 表3 全局信息檢測任務實驗結(jié)果

圖4 全局信息檢測任務注意力權(quán)重分布

4.2 結(jié)構(gòu)信息建模能力評價

為了評價SSANs對于結(jié)構(gòu)信息的建模能力,本文首先引入兩個檢測任務評價模型對于結(jié)構(gòu)信息的捕捉能力。其中一個任務目標是測試模型是否可以根據(jù)組合語法樹的深度對于輸入的句子進行分類,而另一個任務的目標是對輸入句子按照其組合語法樹根節(jié)點之下的成分類型進行分類。實驗結(jié)果發(fā)現(xiàn),SSANs在兩種類型的任務上均取得提升,并且對于復雜的問題有更好處理能力。此外,模型根據(jù)注意力網(wǎng)絡的權(quán)重構(gòu)建組合語法樹,SSANs構(gòu)建的語法樹質(zhì)量好于SANs模型的結(jié)果。

表4 組合語法樹深度預測任務實驗結(jié)果

表5 組合語法樹成分類型預測任務實驗結(jié)果

5 結(jié)論

本文提出一種通用的基于選擇機制的自注意力網(wǎng)絡模型,其可以針對每個計算表示的元素,動態(tài)地選擇其相關(guān)性的子集,以此作為輸入進行后續(xù)的自注意力網(wǎng)絡的計算。其在多個自然語言任務上,與傳統(tǒng)的自注意力網(wǎng)絡相比,取得一致提升。通過實驗分析發(fā)現(xiàn),基于選擇機制的自注意力網(wǎng)絡可以在一定程度上緩解注意力網(wǎng)絡存在的詞序信息編碼和結(jié)構(gòu)信息建模能力不足的問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15192
  • 網(wǎng)絡模型
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    8756

原文標題:【工大筆記】ACL20 如何使用選擇機制提升自注意力網(wǎng)路能力?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    DeepMind為視覺問題回答提出了一種新的硬注意力機制

    然而,在基于梯度的學習框架(如深度學習)中存在一個關(guān)鍵的缺點:因為選擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機制中來支持基于梯度的優(yōu)化。目前研究人員正在努力來解決視覺注意力、文本
    的頭像 發(fā)表于 08-10 08:44 ?6493次閱讀

    深度分析NLP中的注意力機制

    注意力機制越發(fā)頻繁的出現(xiàn)在文獻中,因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制
    的頭像 發(fā)表于 02-17 09:18 ?4185次閱讀

    注意力機制的誕生、方法及幾種常見模型

    簡而言之,深度學習中的注意力機制可以被廣義地定義為一個描述重要性的權(quán)重向量:通過這個權(quán)重向量為了預測或者推斷一個元素,比如圖像中的某個像素或句子中的某個單詞,我們使用注意力向量定量地估計出目標元素與其他元素之間具有多么強烈的相關(guān)
    的頭像 發(fā)表于 03-12 09:49 ?4.2w次閱讀

    基于注意力機制的深度興趣網(wǎng)絡點擊率模型

    廣告點擊率(CTR)是互聯(lián)網(wǎng)公司進行流量分配的重要依據(jù),針對目前點擊率預估精度較低的問題,結(jié)合通用的神經(jīng)網(wǎng)絡解決方案,構(gòu)建一種基于注意力機制的深度興趣網(wǎng)絡(ADIN)
    發(fā)表于 03-12 10:55 ?5次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的深度興趣<b class='flag-5'>網(wǎng)絡</b>點擊率<b class='flag-5'>模型</b>

    基于注意力機制的深度學習模型AT-DPCNN

    情感分析是自然語言處理領(lǐng)域的一個重要分支,卷積神經(jīng)網(wǎng)絡(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機制的深度學習模型A
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的深度學習<b class='flag-5'>模型</b>AT-DPCNN

    基于異質(zhì)注意力的循環(huán)神經(jīng)網(wǎng)絡模型

    表示方法 Transr,分別將文本數(shù)據(jù)和關(guān)系網(wǎng)絡嵌入到高維向量中作為模型的輸入。在編碼器階段,使用雙向GRU將用戶的短期興趣引入到推薦模型中,并將注意力
    發(fā)表于 03-19 14:50 ?9次下載
    基于異質(zhì)<b class='flag-5'>注意力</b>的循環(huán)神經(jīng)<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>模型</b>

    融合雙層多頭注意力與CNN的回歸模型

    針對現(xiàn)有文本情感分析方法存在的無法高效捕捉相關(guān)文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭注意力與卷積神經(jīng)網(wǎng)絡(CNN)的回歸模型 DLMA-CNN。采用多頭
    發(fā)表于 03-25 15:16 ?6次下載
    融合雙層多頭<b class='flag-5'>自</b><b class='flag-5'>注意力</b>與CNN的回歸<b class='flag-5'>模型</b>

    基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡模型

    神經(jīng)網(wǎng)絡、雙向門控循環(huán)單元和注意力機制提取 PFSHAN模型的語音、字形和語義特征。在特征融合階段,針對不同單詞對幽默語言學特征的貢獻程度不同,且不同幽默語言學特征和語句之間關(guān)聯(lián)程度不
    發(fā)表于 03-26 15:38 ?14次下載
    基于語音、字形和語義的層次<b class='flag-5'>注意力</b>神經(jīng)<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>模型</b>

    基于層次注意力機制的多模態(tài)圍堵情感識別模型

    識別模型。在音頻模態(tài)中加人頻率注意力機制學習頻域上下文信息,利用多模態(tài)注意力機制將視頻特征與音頻特征進行融合,依據(jù)改進的損失函數(shù)對模態(tài)缺失問
    發(fā)表于 04-01 11:20 ?9次下載
    基于層次<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的多模態(tài)圍堵情感識別<b class='flag-5'>模型</b>

    基于多層CNN和注意力機制的文本摘要模型

    基于注意力機制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務上得到了廣泛的應用。在深度學習框架中,深層神經(jīng)網(wǎng)絡能夠提取輸λ數(shù)據(jù)不冋的特征表示,因此傳統(tǒng)編解碼
    發(fā)表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的文本摘要<b class='flag-5'>模型</b>

    基于注意力機制等的社交網(wǎng)絡熱度預測模型

    基于注意力機制等的社交網(wǎng)絡熱度預測模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于多通道注意力機制的電子病歷架構(gòu)

    基于多通道注意力機制的電子病歷架構(gòu)
    發(fā)表于 06-24 16:19 ?75次下載

    基于注意力機制的新聞文本分類模型

    基于注意力機制的新聞文本分類模型
    發(fā)表于 06-27 15:32 ?30次下載

    基于非對稱注意力機制殘差網(wǎng)絡的圖像檢測

    基于非對稱注意力機制殘差網(wǎng)絡的圖像檢測
    發(fā)表于 07-05 15:29 ?9次下載

    計算機視覺中的注意力機制

    計算機視覺中的注意力機制 卷積神經(jīng)網(wǎng)絡中常用的Attention 參考 注意力機制簡介與分類 注意力
    發(fā)表于 05-22 09:46 ?1次下載
    計算機視覺中的<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>