一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

<legend id="xi20c"></legend>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內(nèi)不再提示

cosFormer：重新思考注意力機制中的Softmax

導讀：Transformer在自然語言處理、計算機視覺和音頻處理方面取得了巨大成功。作為其核心組成部分之一，Softmax Attention模塊能夠捕捉長距離的依賴關系，但由于Softmax算子關于序列長度的二次空間和時間復雜性，使其很難擴展。

針對這點，研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子，從而降低時間空間復雜度。但是，由于誤差的存在，效果往往不盡如人意。

商湯多模態(tài)研究組認為，近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是，與其近似Softmax，不如設計一種方式代替Softmax，并且同時降低時間空間復雜度。

因此，本文提出了名為cosFormer的方法，在時間空間復雜度關于序列長度為線性復雜度的同時，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA結(jié)果。我們的設計核心理念基于兩點，首先是注意力矩陣的非負性，其次是對局部注意力的放大（非極大值抑制）。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

Part 1

背景

1. Softmax Attention

為了引出我們的方法，對Softmax Attention的計算方式進行一定的推廣：

其中表示相似度計算函數(shù)，如果，上式即變?yōu)镾oftmax Attention（不考慮除以的縮放操作）。注意到計算的時間復雜度為，的時間復雜度為，所以總時間復雜度為，即關于序列長度是二次的。

2. 線性 Attention

通過分析我們發(fā)現(xiàn)，性能瓶頸的主要原因是操作，如果相似度函數(shù)可以表示為：

那么：

根據(jù)矩陣運算的結(jié)合律：

上式可以變換為（編者修正：下方公式未變換，請參照論文）：

經(jīng)過計算后可以得到該方法的時間復雜度為，即關于序列長度是一次的。

Softmax Attention和線性Attention的計算方式可以用下圖概括：

所以接下來將介紹的選擇，以及核心的reweighting操作。

3. Softmax 的兩大性質(zhì)

我們經(jīng)過分析以及實驗，歸納出Softmax Attention中比較重要的性質(zhì)，這兩個性質(zhì)可以指導我們的模型設計：

1. 注意力矩陣的非負性

2. 局部注意力的放大（非極大值抑制）

對于第一點，我們有如下實驗進行驗證（模型結(jié)構(gòu)為RoBERTa）：

這里Loss表示驗證集損失（越低越好），其余指標均為準確率（越高越好）?？梢钥吹剑敱ＷC了注意力矩陣的非負性之后，可以達到較好的效果?；谠搶嶒灒覀冞x擇為ReLU函數(shù)。

對于第二點，我們的方式是在注意力矩陣中引入先驗locality信息，觀察Softmax注意力矩陣，如下圖所示，我們發(fā)現(xiàn)其注意力矩陣的權重在對角線附近很集中：

所以我們的方法需要在加了reweighting操作后也更加集中在對角線附近。注意并非所有的有類似權重的函數(shù)均適用，這個reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個矩陣的乘法的形式。

至此，就可以引入我們的cosFormer了。

Part 2

cosFormer

1. 方法

我們的方法基于線性Attention，首先給出符號定義：

根據(jù)之前的分析，我們選擇了：

可得：

為了進行reweighting操作，并且同時保證線性Attention的計算方式依然成立，我們選擇了cos函數(shù)：

展開可得：

為了便于展示，我們把它記作：

最終得到：

上式和線性Attention的計算方式一致，經(jīng)過分析不難得出時間復雜度依然是。

2. 實驗結(jié)果

我們在單向模型、雙向模型以及LRA benchmark上測試了我們的方法，均取得了非常不錯的效果。

單向語言模型，指標表示困惑度（越低越好）：

雙向語言模型，指標表示準確率（越高越好）：

LRA benchmark：

1）性能實驗，指標表示準確率（越高越好）：

2）內(nèi)存速度實驗，指標表示速度（越高越好，如果內(nèi)存溢出，則標記為叉）：

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關注

關注
3

文章
4381

瀏覽量
64908
計算機視覺

計算機視覺

+關注

關注
9

文章
1709

瀏覽量
46782
Softmax

Softmax

+關注

關注
0

文章
9

瀏覽量
2703

原文標題：ICLR'22 | cosFormer：重新思考注意力機制中的Softmax

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

評論

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經(jīng)驗

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進現(xiàn)實

腦極體
1天前

655 閱讀

三菱電機SiC DIPIPM在變頻家電中的應用（2）

三菱電機半導體
23小時前

613 閱讀

三菱電機SiC DIPIPM在變頻家電中的應用（1）

三菱電機半導體
23小時前

558 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
23小時前

491 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導通檢查要點

駿龍電子
23小時前

605 閱讀

工業(yè)串口BF10藍牙通信模塊運用手冊

哼小曲
631 KB

10積分

91下載

HiPER寬帶網(wǎng)關ReOS配置手冊

ytrwv
5 MB

3積分

17下載

Kontena開源應用容器

陳秀珍
1.33 MB

免費

0下載

Blast.js文本拆分工具

劉洋
0.01 MB

免費

0下載

用于ADE7816 6通道能量監(jiān)視器ASIC的分線板

鳳毛麟角
0.16 MB

2積分

4下載

【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

左岸cpx
1天前

163 閱讀

【M-K1HSE開發(fā)板免費體驗】DevEco Studio應用開發(fā)體驗(物理機器運行失敗)

jf_1137202360
1天前

120 閱讀

【RA-Eco-RA6M4開發(fā)板評測】開箱、Hello World（串口+OLED）

jf_57061047
1天前

180 閱讀

省錢+環(huán)保+個性：打造一臺永不“過時”的自定義電腦！

早知
2天前

667 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗】+溫度大氣壓檢測及顯示

jinglixixi
2天前

805 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

華秋（原“華強聚豐”）：

電子發(fā)燒友

華秋開發(fā)

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產(chǎn)品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡

微博

移動端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

黃晶晶：huangjingjing@elecfans.com

內(nèi)容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區(qū)合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

電子工程師社區(qū)

1-32層PCB打樣·中小批量

元器件現(xiàn)貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業(yè)動態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權所有 ? 湖南華秋數(shù)字科技有限公司

長沙市望城經(jīng)濟技術開發(fā)區(qū)航空路6號手機智能終端產(chǎn)業(yè)園2號廠房3層（0731-88081133）
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023018690號-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品
欧美在线观看做受|午夜影院久久激情|一本久久综合啊亚洲啊啊啊|激情蜜臀AV超清|日本激情视频网站|纯肉视频在线观看|日本性爱不卡|xxx精品久久久|一区在线国产图片|欧美性爱17Av 亚洲国产区在线|亚洲av国产精品|精品在线探花系列|久久久之午夜福利视频|波多野结衣久久久久久|美女被口爆网站在线播放|无码aⅤ颜射系列|国产无需播放器在线|亚洲久久久久久久|97凹凸视频在线亚洲AV理论精品你懂的在线观看久|丁香五月先锋激情|五月天五月色婷婷网|国产乱伦无码内射|欧美日韩国产另类成人精品自拍成人|五月婷婷丁香欧美|婷婷丁香五月欧美|亚州综合色图|亚洲一区操逼图片|无码久久中文精品区