基于xLSTM和Transformer的模型評估：xLSTM在“語言能力”的表現(xiàn)

據(jù)了解，1997年，兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長短期記憶（LSTM）神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的長期記憶功能。

近期，Hochreiter在arXiv平臺發(fā)表論文，推出了一款新型的XLSTM（擴(kuò)展LSTM）架構(gòu)，有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性，有望挑戰(zhàn)當(dāng)前熱門的Transformer架構(gòu)。

該論文指出，Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門控循環(huán)網(wǎng)絡(luò)，并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則，使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM，實(shí)現(xiàn)類似于Transformer的并行化處理。

研究團(tuán)隊(duì)通過對基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測試，結(jié)果顯示，XLSTM表現(xiàn)更為出色，特別是在“語言能力”方面表現(xiàn)尤為突出。因此，研究人員預(yù)測，未來XLSTM有可能與Transformer展開競爭。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103635
RAM

RAM

+關(guān)注

關(guān)注
8

文章
1392

瀏覽量
117546
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
528

瀏覽量
25987

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 對比各家主流MCU指標(biāo)，國產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號和數(shù)字信號的區(qū)別和特點(diǎn)

New 方正電機(jī)成為小鵬汽車驅(qū)動(dòng)電機(jī)供應(yīng)商，總需求量預(yù)計(jì)達(dá)35萬臺
New 雷諾-吉利動(dòng)力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實(shí)

腦極體
19小時(shí)前

450 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
7小時(shí)前

299 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
7小時(shí)前

308 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
7小時(shí)前

275 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點(diǎn)

駿龍電子
7小時(shí)前

311 閱讀

Renesas安全氣囊系統(tǒng)解決方案

愛與友人
96 KB

5積分

49下載

印制電路板入門必讀

陳大文
390 KB

免費(fèi)

0下載

PCB走線鍍錫

路人甲加假
204 KB

免費(fèi)

0下載

小米手機(jī)說明書

lanlanw
3.23 MB

免費(fèi)

311下載

DotC_ImageManager IOS高性能圖片緩存庫

吳湛
0.62 MB

2積分

1下載

省錢+環(huán)保+個(gè)性：打造一臺永不“過時(shí)”的自定義電腦！

早知
1天前

387 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測及顯示

jinglixixi
1天前

588 閱讀

【RA-Eco-RA6M4開發(fā)板評測】+01+開箱測評+UART+PWM+LED

jf_18702540
2天前

556 閱讀

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】2、打造復(fù)古游戲機(jī)（Batocera鏡像+FBNeo虛擬機(jī)，多款游戲ROM分享）

左岸cpx
2天前

589 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+兩種開發(fā)板間的比較

jinglixixi
2天前

523 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

基于xLSTM和Transformer的模型評估：xLSTM在“語言能力”的表現(xiàn)

評論