據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長期記憶功能。
近期,Hochreiter在arXiv平臺發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門的Transformer架構(gòu)。
該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。
研究團(tuán)隊(duì)通過對基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測,未來XLSTM有可能與Transformer展開競爭。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103635 -
RAM
+關(guān)注
關(guān)注
8文章
1392瀏覽量
117546 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
528瀏覽量
25987
發(fā)布評論請先 登錄
?VLM(視覺語言模型)?詳細(xì)解析

如何使用MATLAB構(gòu)建Transformer模型

【「大模型啟示錄」閱讀體驗(yàn)】+開啟智能時(shí)代的新鑰匙
AI大語言模型開發(fā)步驟
【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型
大語言模型開發(fā)語言是什么
使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

評論