一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于xLSTM和Transformer的模型評估:xLSTM在“語言能力”的表現(xiàn)

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-05-13 10:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長期記憶功能。

近期,Hochreiter在arXiv平臺發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門的Transformer架構(gòu)。

該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。

研究團(tuán)隊(duì)通過對基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測,未來XLSTM有可能與Transformer展開競爭。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103635
  • RAM
    RAM
    +關(guān)注

    關(guān)注

    8

    文章

    1392

    瀏覽量

    117546
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    528

    瀏覽量

    25987
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?4116次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4051次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?388次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】+開啟智能時(shí)代的新鑰匙

    閱讀之旅。翻開這本書之前,我對大模型的認(rèn)知僅僅停留在它是一種強(qiáng)大的人工智能技術(shù),可以進(jìn)行自然語言處理、圖像識別等任務(wù)。我知道像 ChatGPT 這樣的應(yīng)用是基于大模型開發(fā)的,能夠與人
    發(fā)表于 12-24 13:10

    AI大語言模型開發(fā)步驟

    開發(fā)一個(gè)高效、準(zhǔn)確的大語言模型是一個(gè)復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評估與調(diào)試等多個(gè)環(huán)節(jié)。接下來,AI部落小編為大家詳細(xì)闡述AI大
    的頭像 發(fā)表于 12-19 11:29 ?899次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    內(nèi)為企業(yè)帶來效益。選擇模型時(shí),需要評估其性能表現(xiàn)。這包括模型的準(zhǔn)確性、響應(yīng)速度、對話流暢性、情感理解
    發(fā)表于 12-17 16:53

    語言模型開發(fā)語言是什么

    人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大
    的頭像 發(fā)表于 12-04 11:44 ?702次閱讀

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1568次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1018次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>能夠做什么

    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力

    視覺語言模型(VLM)通過將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語言模型(LLM)強(qiáng)大的語言理解能力
    的頭像 發(fā)表于 11-19 15:37 ?910次閱讀
    使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)<b class='flag-5'>能力</b>

    什么是LLM?LLM自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得
    的頭像 發(fā)表于 11-19 15:32 ?3659次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場景、定制化能力、開源與成本等方面。以下是對Llama 3模型與其他一些主流AI工具的對比
    的頭像 發(fā)表于 10-27 14:37 ?1070次閱讀

    如何評估AI大模型的效果

    、SuperGLUE、SQuAD等。這些數(shù)據(jù)集提供了不同任務(wù)上的基準(zhǔn)評估,使得不同模型同一任務(wù)上的性能可以進(jìn)行直接比較。 二、多樣性和覆蓋性測試 測試模型
    的頭像 發(fā)表于 10-23 15:21 ?3113次閱讀

    IBM Granite系列模型被Forrester評為“強(qiáng)勁表現(xiàn)者”

    近日,IBM 憑借其旗艦 Granite 系列模型, 2024年第二季度的《Forrester Wave:語言 AI 基礎(chǔ)模型》報(bào)告中,被評為“強(qiáng)勁
    的頭像 發(fā)表于 08-16 11:34 ?800次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大
    發(fā)表于 08-02 11:03