一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

重新審視Transformer:倒置更有效,真實(shí)世界預(yù)測(cè)的新SOTA出現(xiàn)了

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Transformer 在時(shí)間序列預(yù)測(cè)中出現(xiàn)了強(qiáng)大能力,可以描述成對(duì)依賴關(guān)系和提取序列中的多層次表示。然而,研究人員也質(zhì)疑過基于 Transformer 的預(yù)測(cè)器的有效性。這種預(yù)測(cè)器通常將相同時(shí)間戳的多個(gè)變量嵌入到不可區(qū)分的通道中,并對(duì)這些時(shí)間 token 進(jìn)行關(guān)注,以捕捉時(shí)間依賴性。考慮到時(shí)間點(diǎn)之間的數(shù)字關(guān)系而非語義關(guān)系,研究人員發(fā)現(xiàn),可追溯到統(tǒng)計(jì)預(yù)測(cè)器的簡(jiǎn)單線性層在性能和效率上都超過了復(fù)雜的 Transformer。同時(shí),確保變量的獨(dú)立性和利用互信息越來越受到最新研究的重視,這些研究明確地建立了多變量相關(guān)性模型,以實(shí)現(xiàn)精確預(yù)測(cè),但這一目標(biāo)在不顛覆常見 Transformer 架構(gòu)的情況下是難以實(shí)現(xiàn)的。

考慮到基于 Transformer 的預(yù)測(cè)器的爭(zhēng)議,研究者們正在思考為什么 Transformer 在時(shí)間序列預(yù)測(cè)中的表現(xiàn)甚至不如線性模型,而在許多其他領(lǐng)域卻發(fā)揮著主導(dǎo)作用。

近日,來自清華大學(xué)的一篇新論文提出了一個(gè)不同的視角 ——Transformer 的性能不是固有的,而是由于將架構(gòu)不當(dāng)?shù)貞?yīng)用于時(shí)間序列數(shù)據(jù)造成的。

wKgaomVHiHKAXhhfAAI5XInR6Xc692.png

論文地址:https://arxiv.org/pdf/2310.06625.pdf

基于 Transformer 的預(yù)測(cè)器的現(xiàn)有結(jié)構(gòu)可能并不適合多變量時(shí)間序列預(yù)測(cè)。如圖 2 左側(cè)所示,同一時(shí)間步長(zhǎng)的點(diǎn)基本上代表了完全不同的物理意義,但測(cè)量結(jié)果卻不一致,這些點(diǎn)被嵌入到一個(gè) token 中,多變量相關(guān)性被抹去。而且,在現(xiàn)實(shí)世界中,由于多變量時(shí)間點(diǎn)的局部感受野和時(shí)間戳不對(duì)齊,單個(gè)時(shí)間步形成的標(biāo)記很難揭示有益信息。此外,雖然序列變化會(huì)受到序列順序的極大影響,但在時(shí)間維度上卻沒有適當(dāng)?shù)夭捎米凅w注意力機(jī)制。因此,Transformer 在捕捉基本序列表征和描繪多元相關(guān)性方面的能力被削弱,限制了其在不同時(shí)間序列數(shù)據(jù)上的能力和泛化能力。

wKgaomVHiHKAB15uAAH88_ygQtg375.png

關(guān)于將每個(gè)時(shí)間步的多變量點(diǎn)嵌入一個(gè)(時(shí)間)token 的不合理性,研究者從時(shí)間序列的反向視角出發(fā),將每個(gè)變量的整個(gè)時(shí)間序列獨(dú)立嵌入一個(gè)(變量)token,這是擴(kuò)大局部感受野的 patching 的極端情況。通過倒置,嵌入的 token 聚集了序列的全局表征,可以更加以變量為中心,更好地利用注意力機(jī)制進(jìn)行多變量關(guān)聯(lián)。同時(shí),前饋網(wǎng)絡(luò)可以熟練地學(xué)習(xí)任意回溯序列編碼的不同變量的泛化表征,并解碼以預(yù)測(cè)未來序列。

研究者認(rèn)為 Transformer 對(duì)時(shí)間序列預(yù)測(cè)并非無效,而是使用不當(dāng)。在文中,研究者重新審視了 Transformer 的結(jié)構(gòu),并提倡將 iTransformer 作為時(shí)間序列預(yù)測(cè)的基本支柱。他們將每個(gè)時(shí)間序列嵌入為變量 token,采用多變量相關(guān)性關(guān)注,并使用前饋網(wǎng)絡(luò)進(jìn)行序列編碼。實(shí)驗(yàn)結(jié)果表明,本文所提出的 iTransformer 在圖 1 所示的實(shí)際預(yù)測(cè)基準(zhǔn)上達(dá)到了 SOTA 水準(zhǔn),并出人意料地解決了基于 Transformer 的預(yù)測(cè)器的痛點(diǎn)。

wKgaomVHiHKAWxwpAArxWFZkvCo108.png

總結(jié)來說,本文的貢獻(xiàn)有以下三點(diǎn):

  • 研究者對(duì) Transformer 的架構(gòu)進(jìn)行了反思,發(fā)現(xiàn)原生 Transformer 組件在時(shí)間序列上的能力尚未得到充分開發(fā)。

  • 本文提出的 iTransformer 將獨(dú)立時(shí)間序列視為 token,通過自注意力捕捉多變量相關(guān)性,并利用層歸一化和前饋網(wǎng)絡(luò)模塊學(xué)習(xí)更好的序列全局表示法,用于時(shí)間序列預(yù)測(cè)。

  • 通過實(shí)驗(yàn),iTransformer 在真實(shí)世界的預(yù)測(cè)基準(zhǔn)上達(dá)到了 SOTA。研究者分析了反轉(zhuǎn)模塊和架構(gòu)選擇,為未來改進(jìn)基于 Transformer 的預(yù)測(cè)器指明了方向。

iTransformer

在多變量時(shí)間序列預(yù)測(cè)中,給定歷史觀測(cè):

wKgaomVHiHKAP0uKAAB81pqY4KQ190.png

用 T 個(gè)時(shí)間步長(zhǎng)和 N 個(gè)變量,研究者預(yù)測(cè)未來的 S 個(gè)時(shí)間步長(zhǎng):wKgaomVHiHKAMQGOAACEZ6ViK7w788.png。為方便起見,表示為wKgaomVHiHOALEH_AAAQsWuNyEA373.png為時(shí)間步 t 同時(shí)記錄的多元變量,wKgaomVHiHOAciTVAAARFyIDK-A548.png為每個(gè)變量由 n 索引的整個(gè)時(shí)間序列。值得注意的是,在現(xiàn)實(shí)世界中,由于監(jiān)視器的系統(tǒng)延遲和松散組織的數(shù)據(jù)集,wKgaomVHiHOAOijYAAATQOvpcas994.png可能不包含本質(zhì)上相同時(shí)間戳的時(shí)間點(diǎn)。

wKgaomVHiHOAOijYAAATQOvpcas994.png的元素可以在物理測(cè)量和統(tǒng)計(jì)分布中彼此不同,變量wKgaomVHiHOAciTVAAARFyIDK-A548.png通常共享這些數(shù)據(jù)。

本文所提出架構(gòu)配備的 Transformer 變體,稱為 iTransformer,基本上沒有對(duì) Transformer 變體提出更具體的要求,只是注意力機(jī)制應(yīng)適用于多元相關(guān)性建模。因此,一組有效的注意力機(jī)制可以作為插件,降低變量數(shù)量增加時(shí)關(guān)聯(lián)的復(fù)雜性。

圖 4 中所示的 iTransformer 利用了更簡(jiǎn)單的 Transformer 純編碼器架構(gòu),包括嵌入、投影和 Transformer 塊。

wKgaomVHiHOAQJssAAKYcX1-p48911.png

實(shí)驗(yàn)及結(jié)果

研究者在各種時(shí)間序列預(yù)測(cè)應(yīng)用中對(duì)所提出的 iTransformer 進(jìn)行了全面評(píng)估,驗(yàn)證了所提出框架的通用性,并進(jìn)一步深入研究了針對(duì)特定時(shí)間序列維度反轉(zhuǎn) Transformer 組件職責(zé)的效果。

研究者在實(shí)驗(yàn)中廣泛納入了 6 個(gè)真實(shí)世界數(shù)據(jù)集,包括 Autoformer 使用的 ETT、天氣、電力、交通數(shù)據(jù)集、LST5 Net 提出的太陽能數(shù)據(jù)集以及 SCINet 評(píng)估的 PEMS 數(shù)據(jù)集。更多關(guān)于數(shù)據(jù)集的信息,請(qǐng)閱讀原文。

預(yù)測(cè)結(jié)果

如表 1 所示,用紅色表示最優(yōu),下劃線表示最優(yōu)。MSE/MAE 越低,預(yù)測(cè)結(jié)果越準(zhǔn)確。本文所提出的 iTransformer 實(shí)現(xiàn)了 SOTA 性能。原生 Transformer 組件可以勝任時(shí)間建模和多元關(guān)聯(lián),所提出的倒排架構(gòu)可以有效解決現(xiàn)實(shí)世界的時(shí)間序列預(yù)測(cè)場(chǎng)景。

wKgaomVHiHOAEEF7AAJOzgAHKgk654.png

iTransformer 通用性

研究者將該框架應(yīng)用于 Transformer 及其變體來評(píng)估 iTransformers,這些變體通常解決了 self-attention 機(jī)制的二次復(fù)雜性問題,包括 Reformer、Informer、Flowformer 和 FlashAttention。研究者發(fā)現(xiàn)了簡(jiǎn)單的倒置視角可以提高基于 Transformer 的預(yù)測(cè)器的性能,從而提高效率、泛化未見變量并更好地利用歷史觀測(cè)數(shù)據(jù)。

表 2 對(duì) Transformers 和相應(yīng)的 iTransformers 進(jìn)行了評(píng)估。值得注意的是,該框架持續(xù)改進(jìn)了各種 Transformer。總體而言,Transformer 平均提升了 38.9%,Reformer 平均提升了 36.1%,Informer 平均提升了 28.5%,F(xiàn)lowformer 平均提升了 16.8%,F(xiàn)lashformer 平均提升了 32.2%。

此外,由于倒置結(jié)構(gòu)在變量維度上采用了注意力機(jī)制,因此引入具有線性復(fù)雜性的高效注意力從根本上解決了因 6 個(gè)變量而產(chǎn)生的效率問題,這一問題在現(xiàn)實(shí)世界的應(yīng)用中十分普遍,但對(duì)于 Channel Independent 來說可能會(huì)消耗資源。因此,iTransformer 可廣泛應(yīng)用于基于 Transformer 的預(yù)測(cè)器。

wKgaomVHiHOAFbC5AAHAqncruNE962.png

為了驗(yàn)證假設(shè),研究者將 iTransformer 與另一種泛化策略進(jìn)行了比較:Channel Independent 強(qiáng)制采用一個(gè)共享 Transformer 來學(xué)習(xí)所有變體的模式。如圖 5 所示, Channel Independent(CI-Transformers)的泛化誤差可能會(huì)大幅增加,而 iTransformer 預(yù)測(cè)誤差的增幅要小得多。

wKgaomVHiHOAJY14AAE5_dwrv4Y389.png

由于注意力和前饋網(wǎng)絡(luò)的職責(zé)是倒置的,圖 6 中評(píng)估了隨著回視長(zhǎng)度的增加,Transformers 和 iTransformer 的性能。它驗(yàn)證了在時(shí)間維度上利用 MLP 的合理性,即 Transformers 可以從延長(zhǎng)的回視窗口中獲益,從而獲得更精確的預(yù)測(cè)。

wKgaomVHiHSAWJ15AAGH_S98ZO4587.png

模型分析

為了驗(yàn)證 Transformer 組件的合理性,研究者進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),包括替換組件(Replace)和移除組件(w/o)實(shí)驗(yàn)。表 3 列出了實(shí)驗(yàn)結(jié)果。

wKgaomVHiHSAYdPOAAFPpEZatPA169.png

更多詳細(xì)內(nèi)容,請(qǐng)參考原文。


原文標(biāo)題:重新審視Transformer:倒置更有效,真實(shí)世界預(yù)測(cè)的新SOTA出現(xiàn)了

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:重新審視Transformer:倒置更有效,真實(shí)世界預(yù)測(cè)的新SOTA出現(xiàn)了

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多
    的頭像 發(fā)表于 06-10 14:24 ?359次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    CYPD3177 PD在正常運(yùn)行期間重新初始化怎么解決?

    大家好 我們?cè)趹?yīng)用程序中使用 CYPD3177 作為匯接器,它似乎工作正常,但我們注意到一些奇怪的行為--將它連接到 PD 源后,它成功請(qǐng)求 PD 配置文件,我們的設(shè)備工作正常,但在一些不可預(yù)測(cè)
    發(fā)表于 05-22 07:41

    是時(shí)候重新審視“小米模式”

    3月29日晚,一輛小米SU7標(biāo)準(zhǔn)版在安徽銅陵高速發(fā)生碰撞后爆燃,導(dǎo)致3名女大學(xué)生遇難。雷軍在4月1日發(fā)博,承諾配合調(diào)查,“不會(huì)回避”。但在事發(fā)72小時(shí)后才公開回應(yīng),導(dǎo)致家屬質(zhì)疑其誠意,認(rèn)為小米汽車溝通滯后(本文發(fā)稿時(shí)該家屬微博已刪除)。 此后,雷軍進(jìn)入風(fēng)口浪尖,小米汽車股價(jià)也應(yīng)聲下跌。對(duì)此,輿論場(chǎng)各執(zhí)一詞,呈現(xiàn)出兩極撕裂: 有人認(rèn)為,“事故不決找雷軍”不合理,BBA也沒少出過事故,但不會(huì)牽扯到它們的CEO; 有人則認(rèn)為,雷軍
    的頭像 發(fā)表于 04-09 17:08 ?473次閱讀
    是時(shí)候<b class='flag-5'>重新</b><b class='flag-5'>審視</b>“小米模式”<b class='flag-5'>了</b>

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......

    ”“大模型圈的大黑馬”“硅谷震驚”“來自中國的學(xué)霸級(jí)AI”…… 從智能手機(jī)到自動(dòng)駕駛,從數(shù)據(jù)中心到物聯(lián)網(wǎng),F(xiàn)PGA 正悄然改變著我們的生活。未來,F(xiàn)PGA 又將如何塑造世界?DeepSeek 帶你一起
    發(fā)表于 03-03 11:21

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4082次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    歐盟重新評(píng)估科技巨頭調(diào)查

    的監(jiān)管審查提出挑戰(zhàn)。特朗普的立場(chǎng)和政策走向,無疑將對(duì)歐盟的調(diào)查產(chǎn)生一定影響。 此次歐盟的重新評(píng)估,旨在更全面、深入地審視這些科技巨頭的市場(chǎng)行為。知情人士指出,審查的結(jié)果可能導(dǎo)致歐盟減少或改變?cè)械恼{(diào)查范圍,以適應(yīng)新的市場(chǎng)環(huán)境
    的頭像 發(fā)表于 01-15 15:33 ?458次閱讀

    SOLIDWORKS 2025更有效的協(xié)作和數(shù)據(jù)管理

    在當(dāng)今快速變化的商業(yè)環(huán)境中,企業(yè)成功的關(guān)鍵在于有效的協(xié)作和數(shù)據(jù)管理。作為CAD領(lǐng)域的領(lǐng)軍者,SOLIDWORKS始終致力于為用戶提供優(yōu)越的三維設(shè)計(jì)與工程解決方案。隨著SOLIDWORKS 2025的發(fā)布,這款旗艦軟件在協(xié)作和數(shù)據(jù)管理方面實(shí)現(xiàn)重大突破,為用戶帶來了更加
    的頭像 發(fā)表于 01-09 17:04 ?547次閱讀
    SOLIDWORKS 2025<b class='flag-5'>更有效</b>的協(xié)作和數(shù)據(jù)管理

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專用芯片。 將
    的頭像 發(fā)表于 01-06 09:13 ?1169次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    Mamba入局圖像復(fù)原,達(dá)成新SOTA

    圖像復(fù)原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一種基于Mamba的圖像復(fù)原基準(zhǔn)模型,登上ECCV 2024。最近原作者又開發(fā)了新版本
    的頭像 發(fā)表于 12-30 18:09 ?859次閱讀
    Mamba入局圖像復(fù)原,達(dá)成新<b class='flag-5'>SOTA</b>

    19位國際頂尖學(xué)者聯(lián)袂撰寫《重新審視邊緣人工智能:機(jī)遇與挑戰(zhàn)》

    19位國際頂尖學(xué)者聯(lián)袂撰寫《重新審視邊緣人工智能:機(jī)遇與挑戰(zhàn)》
    的頭像 發(fā)表于 11-27 01:04 ?883次閱讀
    19位國際頂尖學(xué)者聯(lián)袂撰寫《<b class='flag-5'>重新</b><b class='flag-5'>審視</b>邊緣人工智能:機(jī)遇與挑戰(zhàn)》

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1575次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1024次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動(dòng)駕駛中一直說的BEV+Transformer到底是個(gè)啥?

    感知、理解和預(yù)測(cè)方面表現(xiàn)得更為強(qiáng)大,徹底終結(jié)了2D直視圖+CNN時(shí)代。BEV+Transformer通過鳥瞰視角與Transformer模型的結(jié)合,顯著提升了自動(dòng)駕駛
    的頭像 發(fā)表于 11-07 11:19 ?1402次閱讀
    自動(dòng)駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    SOLIDWORKS 2025:更有效的協(xié)作和數(shù)據(jù)管理

    在當(dāng)今快速變化的商業(yè)環(huán)境中,有效的協(xié)作和數(shù)據(jù)管理已成為企業(yè)成功的關(guān)鍵。作為CAD領(lǐng)域的領(lǐng)軍者,SOLIDWORKS始終致力于為用戶提供優(yōu)越的三維設(shè)計(jì)與工程解決方案。隨著SOLIDWORKS?2025的發(fā)布,這款旗艦軟件在協(xié)作和數(shù)據(jù)管理方面實(shí)現(xiàn)重大突破,為用戶帶來了良好體
    的頭像 發(fā)表于 10-08 16:52 ?654次閱讀

    關(guān)于\"OPA615\"的SOTA的跨導(dǎo)大小的疑問求解

    關(guān)于OPA615的SOTA部分,看datasheet的page9的figure22,我們可以知道跨導(dǎo)大小大概是35mA/V左右,并且可以知道其Chold輸出一般在5mA以內(nèi),但是我從社區(qū)里面找到
    發(fā)表于 09-13 06:25