一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer架構(gòu)概述

SSDFans ? 來(lái)源:SSDFans ? 2025-06-10 14:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。

以其獨(dú)特的attention機(jī)制和并行處理能力為特征,Transformer模型證明了在理解和生成人類語(yǔ)言方面的創(chuàng)新飛躍,其準(zhǔn)確性和效率是以前無(wú)法實(shí)現(xiàn)的。

谷歌在2017年一篇題為《attention就是你所需要的一切》的文章中首次提出,Transformer架構(gòu)是ChatGPT等突破性模型的核心。它們?cè)贠penAI的尖端語(yǔ)言模型中發(fā)揮了重要作用,并在DeepMind的AlphaStar中發(fā)揮了關(guān)鍵作用。

在這個(gè)AI的變革時(shí)代,Transformer模型對(duì)有抱負(fù)的數(shù)據(jù)科學(xué)家和NLP從業(yè)者的重要性怎么強(qiáng)調(diào)都不為過(guò)。作為大多數(shù)最新技術(shù)飛躍的核心領(lǐng)域之一,本文旨在破譯這些模型背后的秘密。

什么是Transformer?

Transformer最初是為了解決序列轉(zhuǎn)導(dǎo)或神經(jīng)機(jī)器翻譯的問(wèn)題而開(kāi)發(fā)的,這意味著它們旨在解決將輸入序列轉(zhuǎn)換為輸出序列的任何任務(wù)。這就是為什么他們被稱為“Transformer”。

什么是Transformer模型?

Transformer模型是一個(gè)神經(jīng)網(wǎng)絡(luò),它學(xué)習(xí)順序數(shù)據(jù)的上下文并從中生成新數(shù)據(jù)。簡(jiǎn)單地說(shuō)是一種AI模型,它通過(guò)分析大量文本數(shù)據(jù)中的模式來(lái)學(xué)習(xí)理解和生成類似人類的文本。

Transformer是當(dāng)前最先進(jìn)的NLP模型,被認(rèn)為是編碼器-解碼器架構(gòu)的演變。但編碼器-解碼器架構(gòu)主要依賴于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)提取序列信息,Transformer則完全缺乏這種循環(huán)性。

那么,他們是怎么做到的呢?

492a921a-4265-11f0-b715-92fbcf53809c.png

Transformer是專門(mén)設(shè)計(jì)來(lái)通過(guò)分析不同元素之間的關(guān)系來(lái)理解上下文和意義的,它們幾乎完全依賴于一種叫做attention的數(shù)學(xué)技巧來(lái)做到這一點(diǎn)。

歷史背景

Transformer模型起源于谷歌2017年的一篇研究論文,是機(jī)器學(xué)習(xí)領(lǐng)域最新和最有影響力的發(fā)展之一。第一個(gè)Transformer模型在有影響力的論文《attention就是你所需要的一切》中得到了解釋。

這個(gè)開(kāi)創(chuàng)性的概念不僅是一個(gè)理論的進(jìn)步,而且還找到了實(shí)現(xiàn),特別是在TensorFlow的Tensor2Tensor包中。此外,哈佛NLP小組通過(guò)提供論文的注釋指南以及PyTorch實(shí)現(xiàn)對(duì)這個(gè)新興領(lǐng)域做出了貢獻(xiàn)。

它們的引入刺激了該領(lǐng)域的顯著增長(zhǎng),通常被稱為T(mén)ransformer AI。這個(gè)革命性的模型為隨后在大型語(yǔ)言模型領(lǐng)域(包括BERT)的突破奠定了基礎(chǔ)。到2018年,這些發(fā)展已經(jīng)被譽(yù)為NLP的分水嶺。

2020年,OpenAI的研究人員宣布了GPT-3。在幾周內(nèi),GPT-3的多功能性很快得到了證明,人們用它來(lái)創(chuàng)作詩(shī)歌、程序、歌曲、網(wǎng)站和更多吸引全球用戶想象力的東西。

在2021年的一篇論文中,斯坦福大學(xué)的學(xué)者們恰當(dāng)?shù)貙⑦@些創(chuàng)新稱為基礎(chǔ)模型,強(qiáng)調(diào)了它們?cè)谥厮蹵I方面的基礎(chǔ)作用。他們的工作突出了Transformer模型如何不僅徹底改變了該領(lǐng)域,而且推動(dòng)了AI可實(shí)現(xiàn)的前沿,預(yù)示著一個(gè)充滿可能性的新時(shí)代。

谷歌的前高級(jí)研究科學(xué)家、企業(yè)家Ashish Vaswani說(shuō):“我們正處在這樣一個(gè)時(shí)代,像神經(jīng)網(wǎng)絡(luò)這樣的簡(jiǎn)單方法正在給我們帶來(lái)新能力的爆炸式增長(zhǎng)。”

從像LSTM這樣的RNN模型到用于NLP問(wèn)題的transformer的轉(zhuǎn)變

在Transformer模型引入時(shí),RNN是處理順序數(shù)據(jù)的首選方法,其特征在于其輸入中的特定順序。RNN的功能類似于前饋神經(jīng)網(wǎng)絡(luò),但它按順序處理輸入,每次處理一個(gè)元素。

Transformer的靈感來(lái)自于RNN中的編碼器-解碼器架構(gòu)。但是,Transformer模型完全基于attention機(jī)制,而不是使用遞歸。

除了提高RNN的性能,Transformer還提供了一種新的架構(gòu)來(lái)解決許多其他任務(wù),如文本摘要、圖像字幕和語(yǔ)音識(shí)別

那么,RNN的主要問(wèn)題是什么呢?它們對(duì)于NLP任務(wù)是無(wú)效的,主要有兩個(gè)原因:

它們依次處理輸入數(shù)據(jù)。這種循環(huán)過(guò)程不使用現(xiàn)代GPU,GPU是為并行計(jì)算而設(shè)計(jì)的,因此,使得這種模型的訓(xùn)練相當(dāng)緩慢。

當(dāng)元素彼此距離較遠(yuǎn)時(shí),它們就變得無(wú)效。這是因?yàn)樾畔⑹窃诿恳徊絺鬟f的,鏈越長(zhǎng),信息在鏈上丟失的可能性越大。

從像LSTM這樣的RNN到NLP中Transformer的轉(zhuǎn)變是由這兩個(gè)主要問(wèn)題驅(qū)動(dòng)的,Transformer通過(guò)利用attention機(jī)制的改進(jìn)來(lái)評(píng)估這兩個(gè)問(wèn)題的能力:

注意具體的詞語(yǔ),不管它們相距多遠(yuǎn)。

提高性能速度。

因此,Transformer成為RNN的自然改進(jìn)。接下來(lái),讓我們來(lái)看看Transformer是如何工作的。

Transformer架構(gòu)

概述

最初設(shè)計(jì)用于序列轉(zhuǎn)導(dǎo)或神經(jīng)機(jī)器翻譯,Transformer擅長(zhǎng)將輸入序列轉(zhuǎn)換為輸出序列。這是第一個(gè)完全依靠自關(guān)注來(lái)計(jì)算輸入和輸出表示的轉(zhuǎn)導(dǎo)模型,而不使用序列對(duì)齊RNN或卷積。Transformer架構(gòu)的主要核心特征是它們維護(hù)編碼器-解碼器模型。

如果我們開(kāi)始將用于語(yǔ)言翻譯的Transformer視為一個(gè)簡(jiǎn)單的黑盒,那么它將接受一種語(yǔ)言(例如英語(yǔ))的句子作為輸入,并輸出其英語(yǔ)翻譯。

4934384c-4265-11f0-b715-92fbcf53809c.png

如果稍微深入一點(diǎn),我們會(huì)發(fā)現(xiàn)這個(gè)黑盒子由兩個(gè)主要部分組成:

編碼器接受輸入并輸出該輸入的矩陣表示。例如,英語(yǔ)句子“How are you?”

解碼器接受該編碼表示并迭代地生成輸出。在我們的例子中,翻譯后的句子“?Cómo estás?”

4941a25c-4265-11f0-b715-92fbcf53809c.png

然而,編碼器和解碼器實(shí)際上都是一個(gè)多層的堆棧(每層的數(shù)量相同)。所有編碼器都呈現(xiàn)相同的結(jié)構(gòu),輸入進(jìn)入每個(gè)編碼器并傳遞給下一個(gè)編碼器。所有解碼器也呈現(xiàn)相同的結(jié)構(gòu),并從最后一個(gè)編碼器和前一個(gè)解碼器獲得輸入。

最初的架構(gòu)由6個(gè)編碼器和6個(gè)解碼器組成,但我們可以根據(jù)需要復(fù)制盡可能多的層。假設(shè)每個(gè)都有N層。

494e8684-4265-11f0-b715-92fbcf53809c.png

現(xiàn)在對(duì)整個(gè)Transformer架構(gòu)有了一個(gè)大致的了解,讓我們把重點(diǎn)放在編碼器和解碼器上,以更好地理解它們的工作流程。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138103
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50444
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6524

原文標(biāo)題:Transformer架構(gòu)詳細(xì)解析——概述

文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于DINO知識(shí)蒸餾架構(gòu)的分層級(jí)聯(lián)Transformer網(wǎng)絡(luò)

    在本文的網(wǎng)絡(luò)設(shè)計(jì)中,訓(xùn)練階段首先會(huì)訓(xùn)練第一階段的 Transformer 網(wǎng)絡(luò)來(lái)得到一個(gè)有較好表征能力的特征生成器,隨后再引入池化操作,加上二三階段 Transformer 共同訓(xùn)練。最終在三階段中通過(guò)驗(yàn)證集挑選出最優(yōu)結(jié)果作為最終輸出。
    發(fā)表于 07-25 16:58 ?1568次閱讀

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?757次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案

    如何更改ABBYY PDF Transformer+界面語(yǔ)言

    在安裝ABBYY PDF Transformer+時(shí)會(huì)讓您選擇界面語(yǔ)言。此語(yǔ)言將用于所有消息、對(duì)話框、按鈕和菜單項(xiàng)。在特殊情況下,您可能需要在安裝完成后更改界面語(yǔ)言以適應(yīng)需求,方法其實(shí)很簡(jiǎn)單,本文
    發(fā)表于 10-11 16:13

    概述隔離式電源集中式電源架構(gòu)

    這里寫(xiě)目錄標(biāo)題概述隔離式電源集中式電源架構(gòu)分布式電源架構(gòu):個(gè)人理解概述· 集中式電源架構(gòu)(CPA):效率高,但成本高,PCB占用面積大?!?
    發(fā)表于 11-11 07:07

    CMSIS軟件架構(gòu)概述?

    目錄CMSIS軟件架構(gòu)庫(kù)文件說(shuō)明CMSIS軟件架構(gòu)CMSIS概述? ? ?CMSIS軟件架構(gòu)由四層:用戶應(yīng)用層、操作系統(tǒng)及中間件接口層、CMSIS層和硬件層? ? ?由三部分構(gòu)成核內(nèi)外
    發(fā)表于 12-22 07:34

    谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

    為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer
    的頭像 發(fā)表于 06-16 11:29 ?3258次閱讀

    解析Transformer中的位置編碼 -- ICLR 2021

    引言 Transformer是近年來(lái)非常流行的處理序列到序列問(wèn)題的架構(gòu),其self-attention機(jī)制允許了長(zhǎng)距離的詞直接聯(lián)系,可以使模型更容易學(xué)習(xí)序列的長(zhǎng)距離依賴。由于其優(yōu)良的可并行性以及可觀
    的頭像 發(fā)表于 04-01 16:07 ?1.3w次閱讀
    解析<b class='flag-5'>Transformer</b>中的位置編碼 -- ICLR 2021

    如何使用Transformer來(lái)做物體檢測(cè)?

    導(dǎo)讀 本文為一個(gè)Facebook的目標(biāo)檢測(cè)Transformer (DETR)的完整指南,詳細(xì)介紹了DETR架構(gòu)的內(nèi)部工作方式以及代碼。 介紹 DEtection TRansformer (DETR
    的頭像 發(fā)表于 04-25 10:45 ?2926次閱讀
    如何使用<b class='flag-5'>Transformer</b>來(lái)做物體檢測(cè)?

    Transformer深度學(xué)習(xí)架構(gòu)的應(yīng)用指南介紹

    Understanding, NLU)信息檢索和自然語(yǔ)言生成(Natural Language Generation, NLG)等語(yǔ)言和語(yǔ)義任務(wù)中取得了顯著的成功。這一壯舉主要?dú)w功于開(kāi)創(chuàng)性的Transformer架構(gòu),導(dǎo)致
    的頭像 發(fā)表于 05-06 11:32 ?4932次閱讀
    <b class='flag-5'>Transformer</b>深度學(xué)習(xí)<b class='flag-5'>架構(gòu)</b>的應(yīng)用指南介紹

    利用Transformer和CNN 各自的優(yōu)勢(shì)以獲得更好的分割性能

    概述 在這篇論文中,提出了一種新的醫(yī)學(xué)圖像分割混合架構(gòu):PHTrans,它在主要構(gòu)建塊中并行混合 Transformer 和 CNN,分別從全局和局部特征中生成層次表示并自適應(yīng)聚合它們,旨在充分利用
    的頭像 發(fā)表于 11-05 11:38 ?7341次閱讀

    RetNet架構(gòu)Transformer架構(gòu)對(duì)比分析

    微軟研究院最近提出了一個(gè)新的 LLM 自回歸基礎(chǔ)架構(gòu) Retentive Networks (RetNet)[1,4],該架構(gòu)相對(duì)于 Transformer 架構(gòu)的優(yōu)勢(shì)是同時(shí)具備:訓(xùn)練
    發(fā)表于 07-26 10:44 ?1549次閱讀
    RetNet<b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>對(duì)比分析

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?1059次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)
    的頭像 發(fā)表于 07-09 11:42 ?1648次閱讀

    transformer專用ASIC芯片Sohu說(shuō)明

    2022年,我們打賭說(shuō)transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專用芯片。 將transformer
    的頭像 發(fā)表于 01-06 09:13 ?1161次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說(shuō)明

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?304次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程