RetNet架構(gòu)和Transformer架構(gòu)對(duì)比分析

微軟研究院最近提出了一個(gè)新的 LLM 自回歸基礎(chǔ)架構(gòu) Retentive Networks （RetNet）[1,4]，該架構(gòu)相對(duì)于 Transformer 架構(gòu)的優(yōu)勢(shì)是同時(shí)具備:訓(xùn)練可并行、推理成本低和良好的性能，不可能三角。

論文中給出一個(gè)很形象的示意圖，RetNet 在正中間表示同時(shí)具備三個(gè)優(yōu)點(diǎn)，而其他的架構(gòu) Linear Transformer、Recurrent Network 和 Transformer 都只能同時(shí)具備其中兩個(gè)有點(diǎn)。

接下來(lái)看一下論文給出的 RetNet 和 Transformer 的對(duì)比實(shí)驗(yàn)結(jié)果:

當(dāng)輸入序列長(zhǎng)度增加的時(shí)候，RetNet 的 GPU 顯存占用一直是穩(wěn)定的和權(quán)值差不多，而 Transformer 則是和輸入長(zhǎng)度成正比。

首先看紅色線和紫色線，都是輸入長(zhǎng)度在 8192 下，RetNet 和 Transformer 推理延時(shí)的對(duì)比。

可以看到當(dāng) batch size 增加的時(shí)候， RetNet 的推理延時(shí)也還是很穩(wěn)定，而 Transformer 的推理延時(shí)則是和 batch size 成正比。

而 Transformer 即使是輸入長(zhǎng)度縮小到 1024 ，推理延時(shí)也還是比 RetNet 要高。

RetNet 架構(gòu)解讀

RetNet 架構(gòu)和 Transformer 類似，也是堆疊層同樣的模塊，每個(gè)模塊內(nèi)部包含兩個(gè)子模塊：一個(gè) multi-scale retention（MSR）和一個(gè) feed-forward network (FFN)。

下面詳細(xì)解讀一下這個(gè) retention 子模塊。

首先給定一個(gè)輸入序列：

其中表示序列的長(zhǎng)度。然后輸入序列首先經(jīng)過(guò) embedding 層得到詞嵌入向量：

其中表示隱含層的維度。

Retention 機(jī)制

首先對(duì)給定輸入詞嵌入向量序列中的每個(gè)時(shí)間步的向量都乘以權(quán)值得到：

然后同樣有類似 Transformer 架構(gòu)的 Q 和 K 的投影：

其中是需要學(xué)習(xí)的權(quán)值。

接著假設(shè)現(xiàn)在有一個(gè)序列建模的問(wèn)題，通過(guò)狀態(tài) 將映射為向量。首先來(lái)看論文中給出的映射方式定義：

其中是一個(gè)矩陣，表示時(shí)間步對(duì)應(yīng)的投影則。同樣表示時(shí)間步對(duì)應(yīng)的投影。

那么上面公式中的計(jì)算公式是怎么得出來(lái)呢，下面詳細(xì)解釋一下，首先將展開(kāi)：

其中表示單位矩陣(主對(duì)角線元素為1，其余元素為0的方陣)。然后我們假定為初始狀態(tài)元素為全0的矩陣，則有：

再繼續(xù)上述推導(dǎo)過(guò)程：

所以根據(jù)上述推導(dǎo)過(guò)程和條件歸納可得：

然后我們來(lái)看一下矩陣是什么，論文中定義了是一個(gè)可對(duì)角化的矩陣，具體定義為：

其中都是維的向量，是一個(gè)可逆矩陣，而要理解首先得復(fù)習(xí)一下歐拉公式 [2]：

其中表示任意實(shí)數(shù)，是自然對(duì)數(shù)的底數(shù)，是復(fù)數(shù)中的虛數(shù)單位，也可以表示為實(shí)部，虛部的一個(gè)復(fù)數(shù)，歐拉公式[2]建立了指數(shù)函數(shù)、三角函數(shù)和復(fù)數(shù)之間的橋梁。

而這里是一個(gè) 維向量:

則也就是將向量元素兩兩一組表示分別表示為復(fù)數(shù)的實(shí)部和虛部：

然后就是一個(gè)對(duì)角矩陣，對(duì)角元素的值就對(duì)應(yīng)將和轉(zhuǎn)成復(fù)數(shù)向量相乘再將結(jié)果轉(zhuǎn)回實(shí)數(shù)向量的結(jié)果。

關(guān)于復(fù)數(shù)向量相乘可以參考文章：?

一文看懂 LLaMA 中的旋轉(zhuǎn)式位置編碼（Rotary Position Embedding）

現(xiàn)在我們知道了矩陣的構(gòu)成就能得到：

這里因?yàn)?是可逆矩陣則有性質(zhì)

其中為單位矩陣，則將次方展開(kāi)：

就是個(gè) 矩陣相乘，中間相鄰的都消掉了，所以可得：

然后我們回到計(jì)算的公式：

接著論文中提出把吸收進(jìn) 和也就是和分別用和替代當(dāng)作學(xué)習(xí)的權(quán)值，那么可得:

接著將公式簡(jiǎn)化，將改為一個(gè)實(shí)數(shù)常量，那么可得：

在繼續(xù)推導(dǎo)前，先來(lái)仔細(xì)看一下，借助歐拉公式展開(kāi)：

然后復(fù)習(xí)一下三角函數(shù)的性質(zhì)[3]：

則有：

轉(zhuǎn)為復(fù)數(shù)形式表示就是：

剛好就對(duì)應(yīng) 的共軛

所以可得：

其中表示共軛轉(zhuǎn)置操作。

Retention 的訓(xùn)練并行表示

首先回顧單個(gè)時(shí)間步的輸出的計(jì)算公式如下：

而所有時(shí)間步的輸出是可以并行計(jì)算的，用矩陣形式表達(dá)如下：

其中，而表示兩個(gè)矩陣逐元素相乘，和每一行對(duì)應(yīng)一個(gè)時(shí)間步的 q 和 k 向量。

而每一行對(duì)應(yīng)向量。就是對(duì)應(yīng) 矩陣的共軛，也就是將矩陣每一行改為復(fù)數(shù)的共軛形式。

而矩陣是一個(gè)下三角矩陣，其中第行第列的元素計(jì)算方式：

Retention 的推理循環(huán)表示

推理階段的循環(huán)表示論文中定義如下:

怎么理解呢，還是先回顧單個(gè)時(shí)間步的輸出的計(jì)算公式：

上述公式最后一步和推理階段循環(huán)表示公式中各個(gè)元素的對(duì)應(yīng)關(guān)系是：

對(duì)應(yīng)論文中的圖示：

圖中的表示 GroupNorm。

可以看到在推理階段，RetNet 在計(jì)算當(dāng)前時(shí)間步的輸出只依賴于上一個(gè)時(shí)間步產(chǎn)出的狀態(tài)矩陣。

其實(shí)就是把計(jì)算順序改了一下，先計(jì)算的和的相乘然后一直累加到狀態(tài)矩陣上，最后再和相乘。

而不是像 Transformer 架構(gòu)那樣，每個(gè)時(shí)間步的計(jì)算要先算和前面所有時(shí)間步的相乘得到 attention 權(quán)值再和相乘求和，這樣就需要一直保留歷史的和。

Gated Multi-Scale Retention

然后 RetNet 每一層中的 Retention 子模塊其實(shí)也是分了個(gè)頭，每個(gè)頭用不同的參數(shù)，同時(shí)每個(gè)頭都采用不同的常量，這也是 ?Multi-Scale Retention 名稱的來(lái)由。

則對(duì)輸入， MSR 層的輸出是：

其中，，是激活函數(shù)用來(lái)生成門(mén)控閾值，還有由于每個(gè)頭均采用不同的，所以每個(gè)頭的輸出要單獨(dú)做 normalize 之后再 concat。

編輯：黃飛

閱讀全文

Transformer(5892) Transformer(5892)
位置編碼器(5494) 位置編碼器(5494)

評(píng)論

相關(guān)推薦

7大主流單片機(jī)優(yōu)缺點(diǎn)對(duì)比分析哪個(gè)好？

7大主流單片機(jī)優(yōu)缺點(diǎn)對(duì)比分析哪個(gè)好？

2021-11-02 08:27:01

ARM/DSP/FPGA的區(qū)別是什么？對(duì)比分析哪個(gè)好？

ARM/DSP/FPGA的區(qū)別是什么？對(duì)比分析哪個(gè)好？

2021-11-05 06:08:20

ARM與單片機(jī)對(duì)比分析哪個(gè)好？

ARM與單片機(jī)對(duì)比分析哪個(gè)好？

2021-11-05 07:16:04

AVR與51/PIC單片機(jī)對(duì)比分析哪個(gè)好？

AVR與51/PIC單片機(jī)對(duì)比分析哪個(gè)好？選擇單片機(jī)原則有哪些？

2021-09-23 06:57:07

CCD和CMOS的技術(shù)有什么區(qū)別？對(duì)比分析哪個(gè)好？

CCD和CMOS的技術(shù)有什么區(qū)別？對(duì)比分析哪個(gè)好？

2021-06-04 06:19:53

CMOS電平和TTL電平對(duì)比分析，不看肯定后悔

CMOS電平和TTL電平對(duì)比分析為什么引入OC門(mén)？什么是OC、OD？

2021-04-20 06:53:21

CPLD與FPGA的對(duì)比分析哪個(gè)好？

CPLD與FPGA的對(duì)比分析哪個(gè)好？

2021-11-05 08:20:40

DRAM和SRAM對(duì)比分析哪個(gè)好？

RAM有哪些分類？特點(diǎn)是什么？DRAM和SRAM對(duì)比分析哪個(gè)好？

2022-01-20 07:16:10

DSP/MCU/ARM/CPLD/FPGA對(duì)比分析哪個(gè)好？

DSP、MCU、ARM、CPLD/FPGA對(duì)比分析哪個(gè)好？

2021-10-22 07:17:10

D類放大器的效率與AB類放大器的對(duì)比分析哪個(gè)好？

請(qǐng)問(wèn)D類放大器的效率與AB類放大器的對(duì)比分析哪個(gè)好？

2021-04-14 06:04:20

EM仿真和schmetic仿真對(duì)比分析哪個(gè)好？

仿真軟件中電磁場(chǎng)怎么計(jì)算？EM仿真和schmetic仿真對(duì)比分析哪個(gè)好？

2021-09-30 06:50:03

H.264和MPEG-4優(yōu)劣勢(shì)對(duì)比分析哪個(gè)好？

H.264視頻編碼標(biāo)準(zhǔn)狀況分析H.264視頻編碼技術(shù)先進(jìn)性H.264和MPEG-4的比較對(duì)比分析，哪個(gè)好？

2021-04-20 06:38:15

IPTV技術(shù)分析及與數(shù)字電視對(duì)比分析哪個(gè)好？

IPTV技術(shù)分析及與數(shù)字電視對(duì)比分析哪個(gè)好？

2021-05-26 06:14:01

LCR-TDD系統(tǒng)初始頻偏估計(jì)算法對(duì)比分析哪個(gè)好？

LCR-TDD系統(tǒng)初始頻偏估計(jì)算法對(duì)比分析哪個(gè)好？

2021-06-02 06:14:26

Lora和Zigbee無(wú)線通訊技術(shù)對(duì)比分析哪個(gè)好？

Lora和Zigbee無(wú)線通訊技術(shù)對(duì)比分析哪個(gè)好？

2022-01-18 06:28:09

當(dāng)為你的下一個(gè)設(shè)計(jì)方案選擇正確的核心處理器件時(shí)，你應(yīng)該考慮哪些因素呢?本文將對(duì)MPU和MCU做些對(duì)比分析，并以此對(duì)器件的選擇給出一些指導(dǎo)性建議和意見(jiàn)。本文引用地址：每當(dāng)在為新設(shè)計(jì)選擇正確合理的器件時(shí)，我們可能會(huì)有些茫然不知所措。這是需要做正確的平衡處理的事，包括價(jià)格，性能，功耗等方面的影響。當(dāng)然，你可

2021-11-03 08:02:32

RK3399pro和Jetson Nano開(kāi)發(fā)板對(duì)比分析哪個(gè)好？

RK3399pro和Jetson Nano開(kāi)發(fā)板對(duì)比分析哪個(gè)好？

2022-03-07 06:44:41

STC89C51與STM8對(duì)比分析哪個(gè)好？

2021-11-05 06:46:48

STM32 J-LINK/ST-Link/CMSIS-DAP對(duì)比分析哪個(gè)好？

2022-02-08 06:02:26

STM32和Arduino對(duì)比分析哪個(gè)好？

Arduino和STM32各自的特點(diǎn)是什么？STM32和Arduino對(duì)比分析哪個(gè)好？

2021-11-04 06:34:07

STM32外部中斷配置與串口中斷配置對(duì)比分析哪個(gè)好

STM32外部中斷配置與串口中斷配置對(duì)比分析哪個(gè)好

2021-11-23 06:36:31

USB 2.0與 USB 3.0功能特性對(duì)比分析

本帖最后由 eehome 于 2013-1-5 09:49 編輯 USB 2.0與 USB 3.0功能特性對(duì)比分析

2012-08-20 18:32:52

ZigBee/UWB/Wi -Fi/藍(lán)牙/NFC無(wú)線技術(shù)對(duì)比分析哪個(gè)好？

ZigBee/UWB/Wi -Fi/藍(lán)牙/NFC無(wú)線技術(shù)對(duì)比分析哪個(gè)好？

2021-11-03 07:53:44

eFuse與傳統(tǒng)保險(xiǎn)絲對(duì)比分析

eFuse與傳統(tǒng)保險(xiǎn)絲對(duì)比分析eFuse應(yīng)對(duì)云應(yīng)用過(guò)流保護(hù)的挑戰(zhàn)

2021-03-09 07:10:27

mC/OS和mClinux嵌入式操作系統(tǒng)對(duì)比分析哪個(gè)好？

mC/OS和mClinux嵌入式操作系統(tǒng)對(duì)比分析哪個(gè)好？

2021-04-27 06:34:27

stm32硬件SPI與模擬SPI對(duì)比分析哪個(gè)好？

NFR24C0中文使用手冊(cè)分享stm32硬件SPI與模擬SPI對(duì)比分析哪個(gè)好？

2021-12-17 07:40:48

x86/arm/mips各架構(gòu)對(duì)比分析哪個(gè)好？

x86/arm/mips各架構(gòu)對(duì)比分析哪個(gè)好？

2021-10-21 06:39:02

【RISC-V開(kāi)放架構(gòu)設(shè)計(jì)之道|閱讀體驗(yàn)】一本別出心裁的RISC-V架構(gòu)之書(shū)(第一章)

的計(jì)算機(jī)體系架構(gòu)專別出心裁地按照RISC-V模塊化的指令來(lái)組織內(nèi)容 對(duì)比x86、ARM 和MIPS 的設(shè)計(jì)，通過(guò)對(duì)比分析，突顯RISC-V 的優(yōu)勢(shì) 可以作為從業(yè)者隨時(shí)翻閱的案頭參考書(shū) 開(kāi)頭的蒙娜麗莎像讓

2024-01-24 19:06:40

三種Form Factor的優(yōu)劣勢(shì)對(duì)比分析哪個(gè)好？

SMARC/Qseven/Apalis對(duì)比分析哪個(gè)好？

2021-04-20 06:01:26

兩種鍵盤(pán)掃描方法對(duì)比分析哪個(gè)好？

兩種鍵盤(pán)掃描方法對(duì)比分析哪個(gè)好？

2021-06-01 06:50:08

串口直接收發(fā)和DMA結(jié)合串口收發(fā)對(duì)比分析哪個(gè)好？

DMA是什么?串口直接收發(fā)和DMA結(jié)合串口收發(fā)對(duì)比分析哪個(gè)好？

2021-12-13 06:39:53

串行和并行接口SRAM對(duì)比分析，看完你就懂了

2021-05-19 06:16:24

主流CAN收發(fā)器性能對(duì)比分析哪個(gè)最好？

主流CAN收發(fā)器性能對(duì)比分析哪個(gè)最好？

2021-05-20 06:14:37

主流的三種RF方案及其優(yōu)缺點(diǎn)對(duì)比分析

主流的三種RF方案及其優(yōu)缺點(diǎn)對(duì)比分析RF IC的主要性能是什么？

2021-05-25 06:34:17

五種基于PON的FTTX接入對(duì)比分析，哪個(gè)比較好？

五種基于PON的FTTX接入對(duì)比分析，哪個(gè)比較好？

2021-05-27 06:39:10

什么是RISC架構(gòu)？RISC架構(gòu)的優(yōu)點(diǎn)與缺點(diǎn)

2023-02-27 11:22:54

傳統(tǒng)ACC控制系統(tǒng)和RIDIC系統(tǒng)對(duì)比分析哪個(gè)好？

傳統(tǒng)ACC控制系統(tǒng)和RIDIC系統(tǒng)對(duì)比分析哪個(gè)好？

2021-10-22 07:31:35

幾款主流的Python開(kāi)發(fā)板對(duì)比分析哪個(gè)好？

Python在國(guó)內(nèi)逐漸崛起和被追捧的原因？用Python可以做什么？幾款主流的Python開(kāi)發(fā)板對(duì)比分析哪個(gè)好？

2021-10-26 07:06:46

單/雙極性步進(jìn)電機(jī)對(duì)比分析哪個(gè)好？

步進(jìn)電機(jī)與伺服電機(jī)的工作原理是什么？單/雙極性步進(jìn)電機(jī)對(duì)比分析哪個(gè)好？步進(jìn)電機(jī)有哪些基本參數(shù)？

2021-09-24 08:08:37

印制電路板設(shè)計(jì)中手工設(shè)計(jì)和自動(dòng)設(shè)計(jì)對(duì)比分析哪個(gè)好？

印制電路板設(shè)計(jì)中手工設(shè)計(jì)和自動(dòng)設(shè)計(jì)對(duì)比分析哪個(gè)好？

2021-04-25 07:32:18

工頻機(jī)和高頻機(jī)的性能對(duì)比分析哪個(gè)好？

工頻機(jī)和高頻機(jī)的原理是什么？工頻機(jī)和高頻機(jī)的性能對(duì)比分析哪個(gè)好？

2021-10-21 06:08:18

常用無(wú)線收發(fā)芯片性能對(duì)比分析哪個(gè)好？

常用無(wú)線收發(fā)芯片性能對(duì)比分析哪個(gè)好？選擇收發(fā)芯片時(shí)有哪些注意事項(xiàng)？

2021-10-21 06:14:44

常用的嵌入式操作系統(tǒng)是什么？Linux OS/palm OS與Windows CE對(duì)比分析哪個(gè)好？

嵌入式操作系統(tǒng)EOS具有什么特點(diǎn)常用的嵌入式操作系統(tǒng)是什么？Linux OS與Windows Ce對(duì)比分析哪個(gè)好palm OS與Windows CE對(duì)比分析哪個(gè)好

2021-04-27 07:06:37

常見(jiàn)單片機(jī)對(duì)比分析哪個(gè)好？

常見(jiàn)單片機(jī)對(duì)比分析哪個(gè)好？

2021-10-29 07:39:21

干簧管傳感器與霍爾效應(yīng)傳感器的比較對(duì)比分析哪個(gè)好？

干簧管傳感器與霍爾效應(yīng)傳感器的比較對(duì)比分析哪個(gè)好？

2021-06-08 07:03:59

開(kāi)關(guān)電源PWM與PFM對(duì)比分析哪個(gè)好？

開(kāi)關(guān)電源PWM與PFM對(duì)比分析開(kāi)關(guān)電源控制技術(shù)的特點(diǎn)是什么

2021-03-11 07:37:37

異步通信與同步通信對(duì)比分析哪個(gè)好？

異步通信與同步通信對(duì)比分析哪個(gè)好？

2021-12-16 07:35:06

步進(jìn)電機(jī)與伺服電機(jī)對(duì)比分析

步進(jìn)電機(jī)與伺服電機(jī)對(duì)比分析采用閉環(huán)技術(shù)的步進(jìn)電機(jī)

2021-02-05 06:05:47

步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好？

步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好？

2021-10-09 06:03:07

步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好？

步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好？

2021-11-15 07:25:56

步進(jìn)電機(jī)和伺服電機(jī)對(duì)比分析哪個(gè)好？

步進(jìn)電機(jī)和伺服電機(jī)對(duì)比分析哪個(gè)好？

2021-10-13 08:15:46

永磁同步電機(jī)偏差解耦與電流前饋解耦控制對(duì)比分析，哪個(gè)影響大？

永磁同步電機(jī)偏差解耦與電流前饋解耦控制對(duì)比分析，哪個(gè)影響大？

2021-10-12 10:17:23

淺析ARM架構(gòu)與STM32系統(tǒng)架構(gòu)

ARM架構(gòu)是怎樣構(gòu)成的？STM32系統(tǒng)架構(gòu)地基本原理是什么？

2021-10-20 06:10:22

獨(dú)立看門(mén)狗和窗口看門(mén)狗對(duì)比分析哪個(gè)好？

為什么需要窗口看門(mén)狗？獨(dú)立看門(mén)狗和窗口看門(mén)狗對(duì)比分析哪個(gè)好？

2021-11-05 06:30:03

監(jiān)控圖象傳輸方式對(duì)比分析

監(jiān)控圖象傳輸方式對(duì)比分析

2012-08-20 12:53:09

硬件密碼組件與軟件密碼組件的對(duì)比分析哪個(gè)好？

硬件密碼組件是什么？硬件密碼組件與軟件密碼組件的對(duì)比分析哪個(gè)好？

2021-04-28 06:06:22

視頻標(biāo)準(zhǔn)核心技術(shù)對(duì)比分析哪個(gè)好

視頻標(biāo)準(zhǔn)核心技術(shù)對(duì)比分析哪個(gè)好

2021-06-07 06:12:34

請(qǐng)問(wèn)51單片機(jī)/ARV/ARM單片機(jī)對(duì)比分析哪個(gè)好？

請(qǐng)問(wèn)51單片機(jī)/ARV/ARM單片機(jī)對(duì)比分析哪個(gè)好？

2021-10-25 06:52:51

請(qǐng)問(wèn)雙極性晶體管與MOSFET對(duì)比分析哪個(gè)好？

雙極性晶體管與MOSFET對(duì)比分析哪個(gè)好？

2021-04-20 06:36:55

請(qǐng)問(wèn)直流電機(jī)控制的單極性和雙極性對(duì)比分析哪個(gè)好？

請(qǐng)問(wèn)直流電機(jī)控制的單極性和雙極性對(duì)比分析哪個(gè)好？

2021-09-23 08:49:57

鉛酸電池和鋰電池對(duì)比分析哪個(gè)好？

鉛酸電池和鋰電池對(duì)比分析哪個(gè)好？

2021-06-10 06:59:19

閉環(huán)步進(jìn)電機(jī)與伺服電機(jī)對(duì)比分析哪個(gè)好？

伺服電機(jī)具有哪些缺陷？閉環(huán)步進(jìn)電機(jī)與伺服電機(jī)對(duì)比分析哪個(gè)好？

2021-09-27 08:13:44

面向HID應(yīng)用的藍(lán)牙低功耗和專有射頻技術(shù)對(duì)比分析

面向HID應(yīng)用的藍(lán)牙低功耗和專有射頻技術(shù)對(duì)比分析

2021-05-25 06:41:03

高通X55與華為巴龍5000對(duì)比分析

高通第二代X55基帶碾壓華為?高通X55與華為巴龍5000對(duì)比分析

2020-12-18 06:58:14

SPWM調(diào)制方法對(duì)比分析

SPWM調(diào)制方法對(duì)比分析 摘要：對(duì)比分析了三種正弦波脈寬調(diào)制（SPWM）控制方法，指出各自的優(yōu)缺點(diǎn)及應(yīng)用，給出了一些數(shù)學(xué)

2009-07-06 13:33:51

12452

WLAN與WPAN的QoS機(jī)制對(duì)比分析

WLAN與WPAN的QoS機(jī)制對(duì)比分析 一、引言　　無(wú)線局域網(wǎng)（WLAN,即Wireless Local Area Network）和

2009-08-04 14:28:40

728

對(duì)比ATX 什么是BTX架構(gòu)？

對(duì)比ATX 什么是BTX架構(gòu)？ BTX是英

2010-01-21 10:39:31

2509

小型PLC對(duì)比分析

小型PLC對(duì)比分析.

2012-04-27 15:43:34

ARM的發(fā)展史以及架構(gòu)解析

本文從ARM的發(fā)展歷史著手，以S3C2440為例與51單片機(jī)進(jìn)行對(duì)比分析，詳細(xì)解析了ARM架構(gòu)。

2016-04-22 11:00:06

15043

谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功，谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索（NAS）之后，使用了翻譯作為一般的序列任務(wù)的代理，并找到了Evolved Transformer這一新的Transformer架構(gòu)。

2019-06-16 11:29:22

2842

PowerPC與X86和ARM處理器通用架構(gòu)有什么區(qū)別

在嵌入式領(lǐng)域，存在著三種處理器通用的架構(gòu)，PowerPC、X86、ARM，本文將對(duì)這三種架構(gòu)進(jìn)行對(duì)比分析。

2020-02-16 14:56:00

7981

一文帶你了解嵌入式領(lǐng)域三種處理器通用的架構(gòu)

在嵌入式領(lǐng)域，存在著三種處理器通用的架構(gòu)，PowerPC、X86、ARM，本文將對(duì)這三種架構(gòu)進(jìn)行對(duì)比分析。

2021-03-05 17:39:47

4804

瑞薩H3和高通8155對(duì)比分析

，而高通8155則是美國(guó)高通公司的明星產(chǎn)品之一。那么，這兩款處理器究竟能給我們帶來(lái)什么不同的體驗(yàn)?zāi)兀肯旅嫖覀儗?duì)他們進(jìn)行詳細(xì)的對(duì)比分析。首先，我們從處理器的基本參數(shù)開(kāi)始比較。瑞薩H3采用的是全新的Cortex-A55架構(gòu)，主頻最高可達(dá)1.8GHz，內(nèi)置

2023-08-15 16:23:39

2686

DETR架構(gòu)的內(nèi)部工作方式分析

用了Transformer 架構(gòu)開(kāi)發(fā)的一個(gè)目標(biāo)檢測(cè)模型。在這篇文章中，我將通過(guò)分析DETR架構(gòu)的內(nèi)部工作方式來(lái)幫助提供一些關(guān)于它的直覺(jué)。下面，我將解釋一些結(jié)構(gòu)，但是如果你只是想了解如何使用模型，可以直接跳到代碼

2023-08-30 10:53:08

521

已全部加載完成

搜索歷史

RetNet架構(gòu)和Transformer架構(gòu)對(duì)比分析

評(píng)論