一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

張量計(jì)算在神經(jīng)網(wǎng)絡(luò)加速器中的實(shí)現(xiàn)形式

454398 ? 來(lái)源:AI加速微信公眾號(hào) ? 作者:AI加速微信公眾號(hào) ? 2020-11-02 13:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

神經(jīng)網(wǎng)絡(luò)中涉及到大量的張量運(yùn)算,比如卷積,矩陣乘法,向量點(diǎn)乘,求和等。神經(jīng)網(wǎng)絡(luò)加速器就是針對(duì)張量運(yùn)算來(lái)設(shè)計(jì)的。一個(gè)神經(jīng)網(wǎng)絡(luò)加速器通常都包含一個(gè)張量計(jì)算陣列,以及數(shù)據(jù)收發(fā)控制,共同來(lái)完成諸如矩陣乘法,卷積等計(jì)算任務(wù)。運(yùn)算靈活多變的特性和硬件的固定架構(gòu)產(chǎn)生了矛盾,這個(gè)矛盾造成了利用硬件執(zhí)行計(jì)算任務(wù)的算法多變性。不同的硬件架構(gòu)實(shí)現(xiàn)相同的計(jì)算,可能具有不同的算法。我們今天討論基于脈動(dòng)陣列的計(jì)算架構(gòu),脈動(dòng)陣列的低延遲,低扇出特性使其得到廣泛應(yīng)用,比如TPU中。我們今天就從矩陣計(jì)算講起,談一談矩陣計(jì)算的幾種不同方式,矩陣的一些特性,再講一講CNN中的卷積運(yùn)算,最后談?wù)勥@些張量計(jì)算在硬件中的實(shí)現(xiàn)形式。

矩陣計(jì)算

假設(shè)有兩個(gè)矩陣:

計(jì)算這兩個(gè)矩陣的乘積

根據(jù)矩陣計(jì)算形式,我們可以看出有三級(jí)循環(huán)。根據(jù)排列組合,可以有6種計(jì)算形式。我們使用ijk分別表示A對(duì)應(yīng)的行,列(B的行),以及B的列的標(biāo)號(hào)。這六種循環(huán)計(jì)算方式為:ijk, jik, ikj, jki, kij, kji。這六種方式在硬件上(脈動(dòng)陣列)實(shí)現(xiàn)起來(lái),考慮到緩存和計(jì)算結(jié)構(gòu),實(shí)際上可以分為2種方式。

1) 矩陣x向量

我們用偽代碼表示為:


在這種方式下,通過(guò)矩陣x向量的方式可以配合脈動(dòng)陣列的2D結(jié)構(gòu)。這個(gè)時(shí)候片上要先存儲(chǔ)下一個(gè)A矩陣和B矩陣的一列,然后通過(guò)一個(gè)周期完成矩陣x向量的計(jì)算,得到了C矩陣的一行。這個(gè)時(shí)候片上A矩陣數(shù)據(jù)可以一直保存不更換,而不斷更換每一列的B數(shù)據(jù),直到完成AB計(jì)算。

這種方式在在語(yǔ)音處理的LSTM等網(wǎng)絡(luò)中比較適用,因?yàn)檎Z(yǔ)音通常都是一些連續(xù)的向量,而且LSTM網(wǎng)絡(luò)決定了連續(xù)的向量之間有依賴關(guān)系,因此矩陣x向量方式可以提高LSTM中權(quán)重的時(shí)間復(fù)用率。所謂時(shí)間復(fù)用率是指權(quán)重可以在片上保持較長(zhǎng)的時(shí)間,而不斷更換輸入。從時(shí)間維度上看,權(quán)重得到了復(fù)用。

這種方式的缺點(diǎn)是權(quán)重加載到片上會(huì)消耗很多時(shí)間,突發(fā)的load需要占據(jù)很大訪問(wèn)內(nèi)存帶寬。而且對(duì)片上緩存要求容量較高。特別是當(dāng)緩存較小權(quán)重?cái)?shù)量較大的時(shí)候,就要通過(guò)不斷加載權(quán)重到片上來(lái)滿足計(jì)算需求,這可能會(huì)降低加速器性能。為了滿足計(jì)算的實(shí)時(shí)性,權(quán)重輸出帶寬需要足夠一個(gè)矩陣x向量的計(jì)算。這對(duì)片上帶寬要求也較高。當(dāng)然這些都能夠通過(guò)一定手段來(lái)緩解,比如通過(guò)多batch來(lái)增加權(quán)重空間復(fù)用率,降低對(duì)帶寬需求和片上緩存要求。

2) 列向量x行向量

用偽代碼表示如下:


這實(shí)際上是取得A的一個(gè)列向量和B的行向量進(jìn)行矩陣乘法,得到一個(gè)矩陣,所有對(duì)應(yīng)的A的列和B的行乘積的矩陣和就是最終的C矩陣。這種方式利用了A和B的空間復(fù)用率,A的列和B的行的元素彼此求積,也適配了2D的脈動(dòng)陣列結(jié)構(gòu)。

這種方式對(duì)A和B的帶寬需求最低,一般外部DDR的內(nèi)存可以滿足這樣的要求。對(duì)片上緩存需求較低,帶寬也較低。A的列元素和B的行元素分別從脈動(dòng)陣列的左側(cè)和上側(cè)進(jìn)入,相互乘積,達(dá)到了元素最大空間復(fù)用率。這種方式可能會(huì)要求對(duì)某個(gè)矩陣進(jìn)行轉(zhuǎn)置,比如當(dāng)矩陣按行序列排的時(shí)候,B矩陣就需要經(jīng)過(guò)轉(zhuǎn)置后送入矩陣運(yùn)算單元進(jìn)行計(jì)算。

但是這種方式也有一定應(yīng)用限制,對(duì)于矩陣x向量的語(yǔ)音識(shí)別來(lái)說(shuō),只有對(duì)于batch size較大時(shí),效率才會(huì)高,否則會(huì)比較低。而且這種結(jié)構(gòu)不太利于脈動(dòng)陣列在其它方面的應(yīng)用,比如卷積計(jì)算,接下來(lái)我們會(huì)講到。

塊矩陣計(jì)算

硬件上計(jì)算陣列通常都是和要進(jìn)行計(jì)算的矩陣大小是不匹配的,一種情況就是計(jì)算陣列維度比矩陣維度小,一種就是大于矩陣的維度。

當(dāng)小于矩陣維度時(shí),可以通過(guò)對(duì)矩陣切塊來(lái)分別計(jì)算,如果大于矩陣維度,可以對(duì)矩陣進(jìn)行“補(bǔ)塊”。比如硬件上計(jì)算陣列大小是32x32,而A矩陣是64x64,B矩陣是64x64。

如果采用列向量x行向量的方法,我們就可以將A和B分別切分成4個(gè)矩陣快,這些矩陣塊分別進(jìn)行計(jì)算。

先計(jì)算A11xB11(分別將A11按列送入陣列,B11按行輸入陣列,陣列中每個(gè)計(jì)算單元保留結(jié)果繼續(xù)和下一次數(shù)據(jù)求累加和),然后計(jì)算A12xB21(繼續(xù)不斷將矩陣送入計(jì)算陣列,并和上次A11xB11結(jié)果求和),兩者求和就得到了第一個(gè)矩陣塊。

如果采用矩陣x向量的方法,就可以這樣分塊:

我們先在片上緩存下A1矩陣塊,然后分別加載B1矩陣的列和A1進(jìn)行矩陣向量計(jì)算,分別得到了A1B1矩陣的第一列,第二列,…結(jié)果。

矩陣數(shù)據(jù)表示寬度

硬件上進(jìn)行神經(jīng)網(wǎng)絡(luò)加速都采用量化后的數(shù)據(jù),一般將訓(xùn)練的模型定點(diǎn)到16bit,8bit,4bit等對(duì)硬件計(jì)算友好的寬度。因此具有寬bit計(jì)算單元的硬件架構(gòu)可以兼容低bit的神經(jīng)網(wǎng)絡(luò)計(jì)算,但是這樣會(huì)造成計(jì)算資源浪費(fèi)。所以通常有兩個(gè)辦法:一種是針對(duì)不同位寬開(kāi)發(fā)不同硬件架構(gòu),另外一種是開(kāi)發(fā)出一種同時(shí)兼容多種bit的架構(gòu)。FPGA可重配置的特點(diǎn),可以在開(kāi)發(fā)階段考慮多種bit計(jì)算架構(gòu),通過(guò)使用參數(shù)化定義來(lái)為使用者提供架構(gòu)的可配置選項(xiàng),客戶可以依據(jù)自己需求選擇使用哪種功能。這種方式既滿足了不同bit的計(jì)算需求,同時(shí)又能夠最大化FPGA資源的使用。

如果我們?cè)诘蚥it架構(gòu)的基礎(chǔ)上,增加一些其它模塊,也能夠同時(shí)兼容寬bit計(jì)算任務(wù)。這利用到了數(shù)據(jù)的分解。比如兩個(gè)矩陣A和B分別是8bit,我們要用4bit硬件架構(gòu)加以實(shí)現(xiàn)。將A和B按照4bit進(jìn)行分解:

這個(gè)時(shí)候看到存在移位和求和,因此硬件中除了4bit計(jì)算陣列外,還需要有移位模塊,加法模塊,以及數(shù)據(jù)位寬轉(zhuǎn)換模塊。

假設(shè)矩陣乘法模塊輸入位寬4bit,輸出32bit可以滿足一般的矩陣大小的乘法,這輸出的32bit數(shù)據(jù)先通過(guò)片上bus緩存到buffer或者給到shift+add模塊,shift+add模塊進(jìn)行移位求和操作,得到的結(jié)果就是正常一個(gè)8bit矩陣乘法的結(jié)果,這個(gè)結(jié)果通常在神經(jīng)網(wǎng)絡(luò)中還會(huì)被進(jìn)一步量化,我們假設(shè)量化到16bit,那么輸出結(jié)果就存放到buffer中。在設(shè)計(jì)片上buffer的時(shí)候,數(shù)據(jù)單位如果是固定的會(huì)使得邏輯簡(jiǎn)單,但是現(xiàn)在存在4種數(shù)據(jù)位寬,所以對(duì)buffer中數(shù)據(jù)的使用就要能靈活處理4bit,8bit,16bit,32bit這樣的大小。這些無(wú)疑增加了bufer復(fù)雜度。而且shift+add的結(jié)構(gòu)也會(huì)增加大量的加法和移位邏輯。

矩陣壓縮

神經(jīng)網(wǎng)絡(luò)種含有的參數(shù)很多,大的話都在幾十M甚至上百M(fèi)。為了在FPGA上能容納更多參數(shù),加速計(jì)算任務(wù)。通常有兩種方式來(lái)對(duì)權(quán)重進(jìn)行壓縮:一種是對(duì)神經(jīng)網(wǎng)絡(luò)種冗余權(quán)重進(jìn)行剪枝,另外一種是在FPGA上實(shí)現(xiàn)對(duì)參數(shù)壓縮存儲(chǔ)。

剪枝算法有很多,比如針對(duì)LSTM的有權(quán)重矩陣的稀疏化,設(shè)定閾值,去除閾值以下的數(shù)據(jù),然后進(jìn)行fine-tune。這樣得到的矩陣是稀疏矩陣??梢源蟠鬁p少權(quán)重?cái)?shù)量。但是這樣的矩陣結(jié)構(gòu)不太利于硬件進(jìn)行加速,因?yàn)樗慕Y(jié)構(gòu)不夠整齊。

為了得到利于硬件部署的矩陣壓縮結(jié)構(gòu),可以對(duì)權(quán)重進(jìn)行結(jié)構(gòu)化剪枝,即去除一整行或者一整列的數(shù)據(jù),保持權(quán)重整齊的結(jié)構(gòu),有利于硬件上進(jìn)行加速。

Huffman編碼是一種簡(jiǎn)潔無(wú)損壓縮的熵編碼,簡(jiǎn)單來(lái)講就是通過(guò)統(tǒng)計(jì)輸入數(shù)據(jù)的分布概率,然后重新使用字符來(lái)表達(dá)原始數(shù)據(jù)。用最少bit的字符來(lái)描述出現(xiàn)概率最大的原始數(shù)據(jù),這樣就可以得到一個(gè)最優(yōu)的壓縮比率。編碼可以提前進(jìn)行,F(xiàn)PGA部分主要是完成解碼。Huffman編碼的壓縮率對(duì)于矩陣數(shù)據(jù)壓縮率很高,唯一的問(wèn)題是解碼邏輯比較大,解碼效率比較低。這也是很少使用的原因。

卷積

CNN網(wǎng)絡(luò)用大量的卷積運(yùn)算來(lái)不斷提取圖像特征,使用了LSTM網(wǎng)絡(luò)的語(yǔ)音識(shí)別中也有很多包含了卷積處理。CNN中大部分是2D卷積運(yùn)算,語(yǔ)音識(shí)別中很多是1D卷積。通常在每一層卷積神經(jīng)網(wǎng)絡(luò)中含有多個(gè)輸入通道和輸出通道,本層輸出通道就是下層的輸入通道。每層的輸入通道都有一個(gè)卷積核,這些輸入通道會(huì)在卷積之后求和,得到一個(gè)輸出通道的結(jié)果。

當(dāng)我們采用脈動(dòng)陣列來(lái)實(shí)現(xiàn)卷積的時(shí)候,可以有以下幾種方式:

1) 卷積運(yùn)算->稀疏矩陣乘法

我們以一個(gè)1D卷積舉例,假設(shè)有個(gè)卷積核大小為3x1,輸入向量長(zhǎng)度為32。這個(gè)卷積用偽代碼表示為:

我們將卷積核擴(kuò)展為一個(gè)稀疏矩陣,就可以表達(dá)為矩陣向量:

這個(gè)卷積矩陣用圖像更清楚:藍(lán)色是有效數(shù)據(jù),白色是0。用這種方式很簡(jiǎn)單的就可以在脈動(dòng)陣列上進(jìn)行計(jì)算,只需要預(yù)先將卷積轉(zhuǎn)化為矩陣。但是這樣做的缺點(diǎn)就是需要浪費(fèi)很多存儲(chǔ)空間,同時(shí)對(duì)計(jì)算單元的利用率很低,除非卷積核維度比較大,否則如上卷積核和向量的維度比率,利用率只有3/32。

2) 利用輸入輸出通道,將卷積轉(zhuǎn)化為矩陣乘法和求和。

我們假設(shè)1D卷積核為k,輸入輸出通道分別為i和o。則卷積核表示為:K(o,i)

還假設(shè)它是3x1大小。輸入向量是x,假設(shè)它長(zhǎng)度是32,則某個(gè)輸入通道的向量就是:x(i)

我們看出這個(gè)是不是特別像矩陣x向量。如果我們把卷積核分解為三組矩陣,每個(gè)矩陣由卷積核對(duì)應(yīng)某個(gè)元素在i和o方向拓展得到,那么這樣一個(gè)卷積運(yùn)算就可以被我們轉(zhuǎn)化為矩陣x向量+矩陣x向量。假設(shè)這三組卷積核矩陣是K1(o,i),K2(o,i)和K3(o,i)。同時(shí)x按照每個(gè)通道的對(duì)應(yīng)元素展開(kāi)成一個(gè)輸入通道i的向量,X1(i), X2(i), …X32(i)。那么我們就可以算出輸出結(jié)果是(用第一個(gè)y的結(jié)果舉例):

3) 利用脈動(dòng)陣列結(jié)構(gòu),改動(dòng)控制邏輯,直接進(jìn)行卷積計(jì)算。

這個(gè)時(shí)候需要修改控制邏輯,讓矩陣乘法陣列可以進(jìn)行卷積計(jì)算。其實(shí)還可以在i和o的方向?qū)⒅醋骶仃嚕敲總€(gè)計(jì)算單元還存在內(nèi)部循環(huán)讀取卷積核數(shù)據(jù)。

總結(jié)

以上分別總結(jié)了矩陣乘法,卷積運(yùn)算在FPGA加速器上的實(shí)現(xiàn)方式。設(shè)計(jì)一款神經(jīng)網(wǎng)絡(luò)加速器是很多部門的通力合作,算法FPGA編譯器架構(gòu),往往一個(gè)方案對(duì)于某個(gè)部門簡(jiǎn)單,但是令另外一個(gè)部門痛苦。大家在不斷的“拉鋸扯皮”中,一個(gè)方案就出來(lái)了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1646

    文章

    22054

    瀏覽量

    618786
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    827

    瀏覽量

    39135
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103709
  • 張量
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    2643
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    MAX78002帶有低功耗卷積神經(jīng)網(wǎng)絡(luò)加速器的人工智能微控制技術(shù)手冊(cè)

    的Maxim超低功耗微控制相結(jié)合。通過(guò)這款基于硬件的卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器,即使是電池供電的應(yīng)用也可執(zhí)行AI推理,同時(shí)功耗僅為微焦耳級(jí)。
    的頭像 發(fā)表于 05-08 10:16 ?221次閱讀
    MAX78002帶有低功耗卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>加速器</b>的人工智能微控制<b class='flag-5'>器</b>技術(shù)手冊(cè)

    TPU處理的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學(xué)習(xí)應(yīng)用設(shè)計(jì)的硬件加速器。它的開(kāi)發(fā)源于對(duì)人工智能(AI)和機(jī)器學(xué)習(xí)應(yīng)用的需求,尤其是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 04-22 09:41 ?1495次閱讀
    TPU處理<b class='flag-5'>器</b>的特性和工作原理

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    發(fā)者能使用 NVIDIA GeForce RTX GPU 的 AI Tensor Cores,在游戲的圖形渲染管線內(nèi)加速神經(jīng)網(wǎng)絡(luò)渲染。
    的頭像 發(fā)表于 04-07 11:33 ?451次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    多層。 每一層都由若干個(gè)神經(jīng)元構(gòu)成,神經(jīng)元之間通過(guò)權(quán)重連接。信號(hào)在神經(jīng)網(wǎng)絡(luò)是前向傳播的,而誤差是反向傳播的。 卷積神經(jīng)網(wǎng)絡(luò)(CNN) :
    的頭像 發(fā)表于 02-12 15:53 ?676次閱讀

    BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)步驟詳解

    BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)步驟主要包括以下幾個(gè)階段:網(wǎng)絡(luò)初始化、前向傳播、誤差計(jì)算、反向傳播和權(quán)重更新。以下是對(duì)這些步驟的詳細(xì)解釋: 一、網(wǎng)絡(luò)初始化
    的頭像 發(fā)表于 02-12 15:50 ?650次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    神經(jīng)網(wǎng)絡(luò)(即反向傳播神經(jīng)網(wǎng)絡(luò))的核心,它建立在梯度下降法的基礎(chǔ)上,是一種適合于多層神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)算法。該算法通過(guò)計(jì)算每層網(wǎng)絡(luò)的誤差,并將這
    的頭像 發(fā)表于 02-12 15:18 ?778次閱讀

    深度學(xué)習(xí)入門:簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實(shí)現(xiàn)

    深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)。 神經(jīng)網(wǎng)絡(luò)由多個(gè)神經(jīng)元組成,
    的頭像 發(fā)表于 01-23 13:52 ?534次閱讀

    調(diào)理電路的噪聲余量計(jì)算如何計(jì)算

    調(diào)理電路的噪聲余量計(jì)算 請(qǐng)問(wèn)各位,在數(shù)據(jù)采集系統(tǒng),2Msps要達(dá)到12bit分辨率,選用14bit的ADC。前端調(diào)理電路的噪聲理論余量如何計(jì)算。根據(jù)什么條件確定前端調(diào)理放大器的噪聲指標(biāo)。。。比如調(diào)理電路的總噪聲不能夠超過(guò)多
    發(fā)表于 01-21 07:55

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法。在本文中,我們會(huì)介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工
    的頭像 發(fā)表于 01-09 10:24 ?1215次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    半導(dǎo)體所在光學(xué)張量處理領(lǐng)域取得新進(jìn)展

    在人工神經(jīng)網(wǎng)絡(luò),張量作為多維數(shù)組,在數(shù)據(jù)結(jié)構(gòu)扮演著核心角色。近年來(lái),隨著深度學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展和生成式人工智能技術(shù)的興起,神經(jīng)網(wǎng)絡(luò)模型的
    的頭像 發(fā)表于 01-08 11:38 ?404次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具和框架應(yīng)運(yùn)而生,為研究人員和開(kāi)發(fā)者提供了強(qiáng)大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?672次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    神經(jīng)網(wǎng)絡(luò),也稱為全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Networks,F(xiàn)CNs),其特點(diǎn)是每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。這種結(jié)構(gòu)簡(jiǎn)單直觀,但在
    的頭像 發(fā)表于 11-15 14:53 ?1885次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實(shí)現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    LSTM(長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴信息。在處理序列數(shù)據(jù)時(shí),如時(shí)間序列分析、自然語(yǔ)言處理等,LSTM因其能夠有效地捕捉時(shí)間序列的長(zhǎng)期依賴關(guān)系而受到
    的頭像 發(fā)表于 11-13 09:53 ?1594次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    Moku3.3版更新在Moku:Pro平臺(tái)新增了全新的儀器功能【神經(jīng)網(wǎng)絡(luò)】,使用戶能夠在Moku設(shè)備上部署實(shí)時(shí)機(jī)器學(xué)習(xí)算法,進(jìn)行快速、靈活的信號(hào)分析、去噪、傳感調(diào)節(jié)校準(zhǔn)、閉環(huán)反饋等應(yīng)用。如果您
    的頭像 發(fā)表于 11-01 08:06 ?669次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    FPGA在深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    、低功耗等特點(diǎn),逐漸成為深度神經(jīng)網(wǎng)絡(luò)在邊緣計(jì)算和設(shè)備端推理的重要硬件平臺(tái)。本文將詳細(xì)探討FPGA在深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,包括其優(yōu)勢(shì)、設(shè)計(jì)流程、關(guān)鍵技術(shù)以及實(shí)際應(yīng)用案例。
    的頭像 發(fā)表于 07-24 10:42 ?1224次閱讀