一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在推斷更大的網(wǎng)絡(luò)時如何解決計算復(fù)雜性增加的問題

冬至子 ? 來源:OpenFPGA ? 作者:碎碎思 ? 2023-05-23 17:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低計算成本技術(shù)

首先,我們將討論如何降低計算成本本身。

量化

量化是權(quán)重或激活(每層的輸入和輸出)中比特的減少,通常在 fp32 中構(gòu)建。眾所周知,深度學(xué)習(xí)在推理過程中能夠以比訓(xùn)練過程更低的位精度進(jìn)行處理,盡管這取決于模型,但即使是 8 位定點數(shù)和位數(shù)更少的定點數(shù)也具有實用的精度。FPGA 與 1 位左右的低精度網(wǎng)絡(luò)特別兼容,因為可以使用 LUT 將卷積運(yùn)算替換為查找表。

修剪

修剪是在卷積層等使用的權(quán)重矩陣中,稀疏化(移至 0)足夠接近 0 的值的過程。足夠接近 0 的系數(shù)對卷積運(yùn)算的最終結(jié)果影響很小,因此將其設(shè)置為 0 不會顯著影響推理結(jié)果。在實踐中,我們會設(shè)置剪枝的閾值等參數(shù),給出測試模式,檢查允許的誤差范圍。

修剪主要應(yīng)用于兩個粒度。

  • 1、粗粒:每通道
  • 2、細(xì)粒度:單位因子

1 的粗粒度修剪只是簡單地刪除了通道,因此可以在不特別注意計算硬件的情況下提高速度。另一方面,2的細(xì)粒度修剪只會增加矩陣內(nèi)部0元素的數(shù)量,同時保持矩陣的大小不變。

在這里我們將限制在這個級別,但是還有其他方法可以減少計算量,例如拓?fù)湔{(diào)整可以減少模型本身的計算量。

FPGA 上優(yōu)化的 DNN 框架

GPU 上做深度學(xué)習(xí)時,無論前端選擇哪種框架,后端幾乎都是跑NVIDIA 優(yōu)化過的cuDNN 庫。cuDNN 庫經(jīng)過優(yōu)化,幾乎可以榨干 GPU 的峰值性能。出于這個原因,在不實現(xiàn)卷積等功能的情況下在后端使用這些庫是很常見的。

FPGA 也是如此,例如 Xilinx 提供了一個名為Vitis-AI的推理框架,而英特爾 FPGA 提供了OpenVINO 工具包。在本節(jié)中,根據(jù)DPU Vitis-AI 中用于邊緣設(shè)備

DPU

DPU是Deep Learning Processing Unit的縮寫,顧名思義就是深度學(xué)習(xí)的處理器。與我們目前創(chuàng)建的架構(gòu)不同,其中電路來處理每一層,DPU 實現(xiàn)了一個巨大的算術(shù)單元塊,并通過在算術(shù)單元塊上連續(xù)執(zhí)行每一層的處理來執(zhí)行推理過程。

DPU的硬件架構(gòu)如下圖所示。如圖所示,DPU 具有類似于普通處理器的架構(gòu),例如指令調(diào)度器。

image.png

DPU只支持8bit的量化網(wǎng)絡(luò),其量化工具在Vitis-AI(原DNNDK)中提供。

下面我們挑選 DPU 架構(gòu)中的一些有趣的點簡單說一下。

數(shù)據(jù)并行度提取

在上一篇文章中,我們提取了像素之間和輸出通道之間的 2 軸數(shù)據(jù)并行性以進(jìn)行加速。DPU 還提取輸入通道之間的數(shù)據(jù)并行性。

DPU 有幾種配置,可以根據(jù)要實現(xiàn)的芯片大小進(jìn)行更改,如下表所示。

image.png

性能最高的B4096架構(gòu)共有2048個算子,像素并行度8,輸入通道方向16個,輸出通道方向16個。雖然有 2048 個運(yùn)算單元,但總共是 4096 次運(yùn)算/時鐘,因為每個運(yùn)算單元同時執(zhí)行乘法和加法。

上次創(chuàng)建的架構(gòu)中,運(yùn)算次數(shù)最多的卷積層只有4*8=32個運(yùn)算單元,兩個卷積層加起來就有32+16=48個單元,性能簡直快了近40倍,區(qū)別蠻大的。

用于 DSPDDR(雙倍數(shù)據(jù)速率)

在 DPU 中,通過僅以雙倍工作頻率運(yùn)行 DSP 來提高性能,如下圖所示。每個周期可能的操作數(shù)翻了一番,從而使 DSP 的使用量減半。

image.png

DPU方面主要針對Zynq Ultrascale+,工作頻率為300~400 MHz。

所以DSP運(yùn)行在600-800 MHz范圍內(nèi),速度非常快。

特別是,這種時鐘分頻的優(yōu)化在像這次這樣用 HLS 開發(fā)時很難重現(xiàn),需要在 RTL 中進(jìn)行調(diào)整。

另外,在像 DPU 這樣的架構(gòu)中,每個周期持續(xù)向計算單元提供數(shù)據(jù)是一個問題,但我的印象是這也得到了很好的優(yōu)化。這是作者的經(jīng)驗,但是在對1K圖像進(jìn)行3×3卷積時,運(yùn)算單元能夠在90%以上的周期內(nèi)運(yùn)行(當(dāng)通道數(shù)是并行數(shù)的倍數(shù)時)。

由于很難創(chuàng)建優(yōu)化到這種程度的HLS,因此在 FPGA 上實際執(zhí)行深度學(xué)習(xí)時,在某些框架上執(zhí)行推理會更有效。但是,我認(rèn)為有些模式在現(xiàn)有框架上無法很好地處理,例如使用更優(yōu)化的架構(gòu)來切換每一層的量化位數(shù)。在這種情況下,可能需要構(gòu)建自己的硬件來處理數(shù)據(jù)。

總結(jié)

感謝您閱讀到這里。

在本系列教程中,我們專注于在 FPGA 上實際編寫代碼和執(zhí)行處理。說到FPGA開發(fā),大家可能會有這樣的印象,寫RTL很難,還得懂硬件。然而,就像我一開始創(chuàng)建的推理電路一樣,如果我不關(guān)心性能,我可以將高級綜合應(yīng)用于普通的 C 代碼并且它可以工作。此外,在隨后的加速中,我們主要通過簡單地添加 #pragma. 就能實現(xiàn) 400 倍的顯著速度提升。我認(rèn)為在創(chuàng)建DPU等優(yōu)化庫時仍然需要用RTL編寫,但如果目的是在短時間內(nèi)創(chuàng)建適度優(yōu)化的庫(像這次的HLS)如果使用它,則可以輕松開發(fā)一些應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19895

    瀏覽量

    235200
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22050

    瀏覽量

    618420
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    393

    瀏覽量

    24935
  • LUT
    LUT
    +關(guān)注

    關(guān)注

    0

    文章

    50

    瀏覽量

    12848
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    何解決汽車制造商多樣價值和復(fù)雜性成本的矛盾?

    何解決多樣價值和復(fù)雜性成本之間的矛盾,已成為當(dāng)今汽車制造商面臨的最大挑戰(zhàn)之一。電氣設(shè)計領(lǐng)域?qū)Υ烁惺茏钌睿驗椤半姎庀到y(tǒng)”幾乎受所有設(shè)計決策和客戶選擇的影響。
    發(fā)表于 07-18 10:33 ?1557次閱讀
    如<b class='flag-5'>何解</b>決汽車制造商多樣<b class='flag-5'>性</b>價值和<b class='flag-5'>復(fù)雜性</b>成本的矛盾?

    掌握5G測試的復(fù)雜性:越來越受到關(guān)注

    隨著蜂窩技術(shù)的發(fā)展,以大約10年的間隔,從3G到4G再到10G相隔10年,無線網(wǎng)絡(luò)的性能提升了10倍。這伴隨著測試復(fù)雜性更大增加。但是,隨著我們進(jìn)入2019年,最好暫停并反思該行業(yè)通過3G,4G
    發(fā)表于 03-09 11:51

    抑制嵌入式系統(tǒng)設(shè)計的復(fù)雜性解析

    抑制嵌入式系統(tǒng)設(shè)計的復(fù)雜性
    發(fā)表于 12-30 07:20

    嵌入式調(diào)試的復(fù)雜性分析

    高手談嵌入式調(diào)試的復(fù)雜性
    發(fā)表于 02-19 07:14

    如何用可重構(gòu)射頻前端簡化LTE設(shè)計復(fù)雜性

    如何用可重構(gòu)射頻前端簡化LTE設(shè)計復(fù)雜性?
    發(fā)表于 05-24 07:10

    免疫系統(tǒng)的主組織相容復(fù)雜性及其應(yīng)用

    模擬免疫系統(tǒng)的主組織相容復(fù)雜性的基礎(chǔ)上,結(jié)合模糊邏輯與擴(kuò)展陰性選擇算法提出了一個基于免疫系統(tǒng)主組織相容復(fù)雜性的模糊邏輯綜合決策算法,并用該算法構(gòu)建了一個實際
    發(fā)表于 05-28 11:01 ?8次下載

    基于構(gòu)件回歸測試的復(fù)雜性度量框架

    的軟件修改需求,維護(hù)者可以實施不同的修改手段.不同的修改手段會導(dǎo)致不同的回歸測試復(fù)雜性,這種復(fù)雜性是軟件維護(hù)成本和有效的重要因素.目前的研究沒有強(qiáng)調(diào)構(gòu)件軟件的回歸測試復(fù)雜性問題.基于
    發(fā)表于 01-19 16:41 ?0次下載

    計算用戶需要注意的一些主要趨勢

    隨著云計算復(fù)雜性的不斷增長,存儲管理人員需要找到一種簡單的方法。這就要求跨越云平臺、SaaS和本地部署的所有關(guān)鍵流程實現(xiàn)自動化和工作流程。因此,盡管云計算的部署量不斷增加,人們需要找到一種降低
    的頭像 發(fā)表于 02-07 10:18 ?4306次閱讀

    比爾蓋茨與喬布斯的共同特質(zhì):整合復(fù)雜性

    整合復(fù)雜性是指:發(fā)展和保持對立的特征、價值觀和思想,然后將它們整合成更大的特征、價值觀和思想的能力
    的頭像 發(fā)表于 07-06 14:26 ?4251次閱讀

    導(dǎo)致計算機(jī)程序的復(fù)雜性和多樣的算法

    在過去,很多巧妙的計算機(jī)算法設(shè)計,改變了我們的計算技術(shù)。通過操作標(biāo)準(zhǔn)計算機(jī)中提供的中間運(yùn)算符,可以產(chǎn)生很多的高效函數(shù)。這些函數(shù)導(dǎo)致了計算機(jī)程序的復(fù)雜
    的頭像 發(fā)表于 01-22 08:40 ?3857次閱讀

    大數(shù)據(jù)分析學(xué)習(xí)的挑戰(zhàn):復(fù)雜性、不確定性及涌現(xiàn)

    來源:ST社區(qū) 科多分享的大數(shù)據(jù)分析學(xué)習(xí)與研究的新挑戰(zhàn):對于習(xí)慣結(jié)構(gòu)化數(shù)據(jù)研究的統(tǒng)計學(xué)來說,大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。 挑戰(zhàn)來自何方?來自于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)三個方面,其中復(fù)雜性
    的頭像 發(fā)表于 11-17 10:19 ?3342次閱讀

    組合最優(yōu)化計算機(jī)算法和復(fù)雜性的PDF電子書免費(fèi)下載

    本書討論組合最優(yōu)化的計算機(jī)算法及其復(fù)雜性,是計算機(jī)和學(xué)的基礎(chǔ)理論之一。
    發(fā)表于 01-04 08:00 ?19次下載

    模型復(fù)雜性日益增加,AI優(yōu)化的硬件隨之出現(xiàn)

    人工智能(AI)模型的規(guī)模和復(fù)雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產(chǎn)品上市時間,提高性能,快速適應(yīng)不斷變化的形勢。模型復(fù)雜性日益增加
    的頭像 發(fā)表于 06-16 17:00 ?2644次閱讀

    駕馭軟件定義車輛的復(fù)雜性

    。 第一步是了解與大多數(shù)其他行業(yè)相比,汽車行業(yè)具有增加軟件復(fù)雜性的功能。 “軟件定義”的定義意味著大部分汽車功能現(xiàn)在由運(yùn)行在所需處理器、內(nèi)存和傳感器上的軟件應(yīng)用程序?qū)崿F(xiàn)。此外,大多數(shù)功能是由人機(jī)界面軟件中實現(xiàn)的好
    的頭像 發(fā)表于 07-14 17:42 ?1185次閱讀
    駕馭軟件定義車輛的<b class='flag-5'>復(fù)雜性</b>

    黑盒化技術(shù)簡化FPV計算復(fù)雜性

    當(dāng)一個模塊被黑盒化時,它的輸出被視為FPV設(shè)計的輸入,即它們可以取任何隨機(jī)值。部分模塊的黑盒化對FPV的性能有著非常巨大的影響,所以FPV證明的開始應(yīng)該盡量地考慮任何黑盒化的可能。
    的頭像 發(fā)表于 09-13 10:55 ?1352次閱讀