五月99久久婷婷国产综合亚洲,香蕉久久久久久久久久久中文,亚洲欧洲日韩综合欧

本文介紹了 DNN 的工作原理，以及為什么 FPGA 在推理任務(wù)中越來越受歡迎。它繼續(xù)展示如何使用真實世界的演示在開發(fā)平臺上執(zhí)行 DNN 工作負(fù)載。

機器學(xué)習(xí)是使用算法解析數(shù)據(jù)，從中學(xué)習(xí)，然后做出決策或預(yù)測的過程。機器不是準(zhǔn)備程序代碼來完成任務(wù)，而是使用大量數(shù)據(jù)和算法進行“訓(xùn)練”，以自行執(zhí)行任務(wù)。

使用神經(jīng)網(wǎng)絡(luò)（NN）算法正在徹底改變機器學(xué)習(xí)，這些算法是我們大腦中發(fā)現(xiàn)的生物神經(jīng)元的數(shù)字模型。這些模型包含像大腦神經(jīng)元一樣連接的層。許多應(yīng)用受益于機器學(xué)習(xí)，包括圖像分類/識別、大數(shù)據(jù)模式檢測、ADAS、欺詐檢測、食品質(zhì)量保證和財務(wù)預(yù)測。

作為機器學(xué)習(xí)的算法，神經(jīng)網(wǎng)絡(luò)包括由多層組成的各種拓?fù)浜痛笮?第一層（“輸入層”），中間層（“隱藏層”）和最后一層（“輸出層”）。隱藏層對輸入執(zhí)行各種專用任務(wù)，并將其傳遞到下一層，直到在輸出層生成預(yù)測。

一些神經(jīng)網(wǎng)絡(luò)相對簡單，只有兩層或三層神經(jīng)元，而所謂的深度神經(jīng)網(wǎng)絡(luò)（DNN）可能包含多達1000層。為特定任務(wù)確定正確的 NN 拓?fù)浜痛笮⌒枰獙嶒灢⑴c類似網(wǎng)絡(luò)進行比較。

設(shè)計高性能機器學(xué)習(xí)應(yīng)用需要網(wǎng)絡(luò)優(yōu)化（通常使用修剪和量化技術(shù)）和計算加速（使用 ASIC 或 FPGA 執(zhí)行）。

在本文中，我們將討論 DNN 的工作原理、為什么 FPGA 在 DNN 推理中越來越受歡迎，并考慮使用 FPGA 開始設(shè)計和實現(xiàn)基于深度學(xué)習(xí)的應(yīng)用程序所需的工具［1］。

開發(fā) DNN 應(yīng)用程序的設(shè)計流程

設(shè)計 DNN 應(yīng)用程序的過程分為三個步驟。這些步驟是選擇正確的網(wǎng)絡(luò)，訓(xùn)練網(wǎng)絡(luò)，然后將新數(shù)據(jù)應(yīng)用于訓(xùn)練的模型進行預(yù)測（推理）。

如前所述，DNN 模型中有多個層，每個層都有一個特定的任務(wù)。在深度學(xué)習(xí)中，每一層都旨在提取不同級別的特征。例如，在邊緣檢測神經(jīng)網(wǎng)絡(luò)中，第一中間層檢測邊緣和曲線等特征。然后將第一中間層的輸出饋送到第二層，第二層負(fù)責(zé)檢測更高級別的特征，例如半圓形或正方形。第三層中間層組裝其他層的輸出以創(chuàng)建熟悉的對象，最后一層檢測對象。

在另一個例子中，如果我們開始識別停車標(biāo)志，訓(xùn)練好的系統(tǒng)將包括用于檢測八角形、顏色和字母“S”、“T”、“O”和“P”的層，這些順序是孤立的。輸出圖層將負(fù)責(zé)確定它是否為停車標(biāo)志。

DNN 學(xué)習(xí)模型

有四種主要的學(xué)習(xí)模型：

監(jiān)督：在此模型中，所有訓(xùn)練數(shù)據(jù)都被標(biāo)記。NN 將輸入數(shù)據(jù)分類為從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)的不同標(biāo)簽。

監(jiān)督：在無監(jiān)督學(xué)習(xí)中，深度學(xué)習(xí)模型被交給一個數(shù)據(jù)集，而沒有明確的說明如何處理它。訓(xùn)練數(shù)據(jù)集是沒有特定所需結(jié)果或正確答案的示例集合。然后，NN 嘗試通過提取有用的特征并分析其結(jié)構(gòu)來自動查找數(shù)據(jù)中的結(jié)構(gòu)。

半監(jiān)督：這包括一個訓(xùn)練數(shù)據(jù)集，其中包含標(biāo)記和未標(biāo)記的數(shù)據(jù)。當(dāng)難以從數(shù)據(jù)中提取相關(guān)特征時，此方法特別有用，并且標(biāo)記示例對專家來說是一項耗時的任務(wù)。

加固：這是獎勵網(wǎng)絡(luò)以獲得結(jié)果并提高性能的行為。這是一個迭代過程：反饋的輪次越多，網(wǎng)絡(luò)就越好。這種技術(shù)對于訓(xùn)練機器人特別有用，機器人在駕駛自動駕駛汽車或管理倉庫庫存等任務(wù)中做出一系列決策。

訓(xùn)練與推理

在訓(xùn)練中，未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)新功能。一旦訓(xùn)練好的模型準(zhǔn)備就緒，就會向其提供新數(shù)據(jù)并測量系統(tǒng)的性能。正確檢測圖像的比例稱為推理。

在圖 1 給出的示例（識別貓）中，輸入訓(xùn)練數(shù)據(jù)集后，DNN 開始調(diào)整權(quán)重以查找貓;其中權(quán)重是每個神經(jīng)元之間連接強度的量度。

如果結(jié)果錯誤，錯誤將被傳播回網(wǎng)絡(luò)層以修改權(quán)重。這個過程一次又一次地發(fā)生，直到獲得正確的權(quán)重，從而每次都得到正確的答案。

如何實現(xiàn)高性能 DNN 應(yīng)用程序

使用 DNN 進行分類需要一個大數(shù)據(jù)集，這提高了準(zhǔn)確性。但是，缺點是它為模型生成許多參數(shù)，這增加了計算成本并且需要高內(nèi)存帶寬。

有兩種主要方法可以優(yōu)化 DNN 應(yīng)用程序。第一種是通過修剪冗余連接、量化權(quán)重和融合神經(jīng)網(wǎng)絡(luò)來縮小網(wǎng)絡(luò)規(guī)模的網(wǎng)絡(luò)優(yōu)化。

修剪：這是 DNN 壓縮的一種形式。它減少了與其他神經(jīng)元的突觸連接數(shù)量，從而減少了數(shù)據(jù)總量。通常，刪除接近零的權(quán)重。這有助于消除冗余連接，而分類等任務(wù)的精度略有下降［2］。

量化：這樣做是為了將神經(jīng)網(wǎng)絡(luò)調(diào)整到合理的大小，同時實現(xiàn)高性能的準(zhǔn)確性。這對于邊緣應(yīng)用程序尤其重要，因為內(nèi)存大小和計算數(shù)量必然受到限制。在此類應(yīng)用中，為了獲得更好的性能，模型參數(shù)保存在本地存儲器中，以避免使用 PCIe 或其他互連接口進行耗時的傳輸。在該方法中，執(zhí)行通過低位寬度數(shù) （INT8）神經(jīng)網(wǎng)絡(luò)近似使用浮點數(shù) （FTP32）的神經(jīng)網(wǎng)絡(luò)的過程。這大大降低了使用神經(jīng)網(wǎng)絡(luò)的內(nèi)存需求和計算成本。通過量化模型，我們略微失去了精度和準(zhǔn)確性。但是，對于大多數(shù)應(yīng)用程序，不需要 32 位浮點數(shù)。

優(yōu)化 DNN 的第二種方法是使用 ASIC 或 FPGA 進行計算加速。其中，后一種選擇對機器學(xué)習(xí)應(yīng)用程序有很多好處。其中包括：

功率效率：FPGA 提供靈活且可定制的架構(gòu)，支持僅使用我們需要的計算資源。擁有用于 DNN 的低功耗系統(tǒng)在許多應(yīng)用中至關(guān)重要，例如 ADAS。

可重配置性：與ASIC相比，F(xiàn)PGA被認(rèn)為是原始的可編程硬件。此功能使它們易于使用并顯著縮短了上市時間。為了趕上日常發(fā)展的機器學(xué)習(xí)算法，能夠?qū)ο到y(tǒng)進行重新編程是非常有益的，而不是等待SoC和ASIC的漫長制造時間。

低延遲：與最快的片外存儲器相比，F(xiàn)PGA 內(nèi)部的塊 RAM 提供至少快 50 倍的數(shù)據(jù)傳輸速度。對于機器學(xué)習(xí)應(yīng)用程序來說，這是一個游戲規(guī)則的改變者，對于這些應(yīng)用程序來說，低延遲是必不可少的。

性能可移植性：您可以獲得下一代 FPGA 設(shè)備的所有優(yōu)勢，而無需任何代碼修改或回歸測試。

靈活性：FPGA 是原始硬件，可以針對任何架構(gòu)進行配置。沒有固定的架構(gòu)或數(shù)據(jù)路徑來束縛您。這種靈活性使FPGA能夠進行大規(guī)模并行處理，因為數(shù)據(jù)路徑可以隨時重新配置。這種靈活性還帶來了任意對任意的 I/O 連接功能。這使得 FPGA 能夠連接到任何設(shè)備、網(wǎng)絡(luò)或存儲設(shè)備，而無需主機 CPU。

功能安全：FPGA用戶可以在硬件中實現(xiàn)任何安全功能。根據(jù)應(yīng)用的不同，可以高效地進行編碼。FPGA 廣泛用于航空電子、自動化和安全性，這證明了這些設(shè)備的功能安全性，機器學(xué)習(xí)算法可以從中受益。

成本效益：FPGA是可重新配置的，應(yīng)用的上市時間相當(dāng)短。ASIC非常昂貴，如果沒有出現(xiàn)錯誤，制造時間需要6到12個月。這對于機器學(xué)習(xí)應(yīng)用程序來說是一個優(yōu)勢，因為成本非常重要，NN 算法每天都在發(fā)展。

現(xiàn)代 FPGA 通常在其結(jié)構(gòu)中提供一組豐富的 DSP 和 BRAM 資源，可用于 NN 處理。但是，與 DNN 的深度和層大小相比，這些資源已不足以進行完整和直接的映射;當(dāng)然不是像前幾代神經(jīng)網(wǎng)絡(luò)加速器那樣經(jīng)常這樣做。即使使用 Zynq MPSoC 等設(shè)備（即使是最大的設(shè)備也僅限于 2k DSP 切片，BRAM 總大小小于 10 MB），也無法將所有神經(jīng)元和權(quán)重直接映射到 FPGA 上。

那么，我們?nèi)绾卫肍PGA的能效、可重編程性、低延遲和其他特性進行深度學(xué)習(xí)呢？

需要新的 NN 算法和架構(gòu)修改，以便在內(nèi)存資源有限的平臺（如 FPGA）上實現(xiàn) DNN 的推理。

現(xiàn)代 DNN 將應(yīng)用程序劃分為較小的塊，由 FPGA 處理。由于FPGA中的片上存儲器不足以存儲網(wǎng)絡(luò)所需的所有權(quán)重，因此我們只需要存儲當(dāng)前階段的權(quán)重和參數(shù)，這些權(quán)重和參數(shù)是從外部存儲器（可能是DDR存儲器）加載的。

但是，在FPGA和存儲器之間來回傳輸數(shù)據(jù)將使延遲增加多達50倍。首先想到的是減少內(nèi)存數(shù)據(jù)。除了上面討論的網(wǎng)絡(luò)優(yōu)化（修剪和量化）之外，還有：

權(quán)重編碼：在FPGA中，可以無條件地選擇編碼格式。可能會有一些準(zhǔn)確性損失，但是與數(shù)據(jù)傳輸造成的延遲及其處理的復(fù)雜性相比，這可以忽略不計。權(quán)重編碼創(chuàng)建了二進制神經(jīng)網(wǎng)絡(luò)（BNN），其中權(quán)重減少到只有一位。這種方法減少了用于傳輸和存儲的數(shù)據(jù)量，以及計算的復(fù)雜性。但是，此方法僅導(dǎo)致具有固定輸入寬度的硬件乘法器的小幅減少。

批處理：在這種方法中，我們使用流水線方法將芯片上已有的權(quán)重重用于多個輸入。它還減少了從片外存儲器傳輸?shù)?FPGA 的數(shù)據(jù)量［5］。

在 FPGA 上設(shè)計和實現(xiàn) DNN 應(yīng)用

讓我們深入了解如何在 FPGA 上實現(xiàn) DNN。在此過程中，我們將利用最合適的商用解決方案來快速跟蹤應(yīng)用程序的開發(fā)。

例如，Aldec有一個名為TySOM-3A-ZU19EG的嵌入式開發(fā)板。除了各種外設(shè)外，它還搭載了賽靈思 Zynq UltraScale+ MPSoC 系列中最大的 FPGA，該器件擁有超過 100 萬個邏輯單元，包括一個運行頻率高達 1.5GHz 的四核 Arm Cortex-A53 處理器。

重要的是，就我們的目的而言，這款龐大的 MPSoC 還支持 Xilinx 的深度學(xué)習(xí)處理單元（DPU），該單元是該公司為機器學(xué)習(xí)開發(fā)人員創(chuàng)建的。

DPU 是專用于卷積神經(jīng)網(wǎng)絡(luò) （CNN）處理的可編程引擎。它旨在加速計算機視覺應(yīng)用（如圖像/視頻分類和對象跟蹤/偵測）中使用的 DNN 算法的計算工作負(fù)載。

DPU有一個特定的指令集，使其能夠有效地與許多CNN一起工作。與常規(guī)處理器一樣，DPU 獲取、解碼和執(zhí)行存儲在 DDR 內(nèi)存中的指令。該單元支持多個CNN，如VGG，ResNet，GoogLeNet，YOLO，SSD，MobileNet，F(xiàn)PN等［3］。

DPU IP 可以作為一個模塊集成到所選 Zynq-7000 SoC 和 Zynq? UltraScale?+ MPSoC 器件的可編程邏輯（PL）中，并直接連接到處理系統(tǒng) （PS）。

為了創(chuàng)建 DPU 指令，Xilinx 提供了深度神經(jīng)網(wǎng)絡(luò)開發(fā)套件（DNNDK）工具包。賽靈思表示：

DNNDK被設(shè)計為一個集成框架，旨在簡化和加速深度學(xué)習(xí)處理器單元（DPU）上的深度學(xué)習(xí)應(yīng)用程序開發(fā)和部署。DNNDK 是一個優(yōu)化的推理引擎，它使 DPU 的計算能力變得容易訪問。它為開發(fā)深度學(xué)習(xí)應(yīng)用程序提供了最好的簡單性和生產(chǎn)力，涵蓋了神經(jīng)網(wǎng)絡(luò)模型壓縮、編程、編譯和運行時啟用的各個階段［4］。

DNNDK 框架包括以下單元：

體面：執(zhí)行修剪和量化以滿足低延遲和高吞吐量

DNNC：將神經(jīng)網(wǎng)絡(luò)算法映射到 DPU 指令

DNNAS：將 DPU 指令組裝成 ELF 二進制代碼

N2立方體：充當(dāng) DNNDK 應(yīng)用程序的加載程序，并處理資源分配和 DPU 調(diào)度。其核心組件包括 DPU 驅(qū)動程序、DPU 加載器、示蹤器和用于應(yīng)用程序開發(fā)的編程 API。

分析器：由DPU示蹤劑和DSight組成。D 跟蹤器在 DPU 上運行 NN 時收集原始分析數(shù)據(jù)。DSight 使用此數(shù)據(jù)生成可視化圖表以進行性能分析。

探險家：提供 DPU 的運行模式配置、狀態(tài)檢查和代碼簽名檢查。

DDump：將信息轉(zhuǎn)儲到 DPU ELF、混合可執(zhí)行文件或 DPU 共享庫中。它加快了用戶的調(diào)試和分析速度。

這些適合圖 2 所示的流程。

圖2.上述深度神經(jīng)網(wǎng)絡(luò)開發(fā)工具包（DNNK）框架使開發(fā)人員能夠更輕松地完成基于 FPGA 的機器學(xué)習(xí)項目的設(shè)計過程。

使用 DNNDK 使開發(fā)人員設(shè)計基于 FPGA 的機器學(xué)習(xí)項目的過程變得更加容易;此外，像Aldec的TySOM-3A-ZU19EG板這樣的平臺也提供了一個寶貴的啟動。例如，Aldec 準(zhǔn)備了一些針對電路板的示例，包括手勢檢測、行人檢測、分段和交通檢測，這意味著開發(fā)人員不會從一張白紙開始。

讓我們考慮一下今年早些時候在Arm TechCon上展示的一個演示。這是一個使用TySOM-3A-ZU19EG和FMC-ADAS子卡構(gòu)建的交通檢測演示，該子卡為5倍高速數(shù)據(jù)（HSD）攝像頭、雷達、激光雷達和超聲波傳感器提供接口和外設(shè)，這些傳感器是大多數(shù)ADAS應(yīng)用的感官輸入。

圖 3 顯示了演示的體系結(jié)構(gòu)。FPGA 中實現(xiàn)的兩個 DPU 通過 AXI HP 端口連接到處理單元，以執(zhí)行深度學(xué)習(xí)推理任務(wù)，例如圖像分類、對象檢測和語義分割。DPU 需要指令來實現(xiàn)神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)由 DNNC 和 DNNAS 工具準(zhǔn)備。他們還需要訪問輸入視頻和輸出數(shù)據(jù)的內(nèi)存位置。

圖3.流量檢測演示具有 5 個視頻輸入管道，用于數(shù)據(jù)打包、AXI4 到 AXI 流數(shù)據(jù)傳輸、色彩空間轉(zhuǎn)換（YUV2RGB）以及將視頻發(fā)送到內(nèi)存。

應(yīng)用程序在應(yīng)用程序處理單元（APU）上運行，通過管理中斷和在單元之間執(zhí)行數(shù)據(jù)傳輸來控制系統(tǒng)。DPU 和用戶應(yīng)用程序之間的連接是通過 DPU API 和 Linux 驅(qū)動程序?qū)崿F(xiàn)的。有一些功能可以將新圖像/視頻讀取到 DPU、運行處理并將輸出發(fā)送回用戶應(yīng)用程序。

模型的開發(fā)和訓(xùn)練是在FPGA之外使用Caffe完成的，而優(yōu)化和編譯是使用作為DNNDK工具包的一部分提供的DECENT和DNNC單元完成的（圖2）。在此設(shè)計中，SSD 對象檢測 CNN 用于背景、行人和車輛檢測。

在性能方面，使用四個輸入通道實現(xiàn)了45 fps，展示了使用TySOM-3A-ZU19EG和DNNDK工具包的高性能深度學(xué)習(xí)應(yīng)用。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1645

文章
22034

瀏覽量
617920
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8501

瀏覽量
134537

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

如何為基于FPGA的邊緣設(shè)備開發(fā)高性能深度神經(jīng)網(wǎng)絡(luò)對象檢測/識別應(yīng)用

評論