一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用xilinx的HLS工具進(jìn)行算法的硬件加速

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2022-06-02 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

本系列教程演示如何使用xilinxHLS工具進(jìn)行算法的硬件加速。分為三個(gè)部分,分別為HLSIP設(shè)計(jì),vivado硬件環(huán)境搭建,SDK端軟件控制。HLS端,要將進(jìn)行硬件加速的軟件算法轉(zhuǎn)換為RTL級電路,生成便于嵌入式使用的axi控制端口,進(jìn)行數(shù)據(jù)的傳輸和模塊的控制。

HLS介紹】

HLS可以將算法直接映射為RTL電路,實(shí)現(xiàn)了高層次綜合。vivado-HLS可以實(shí)現(xiàn)直接使用 C,C++ 以及 System C 語言對XilinxFPGA器件進(jìn)行編程。用戶無需手動(dòng)創(chuàng)建 RTL,通過高層次綜合生成HDL級的IP核,從而加速IP創(chuàng)建。HLS的官方參考文檔主要為:ug871ug871-vivado-high-level-synthesis-tutorial.pdf )和ug902ug902-vivado-high-level-synthesis.pdf)。 對于Vivado Hls來說,輸入包括Tesbench,C/C++源代碼和Directives,相應(yīng)的輸出為IP Catalog,DSPSysGen,特別的,一個(gè)工程只能有一個(gè)頂層函數(shù)用于綜和,這個(gè)頂層函數(shù)下面的子函數(shù)也是可以被綜合的,會(huì)生成相應(yīng)的VHDLVerilog代碼,所以,C綜合后的RTL代碼結(jié)構(gòu)通常是跟原始C描述的結(jié)構(gòu)是一致的,除非是子函數(shù)功能很簡單,所需要的邏輯量很小。并不是所有的C/C++都可以被綜合,動(dòng)態(tài)內(nèi)存分配和涉及到操作系統(tǒng)層面的操作不可以被綜合。Vivado HLS 的設(shè)計(jì)流程如下:

b090ef62-e20a-11ec-ba43-dac502259ad0.png

在整個(gè)流程中,用戶先創(chuàng)建一個(gè)設(shè)計(jì) C、C++ SystemC 源代碼,以及一個(gè)C的測試平臺(tái)。通過 Vivado HLS Synthesis 運(yùn)行設(shè)計(jì),生成 RTL 設(shè)計(jì),代碼可以是 Verilog,也可以是 VHDL。有了 RTL 后,隨即可以執(zhí)行設(shè)計(jì)的 Verilog VHDL 仿真,或使用工具的C封裝器技術(shù)創(chuàng)建 SystemC 版本。然后可以進(jìn)行System C架構(gòu)級仿真,進(jìn)一步根據(jù)之前創(chuàng)建的 C 測試平臺(tái),驗(yàn)證設(shè)計(jì)的架構(gòu)行為和功能。設(shè)計(jì)固化后,就可以通過 Vivado 設(shè)計(jì)套件的物理實(shí)現(xiàn)流程來運(yùn)行設(shè)計(jì),將設(shè)計(jì)編程到器件上,在硬件中運(yùn)行和/或使用 IP 封裝器將設(shè)計(jì)轉(zhuǎn)為可重用的 IP

Step 1: 新建一個(gè)工程

1,Creat New Project新建文檔,輸入工程名稱和工程路徑。完成后點(diǎn)擊Next

b0a26cd8-e20a-11ec-ba43-dac502259ad0.png

2,添加設(shè)計(jì)文件,并制定頂層函數(shù)。完成后點(diǎn)擊Next。

b0bcbe76-e20a-11ec-ba43-dac502259ad0.png

3,添加C語言仿真文件。完成后點(diǎn)擊Next

b0feeb98-e20a-11ec-ba43-dac502259ad0.png

4,:配置Solution Name,一般默認(rèn)即可。配置Clock Period,單位是ns。配置Uncertainty,默認(rèn)為空。選擇產(chǎn)品型號(hào)。完成后點(diǎn)擊Finish

b1522f56-e20a-11ec-ba43-dac502259ad0.png

5,工程新建成功后進(jìn)入的開發(fā)界面,HLS是典型的Eclipse界面,和SDK的界面十分相似。

b180db26-e20a-11ec-ba43-dac502259ad0.png

導(dǎo)入的文件的代碼如下:1,源文件。axi_interfaces.c
#include"axi_interfaces.h"void axi_interfaces (dout_t d_o[N], din_t d_i[N]) {inti,rem;// Store accumulated datastaticdacc_tacc[CHANNELS];axi_interfaces_label0:for (i=0;i
2,頭文件。axi_interfaces.h

		#ifndef AXI_INTERFACES_H_ #defineAXI_INTERFACES_H_ #include typedef int din_t; typedef int dout_t; typedefintdacc_t; #define CHANNELS 8 #define SAMPLES 4 #defineNCHANNELS*SAMPLES voidaxi_interfaces(dout_td_o[N],din_td_i[N]); #endif
		3,測試文件。axi_interfaces_test.c

		#include "axi_interfaces.h" int main () { // Create input data  din_t d_i[N] = {10, 20, 30, 40, 50, 60, 70, 80, 11, 21, 31, 41, 51, 61, 71, 81, 12, 22, 32, 42, 52, 62, 72, 82, 13, 23, 33, 43, 53, 63, 73, 83};  dout_t d_o[N]; int i, retval=0; FILE*fp; // Call the function to operate on the data axi_interfaces(d_o,d_i); // Save the results to a file fp=fopen("result.dat","w"); fprintf(fp, "Din Dout "); for(i=0;i  fprintf(fp, "%d %d ", d_i[i], d_o[i]); } fclose(fp); // Compare the results file with the golden results retval = system("diff --brief -w result.dat result.golden.dat"); if (retval != 0) { printf("Test failed !!! "); retval=1; } else { printf("Test passed ! "); } // Return 0 if the test passes  return retval; }
		4,測試數(shù)據(jù)。result.golden.dat

		Din Dout 10 10 20 20 30 30 40 40 50 50 60 60 70 70 80 80 11 21 21 41 31 61 41 81 51 101 61 121 71 141 81 161 12 33 22 63 32 93 42 123 52 153 62 183 72 213 82 243 13 46 23 86 33 126 43 166 53 206 63 246 73 286 83 326
		
		

Step 2: C源代碼驗(yàn)證

本步驟是對功能代碼的邏輯驗(yàn)證,相當(dāng)于功能前仿。1,測試程序的代碼入下圖。該程序先調(diào)用綜合的函數(shù),得到計(jì)算結(jié)果,再和預(yù)先的數(shù)據(jù)集進(jìn)行比較,最后返回計(jì)較的結(jié)果。計(jì)算結(jié)果和預(yù)先的數(shù)據(jù)集一致時(shí),測試通過,不一致時(shí),測試失敗。需要查看代碼,尋找錯(cuò)誤。

b1b44268-e20a-11ec-ba43-dac502259ad0.png

2,點(diǎn)擊紅框中的按鈕,開始C源代碼驗(yàn)證。

b1fc2c2c-e20a-11ec-ba43-dac502259ad0.png

3,驗(yàn)證的結(jié)果顯示在控制欄中。如圖顯示,測試通過。

b24dee86-e20a-11ec-ba43-dac502259ad0.png

4,在頭文件中,重定義了數(shù)據(jù)類型,參數(shù),并進(jìn)行了函數(shù)聲明。

b2751a1a-e20a-11ec-ba43-dac502259ad0.png

Step 3: 高層次綜合

本步驟是把功能代碼的綜合成RTL邏輯。1,點(diǎn)擊紅框中的按鈕,將C代碼綜合成RTL。綜合完成后,查看結(jié)果。

b29cde2e-e20a-11ec-ba43-dac502259ad0.png

2,綜合完成后,查看綜合報(bào)告。包括時(shí)序,延時(shí),資源占用,端口信息等。

b2d2ae14-e20a-11ec-ba43-dac502259ad0.png

b31cd0ac-e20a-11ec-ba43-dac502259ad0.png

3,端口分析。1)控制端口用于控制和顯示該模塊的工作狀態(tài)。各個(gè)端口的功功能如下,默認(rèn)情況下會(huì)生成下面四個(gè)控制端口。lap_startin):為高時(shí),該模塊開始處理數(shù)據(jù)。lap_doneout):為高時(shí),表示模塊處理數(shù)據(jù)完成。lap_idleout):表明模塊是否處于空閑態(tài)。高電平有效。為高時(shí),該處于空閑態(tài)。lap_readyout):為高時(shí),表示模塊可以接受新的數(shù)據(jù)。2)數(shù)據(jù)端口用于傳遞模塊的輸入輸出參數(shù)。參數(shù)d_o,d_i 為數(shù)組類型,故默認(rèn)狀態(tài)下回生成內(nèi)存接口。內(nèi)存接口 (數(shù)組類型參數(shù))數(shù)據(jù)來自外部的memory,通過地址信號(hào)讀取相應(yīng)的數(shù)據(jù),輸入到該模塊中。輸入數(shù)組從外部內(nèi)存中讀源數(shù)據(jù),輸出數(shù)組從向外部內(nèi)存寫入結(jié)果數(shù)據(jù)。各個(gè)端口的定義如下。laddress:地址信號(hào)lce0:片選信號(hào)lwe0:寫使能信號(hào)ld0 :數(shù)據(jù)信號(hào)4,綜合結(jié)果分析。在分析界面,可以看到模塊的運(yùn)行情況。包括數(shù)據(jù)依賴關(guān)系和各個(gè)周期執(zhí)行的操作,IO口的讀寫,內(nèi)存端口的訪問等等。

b3972c08-e20a-11ec-ba43-dac502259ad0.png

b3bd34de-e20a-11ec-ba43-dac502259ad0.png

Step 4: 綜合優(yōu)化

在使用高層次綜合,創(chuàng)造高質(zhì)量的RTL設(shè)計(jì)時(shí),一個(gè)重要部分就是對C代碼進(jìn)行優(yōu)化。Vivado HLS擁有自動(dòng)優(yōu)化的功能,試圖最小化loop(循環(huán))function(函數(shù))latency。除了自動(dòng)優(yōu)化,我們可以手動(dòng)進(jìn)行程序優(yōu)化,即用在不同的solution中添加不同的directive(優(yōu)化指令)的方法,進(jìn)行優(yōu)化和性能對比。其中,對同一個(gè)工程,可以建立多個(gè)不同的solution(解決方案),為不同的solution添加directive可以達(dá)到如下目的。優(yōu)化的類型可分為如下類別:l端口優(yōu)化。指定不同類型的模塊端口。l函數(shù)優(yōu)化。加快函數(shù)的執(zhí)行速度,減小執(zhí)行周期。l循壞優(yōu)化。利用展開和流水線形式,減小循環(huán)的執(zhí)行周期。1,點(diǎn)擊下面紅框的圖標(biāo),新建solution。

b3e41838-e20a-11ec-ba43-dac502259ad0.png

2,不同solution位于不同的文件夾中。

b45468e0-e20a-11ec-ba43-dac502259ad0.png

3,選中綜合文件??梢栽?/span>direct框中看可進(jìn)行優(yōu)化的標(biāo)簽。

b4cb14fe-e20a-11ec-ba43-dac502259ad0.png

4,雙擊選擇d_o,選擇interface,s_axilite。點(diǎn)擊ok。將d_o的端口類型設(shè)置為s_axilite類型。

b4f4f396-e20a-11ec-ba43-dac502259ad0.png

5,參考d_o,將d_i的接口類型也設(shè)置為s_axilite。將d_i的端口類型設(shè)置為s_axilite類型。

b52c65c4-e20a-11ec-ba43-dac502259ad0.png

6,雙擊選擇函數(shù)名稱axi_interface,選擇interface,s_axilite。點(diǎn)擊ok。將控制端口的端口類型設(shè)置為s_axilite類型。

b55029a0-e20a-11ec-ba43-dac502259ad0.png

7,雙擊循環(huán)標(biāo)簽,選擇流水線優(yōu)化(pipeline),點(diǎn)擊ok。

b5801700-e20a-11ec-ba43-dac502259ad0.png

8,雙擊循環(huán)標(biāo)簽,選擇循環(huán)展開優(yōu)化(unroll),點(diǎn)擊ok

b5b40d6c-e20a-11ec-ba43-dac502259ad0.png

9,同上,也將標(biāo)簽為for_loop的循環(huán)進(jìn)行流水線和展開優(yōu)化。10,最終的優(yōu)化情況總結(jié)如下。

b5e6b5be-e20a-11ec-ba43-dac502259ad0.png

11,重新進(jìn)行函數(shù)綜合,查看綜合報(bào)告如下。

b60a29fe-e20a-11ec-ba43-dac502259ad0.png

b61db410-e20a-11ec-ba43-dac502259ad0.png

12,分析。同未優(yōu)化相比,優(yōu)化過后的函數(shù)綜合后生成的模塊的運(yùn)行時(shí)鐘大大減小。端口的接口類型也變?yōu)榱?/span>axi_lite端口。但資源占用率有所增加,也體現(xiàn)了用資源換速度的設(shè)計(jì)理念。

b6490138-e20a-11ec-ba43-dac502259ad0.png

Step 5: 綜合結(jié)果文件

綜合完成后,在各個(gè)solutionsyn文件夾中可以看到綜合器生成的RTL代碼。包括systemc,VHDL,Verilog。

b6713a04-e20a-11ec-ba43-dac502259ad0.png

Step 6: 導(dǎo)出IP

在菜單里Solution>Export TL,設(shè)置如下,點(diǎn)擊ok。

b6e17abc-e20a-11ec-ba43-dac502259ad0.png

IP封裝完成后,會(huì)impl文件夾中輸出ip文件夾,其中包含了RTL代碼(hdl),模塊驅(qū)動(dòng)(drivers),文檔(doc)等信息,其中包含一個(gè)壓縮包文件,是用于建立vivado工程所用的IP壓縮包。

b7302ac2-e20a-11ec-ba43-dac502259ad0.png

Step 7: 總結(jié)

本文重點(diǎn)講解了hls軟件的使用方法和優(yōu)化方法,在C語言模塊設(shè)計(jì)上沒有重點(diǎn)講解。在掌握了hls軟件的基本用法和優(yōu)化方法后,接下來就可以設(shè)計(jì)更加復(fù)雜的C語言模塊,進(jìn)行rtl綜合,加快設(shè)計(jì)開發(fā)的速度。

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4709

    瀏覽量

    95348
  • Xilinx
    +關(guān)注

    關(guān)注

    73

    文章

    2185

    瀏覽量

    125284
  • Vivado
    +關(guān)注

    關(guān)注

    19

    文章

    835

    瀏覽量

    68737

原文標(biāo)題:Vivado-hls使用實(shí)例

文章出處:【微信號(hào):zhuyandz,微信公眾號(hào):FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號(hào)處理和計(jì)算密集型功能,實(shí)現(xiàn)對其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實(shí)現(xiàn)該算法時(shí),可以大大提高該
    的頭像 發(fā)表于 07-10 11:09 ?630次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b><b class='flag-5'>加速</b>實(shí)現(xiàn)

    如何使用AMD Vitis HLS創(chuàng)建HLS IP

    本文逐步演示了如何使用 AMD Vitis HLS 來創(chuàng)建一個(gè) HLS IP,通過 AXI4 接口從存儲(chǔ)器讀取數(shù)據(jù)、執(zhí)行簡單的數(shù)學(xué)運(yùn)算,然后將數(shù)據(jù)寫回存儲(chǔ)器。接著會(huì)在 AMD Vivado Design Suite 設(shè)計(jì)中使用此 HLS
    的頭像 發(fā)表于 06-13 09:50 ?642次閱讀
    如何使用AMD Vitis <b class='flag-5'>HLS</b>創(chuàng)建<b class='flag-5'>HLS</b> IP

    Vivado HLS設(shè)計(jì)流程

    為了盡快把新產(chǎn)品推向市場,數(shù)字系統(tǒng)的設(shè)計(jì)者需要考慮如何加速設(shè)計(jì)開發(fā)的周期。設(shè)計(jì)加速主要可以從“設(shè)計(jì)的重用”和“抽象層級的提升”這兩個(gè)方面來考慮。Xilinx 推出的 Vivado HLS
    的頭像 發(fā)表于 04-16 10:43 ?724次閱讀
    Vivado <b class='flag-5'>HLS</b>設(shè)計(jì)流程

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......

    降低。這種趨勢使得更多AI開發(fā)者能夠利用FPGA進(jìn)行硬件加速。 4.市場與產(chǎn)業(yè)的推動(dòng)? 市場規(guī)模增長:隨著5G、AI和物聯(lián)網(wǎng)等新興技術(shù)的快速發(fā)展,F(xiàn)PGA市場正在經(jīng)歷顯著增長。預(yù)計(jì)到2025年,中國
    發(fā)表于 03-03 11:21

    算法加速的概念、意義、流程和應(yīng)用

    運(yùn)算通常需要高并行度或?qū)iT邏輯。算法加速就是把這些計(jì)算密集、規(guī)律性高的部分從通用 CPU 中“提取”出來,交給一個(gè)專門設(shè)計(jì)的硬件模塊來完成。 類比:如果把 CPU 想象成一位“通才”工人,什么都能做但速度有限;那么
    的頭像 發(fā)表于 01-15 09:34 ?592次閱讀

    數(shù)據(jù)中心中的FPGA硬件加速

    ? 再來看一篇FPGA的綜述,我們都知道微軟包括國內(nèi)的云廠商其實(shí)都在數(shù)據(jù)中心的服務(wù)器中部署了FPGA,所以這篇論文就以數(shù)據(jù)中心的視角,來看下FPGA這個(gè)硬件加速器。 還是一樣,想要論文原文的可以私信
    的頭像 發(fā)表于 01-14 10:29 ?653次閱讀
    數(shù)據(jù)中心中的FPGA<b class='flag-5'>硬件加速</b>器

    支持5點(diǎn)手寫硬件加速視頻演示-VS680與智慧教室解決方案

    硬件
    深蕾半導(dǎo)體
    發(fā)布于 :2024年12月03日 16:01:19

    基于Xilinx XCKU115的半高PCIe x8 硬件加速

    基于Xilinx XCKU115的半高PCIe x8 硬件加速卡,支持2x72bit(數(shù)據(jù)位寬64bit+ECC)DDR4存儲(chǔ),數(shù)據(jù)傳輸速率 2400Mb/s。DDR4單簇容量4GB,兩組總?cè)萘繛?GB
    的頭像 發(fā)表于 11-14 11:30 ?788次閱讀
    基于<b class='flag-5'>Xilinx</b> XCKU115的半高PCIe x8 <b class='flag-5'>硬件加速</b>卡

    RISC-V跑AI算法加速嗎?

    現(xiàn)在好多ARM單片機(jī)都帶機(jī)器學(xué)習(xí)加速,RISC-V有這方面的硬件加速嗎?
    發(fā)表于 10-10 22:14

    基于 DSP5509 進(jìn)行數(shù)字圖像處理中 Sobel 算子邊緣檢測的硬件連接電路圖

    和 DSP5509 相匹配的接口電路,確保圖像數(shù)據(jù)的正確傳輸和顯示。常見的接口有 RGB、LVDS 等。 五、Sobel 算子計(jì)算模塊設(shè)計(jì) 硬件加速:可以考慮使用硬件加速器來加速 Sobel 算子的計(jì)算。例如,可以
    發(fā)表于 09-25 15:25

    TDA4VM上的硬件加速運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法

    電子發(fā)燒友網(wǎng)站提供《TDA4VM上的硬件加速運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法.pdf》資料免費(fèi)下載
    發(fā)表于 09-24 11:39 ?0次下載
    TDA4VM上的<b class='flag-5'>硬件加速</b>運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)<b class='flag-5'>算法</b>

    AM62A SoC通過硬件加速視覺處理改進(jìn)條形碼讀取器

    電子發(fā)燒友網(wǎng)站提供《AM62A SoC通過硬件加速視覺處理改進(jìn)條形碼讀取器.pdf》資料免費(fèi)下載
    發(fā)表于 09-04 09:52 ?0次下載
    AM62A SoC通過<b class='flag-5'>硬件加速</b>視覺處理改進(jìn)條形碼讀取器

    適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案

    電子發(fā)燒友網(wǎng)站提供《適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 09:38 ?0次下載
    適用于數(shù)據(jù)中心應(yīng)用中的<b class='flag-5'>硬件加速</b>器的直流/直流轉(zhuǎn)換器解決方案

    優(yōu)化 FPGA HLS 設(shè)計(jì)

    用的參考設(shè)計(jì)。該參考設(shè)計(jì)針對具有 Dual ARM? Cortex?-A9 MPCore? 的 FPGA。 我們使用 Xilinx HLS 工具來打開此設(shè)計(jì)。 它的時(shí)鐘周期為 5.00 ns,即
    發(fā)表于 08-16 19:56

    圖形圖像硬件加速器卡設(shè)計(jì)原理圖:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

    擴(kuò)展。軟件支持windows,Linux操作系統(tǒng)。Net FPGA , XC7VX690T板卡 , 軟件無線電處理平臺(tái) , 圖形圖像硬件加速
    的頭像 發(fā)表于 08-06 10:16 ?956次閱讀
    圖形圖像<b class='flag-5'>硬件加速</b>器卡設(shè)計(jì)原理圖:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡