火热福利亚洲导航,超碰免费公开在线播放97,日韩猛少妇色猛叫加勒比

Vitis HLS 在從Vivaido HLS的升級換代中，以axi_master接口為起點(diǎn)的設(shè)計正在變得更易上手，其中很重要的一點(diǎn)就是更多的MAXI端口設(shè)計參數(shù)可以讓用戶通過指令傳達(dá)到。這些參數(shù)可以分為兩類： 靜態(tài)參數(shù)指標(biāo)：這些參數(shù)會影響內(nèi)存性能，可以在 C 綜合期間的編譯時從編譯的結(jié)果中很清楚地知道，突發(fā)讀寫地長度、數(shù)據(jù)端口寬度加寬、對齊等。
動態(tài)參數(shù)指標(biāo)：這些參數(shù)本質(zhì)上是動態(tài)的，取決于系統(tǒng)。例如，與 DDR/HBM 的通信效率在C綜合編譯時是未知的。本文給大家提供利用axi_master接口指令端的幾個靜態(tài)參數(shù)的優(yōu)化技巧，從擴(kuò)展總線接口數(shù)量，擴(kuò)展總線位寬，循環(huán)展開等角度入手。最核心的優(yōu)化思想就是以資源面積換取高帶寬的以便并行計算。
熟記這本文幾個關(guān)鍵的設(shè)計點(diǎn)，讓你的HLS內(nèi)核接口效率不再成為設(shè)計的瓶頸！

? 以上代碼在進(jìn)行了c綜合后，我們所有的指針變量都會依據(jù)指令的設(shè)置映射到axi-master上，但是因?yàn)楦鶕?jù)指令中所有的端口都綁定到了一條總線gmem上。所以在綜合的警告里面會提示：? ?

WARNING: [HLS 200-885] The II Violation in module 'example_Pipeline_VITIS_LOOP_55_1' (loop 'VITIS_LOOP_55_1'):Unable to schedule bus request operation ('gmem_load_1_req', example.cpp:56) on port 'gmem' (example.cpp:56) due to limited memory ports(II = 1). Please consider using a memory core with more ports or partitioning the array.

因?yàn)樵赼xi-master總線上最高只能支持一個讀入和一個寫出同時進(jìn)行，如果綁定到一條總線則無法同時從總線讀入兩個數(shù)據(jù)，所以最終的循環(huán)的II=2。解決這個問題的方法就是用面積換速度，我們實(shí)例化兩條axi總線gmem和gmem0，最終達(dá)到II=1。

? 當(dāng)總線數(shù)量滿足了我們并行讀入的要求后，讀取數(shù)據(jù)的位寬就成為了我們優(yōu)化的方向：? 因?yàn)樽x取的數(shù)據(jù)格式是int類型，所以這里的數(shù)據(jù)位寬就是32bit。 ?

? 為了能夠轉(zhuǎn)移數(shù)據(jù)傳輸瓶頸，在Vitis kernel target flow中，數(shù)據(jù)位寬在512bit的時候能夠達(dá)到最高的數(shù)據(jù)吞吐效率。在Vitis HLS 中的新增了 max_widen_bitwidth 選項來自動將較短的數(shù)據(jù)位寬拼接到設(shè)定的較長的數(shù)據(jù)位寬選項。在這里我們可以將位寬設(shè)置到512bit的位寬，但是同時要向編譯器說明，原數(shù)據(jù)位寬和指定的擴(kuò)展位寬成整數(shù)倍關(guān)系。這個操作很簡單，在數(shù)據(jù)讀取的循環(huán)邊界上，用(size/16)*16示意編譯器即可。 ?

? 擴(kuò)展位寬后的結(jié)果可以在綜合報告的接口部分看到數(shù)據(jù)位寬已經(jīng)從32位擴(kuò)展到512位。? ?

? 優(yōu)化到這一步我們的設(shè)計可以進(jìn)行大位寬的同步讀寫，但是發(fā)現(xiàn)循環(huán)的trip count還是執(zhí)行了1024次, 也就是說雖然位寬拓展到512后，還是一個循環(huán)周期計算一次32bit的累加。實(shí)際上512bit的數(shù)據(jù)位寬可以允許16個累加計算并行執(zhí)行。? ?

? 為了完成并行度的優(yōu)化，我們需要在循環(huán)中添加系數(shù)為16的unroll 指令，這樣就可以生成16個并行執(zhí)行累加計算的硬件模塊以及線程。? ?

? 在循環(huán)中并行執(zhí)行的累加操作，我們可以從schedule viewer中觀察到并行度，可以從bind_op窗口中觀察到operation實(shí)現(xiàn)所使用的硬件資源，可以從循環(huán)的trip_count 降低到了1024/16=64個周期，以及大大縮小的模塊的整個latency中得以證明。? ?

? 最后我們比較了一下并行執(zhí)行16個累加計算前后的綜合結(jié)果，可以發(fā)現(xiàn)由于有數(shù)據(jù)的按位讀寫拆分拼接等操作，整個模塊的延遲雖然沒有縮短為16分之一，但是縮短為5分之一也是性能的極大提升了。? ?

? 最后的最后，RTL級別的co-sim仿真才讓我們更加確信了數(shù)據(jù)的從兩個并行讀寫，循環(huán)執(zhí)行的周期減小至了64個時鐘周期。? ?

? 以上內(nèi)容是設(shè)計者在AXI總線接口中使用傳統(tǒng)的數(shù)據(jù)類型時，提升數(shù)據(jù)傳輸效率和帶寬的一攬子有效方法： ?第一，擴(kuò)展總線接口數(shù)量，以便并行讀寫。第二，擴(kuò)展總線位寬，增加讀寫帶寬。第三，循環(huán)展開，例化更多計算資源以便并行計算。 本文的優(yōu)化方式還是基于內(nèi)核設(shè)計本身的，下一篇文章，我們將使用Alveo板卡做一些突發(fā)傳輸?shù)膶?shí)驗(yàn)，深度定制傳輸需求，以真實(shí)仿真波形和測得的傳輸速度，從系統(tǒng)級別強(qiáng)化我們對于突發(fā)讀寫效率的認(rèn)知。審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴