FOR循環(huán)優(yōu)化

基本概念

從下面的例子中來(lái)解釋for循環(huán)中的基本概念：

圖 4.1 for循環(huán)基本概念

由于N等于3，因此每次循環(huán)可以分成4個(gè)步驟來(lái)完成：

c0：讀取數(shù)據(jù)b和c；

c1：獲取數(shù)據(jù)xin 0處地址；

c2：讀取對(duì)應(yīng)地址上的數(shù)據(jù)；

c3：計(jì)算yo[0]的值。

后面的計(jì)算都是三個(gè)時(shí)鐘周期計(jì)算出一個(gè)值，因此對(duì)一次循環(huán)來(lái)說(shuō)，Loop Iteration Latency為3，Loop Iteration Interval也是3，Loop Latency是9，再加上前面讀b和c的值的一個(gè)周期，整個(gè)函數(shù)的Latency是10，函數(shù)間的Initial Interval是11.

Pipeline

對(duì)for循環(huán)常用的優(yōu)化是pipeline，pipeline的原理如下圖4.2所示。

圖 4.2 pipeline優(yōu)化原理

在優(yōu)化結(jié)束后，Loop Iteration Latency為3，Loop Iteration Interval變成1，Loop Latency為5.

如果對(duì)函數(shù)做pipeline，那么會(huì)自動(dòng)把函數(shù)下面的for循環(huán)都做unrolling處理；如果對(duì)外層的for循環(huán)做pipeline，那么會(huì)自動(dòng)對(duì)內(nèi)層的for循環(huán)做unrolling處理。

Unrolling

默認(rèn)情況下for循環(huán)是折疊的，就是電路被時(shí)分復(fù)用。當(dāng)展開(kāi)后，資源增加。如下圖所示將for循環(huán)展開(kāi)成3倍的情況，資源也擴(kuò)大了3倍。

圖 4.3 展開(kāi)成3倍

也可以部分展開(kāi)，循環(huán)次數(shù)為6，但展開(kāi)成3倍，程序如下所示：

展開(kāi)后，程序被分成3部分，資源也復(fù)制了3份。

圖 4.4 Unroll的設(shè)置

Merge

當(dāng)幾個(gè)for循環(huán)執(zhí)行的內(nèi)容很相似時(shí)，如下面的程序所示：

兩個(gè)for循環(huán)分別對(duì)兩個(gè)數(shù)據(jù)做加法和減法，在HLS綜合后，會(huì)先進(jìn)行第一個(gè)for循環(huán)的計(jì)算，完成后再進(jìn)行第二個(gè)for循環(huán)的計(jì)算。這樣綜合出的Latency為18，Interval為19。

圖 4.5 綜合后延遲

在HLS中提供了Merge的選項(xiàng)，合并的是for所作用的region，合并后綜合后的延遲如下圖4.6所示。

圖 4.6 Merge后的延遲

上面的例子中兩個(gè)循環(huán)的邊界相同，如果兩個(gè)循環(huán)的邊界不同，則以最大的作為合并后的邊界；如果一個(gè)邊界是變量，另一個(gè)是常量，則不能合并；如果兩個(gè)循環(huán)邊界都是變量，依然不能合并。

還可以將for循環(huán)封裝成一個(gè)函數(shù)，并在上一層中例化兩次，并對(duì)函數(shù)采用Allocation來(lái)使函數(shù)并行執(zhí)行，在allocation中有l(wèi)imit選項(xiàng)，可以指定實(shí)例化的次數(shù)，該數(shù)據(jù)與程序中實(shí)際的數(shù)值應(yīng)該是一樣的。

數(shù)據(jù)流

在下面的例子中，Task B依賴于Task A，Task C依賴于Task B，如圖4.7所示。

而且可以分析出，該結(jié)構(gòu)不適合之前所講的pipeline和merge方式進(jìn)行處理，在可以使用dataflow的方式。

從圖中可以看出，在使用DataFlow后，Loop B無(wú)需等待A執(zhí)行完成后才開(kāi)始執(zhí)行，而且各個(gè)Loop之間也村在間隔。且延遲和資源都明顯減少。

DataFlow使用的限制：

1.一個(gè)輸出在多個(gè)Loop模塊中使用

2.被Bypass的模塊

3.帶反饋的模塊

4.帶條件的模塊

5.可變循環(huán)邊界的模塊

6.多個(gè)退出條件的模塊

下面分別對(duì)上面的限制條件進(jìn)行說(shuō)明。

1.din在Loop1中輸出的temp1同時(shí)賦給Loop2和Loop3使用，這時(shí)是不能使用dataflow的，如圖4.10所示。

通過(guò)對(duì)代碼進(jìn)行適當(dāng)?shù)男薷模瑢⑵浣Y(jié)構(gòu)進(jìn)行變形，增加一個(gè)Loop_copy模塊，將其輸出一個(gè)送個(gè)Loop2，另一個(gè)輸出送給Loop3，但其實(shí)這兩個(gè)輸出的結(jié)果是相同的。就可以使用DataFlow來(lái)完成該函數(shù)。

且使用了DateFlow后，工程所占用的資源和延遲都相應(yīng)減少。

被Bypass的模塊

如下圖4.12所示的例子中，temp1在Loop2中使用，但temp2沒(méi)有經(jīng)過(guò)Loop2，直接在Loop3中使用，這種情況下也是不能使用DataFlow的。

同樣的，可以對(duì)代碼進(jìn)行優(yōu)化以達(dá)到可以使用DataFlow的目的，如下圖4.13所示。在Loop2中，增加一個(gè)輸出端口，使其輸出給Loop3，這樣就可以使用DataFlow了。

在DataFlow的循環(huán)之間的存儲(chǔ)模塊，對(duì)于scalar、pointer和reference或者函數(shù)的返回值，HLS會(huì)綜合為FIFO；對(duì)于數(shù)組，結(jié)果可能是乒乓RAM或者FIFO：如果HLS可以判斷數(shù)據(jù)是流模式，就會(huì)綜合為FIFO，且深度為1，若不能判斷，就會(huì)綜合為乒乓RAM。我們也可以指定為FIFO或者乒乓RAM，但在指定為FIFO時(shí)，如果指定的深度不合適，綜合時(shí)就會(huì)出現(xiàn)錯(cuò)誤。

嵌套for循環(huán)

三種嵌套循環(huán)：

對(duì)于Perfect Loop，對(duì)外邊的Loop做流水比對(duì)內(nèi)循環(huán)做流水更加節(jié)省時(shí)間。

對(duì)于Imperfect Loop，我們總希望可以轉(zhuǎn)換為Perfect Loop或者Semi-Perfect Loop。如下的Imperfect Loop，如果對(duì)內(nèi)層Product做流水，綜合結(jié)果如右側(cè)的圖所示。

如果對(duì)第二層即col的Loop做流水，則會(huì)提示信息，col下的循環(huán)會(huì)被展開(kāi)。

從圖中的warning可以看出，a被綜合為一個(gè)雙端口的RAM，但第14行和第20行對(duì)a的操作有一個(gè)重疊的區(qū)域，意味著吞吐率受限。

如果對(duì)最外部的循環(huán)做流水，會(huì)把下面所有的循環(huán)都展開(kāi)，延遲會(huì)減少，但資源會(huì)增加。

如果對(duì)整個(gè)函數(shù)做流水，那么函數(shù)下面的所有循環(huán)都會(huì)展開(kāi)，能獲得最好的Latency，但資源也是最多的。

我們可以對(duì)代碼就行優(yōu)化，具體代碼具體優(yōu)化。

Rewind

我們?cè)谑褂昧藀ipeline后，循環(huán)之間仍然會(huì)有間隔，但使用rewind功能，可以消除該間隔，如下圖所示。

圖 4.16 rewind功能

但當(dāng)函數(shù)中有多個(gè)循環(huán)時(shí)，rewind不能使用。

自動(dòng)添加流水

在config_compile中，可以設(shè)置自動(dòng)添加流水操作，如果循環(huán)次數(shù)小于我們?cè)O(shè)定的pipeline loops時(shí)，HLS就會(huì)自動(dòng)為for循環(huán)添加流水。

在使用config_compile后，如果不想對(duì)某些for循環(huán)做流水，就可以在pipeline下面的選項(xiàng)中選中disable Loop pipeline。

變量邊界的解決方法

當(dāng)循環(huán)邊界為變量時(shí)，通?？梢圆捎孟旅娴姆绞竭M(jìn)行處理。

使用tripcount directive；
對(duì)于邊界變量的定義使用ap_int;
在C代碼中使用assert宏。

Tripcount directive不會(huì)對(duì)綜合有任何的影響，它只會(huì)對(duì)報(bào)告的顯示有影響。

使用ap_int和assert方法后，綜合后的資源會(huì)有明顯的減少。采用assert的方式的資源和延遲是最少的。

inline是針對(duì)函數(shù)，flatten是針對(duì)嵌套的循環(huán)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4380

瀏覽量
64844
HLS

HLS

+關(guān)注

關(guān)注
1

文章
133

瀏覽量
24853
for循環(huán)

for循環(huán)

+關(guān)注

關(guān)注
0

文章
61

瀏覽量
2721

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

HLS for循環(huán)優(yōu)化