一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用OpenCL for FPGA設計200萬點頻域濾波器

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:嵌入式計算設計 ? 2022-06-09 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

考慮在當前 FPGA 架構上創(chuàng)建一個支持 100 萬到 1600 萬個點的頻域濾波器,采樣率從每秒 1.2 億到 2.4 億個樣本。該示例著眼于使用 OpenCL 的 200 萬點單精度頻域濾波器的設計決策選項。

這種濾波器使用數(shù)百萬點一維 (1D) FFT 將其輸入轉換為頻域,將每個頻率和相位分量乘以一個單獨的用戶提供的值,然后將結果轉換回時域快速傅里葉變換。整個系統(tǒng)的總體目標性能要求是每秒 1.5 億個樣本 (MSPS),在具有兩個 DDR3 外部存儲器組的當前一代 FPGA 上實現(xiàn) 200 萬點的樣本大小。輸入和輸出通過 10 Gb 以太網(wǎng) (GbE) 直接進入 FPGA。

該設計使用面向具有 Stratix V GSD8 FPGA 的 BittWare S5-PCIe-HQ 板的 Altera SDK for OpenCL FPGA 編譯器。使用 OpenCL 而不是低級語言有兩個原因:

第一個原因是設計數(shù)百萬點濾波器需要構建復雜但高效的外部存儲系統(tǒng)。使用較低級別的設計工具,創(chuàng)建單個塊,例如片上 FFT 或拐角轉角相對容易(特別是因為每個 FPGA 供應商都已經(jīng)提供了包含此類塊的庫)。然而,創(chuàng)建外部存儲器系統(tǒng)通常需要大量的 HDL 工作。正如我們稍后會看到的,這種情況可能特別具有挑戰(zhàn)性,因為整個系統(tǒng)的配置在一開始是未知的。

選擇 OpenCL 的第二個原因是對 FPGA 邏輯的主機級控制。對于這個設計,從一開始就很明顯,兩個完整副本的數(shù)百萬點 FFT 內(nèi)核無法容納在單個設備上,因此單個數(shù)據(jù)集必須至少通過 FPGA 邏輯兩次才能產(chǎn)生最終輸出。協(xié)調(diào)這種共享,同時允許動態(tài)改變數(shù)據(jù)集大小、乘法系數(shù),甚至完全改變 FPGA 功能以實現(xiàn)其他功能,最好留給 CPU。

使用面向 FPGA 的 OpenCL 編譯器解決了這兩個挑戰(zhàn),因為它構建了一個定制的高效外部存儲器系統(tǒng),同時允許對 FPGA 邏輯進行細粒度控制。

片上 FFT

對于這個設計,假設我們已經(jīng)有一個 FFT 內(nèi)核,可以處理完全適合 FPGA 的數(shù)據(jù)大?。ǚQ為“片上 FFT”),因為每個 FPGA 供應商都提供這樣的內(nèi)核。這樣的核心至少可以通過以下方式參數(shù)化:

數(shù)據(jù)類型(固定或單精度浮點)

要處理的點數(shù) (N)

并行處理的點數(shù) (POINTS)

動態(tài)支持更改要處理的點數(shù)

給定這樣一個片上 FFT 核,構建整個系統(tǒng)需要兩個步驟:首先,構建一個可以處理數(shù)百萬點的 FFT 核,其次,將兩個這樣的核拼接在一起,并在它們之間進行復雜的乘法運算以創(chuàng)建整個系統(tǒng)。

數(shù)百萬點 FFT

使用外部存儲實現(xiàn) FFT 的經(jīng)典方法是圖 1 所示的六步算法,該算法將單個一維數(shù)據(jù)集視為二維 (2M = 2K x 1K)[1]。

圖 1:六步 FFT 算法的邏輯視圖。

pYYBAGKhrbGAWKhjAAJJ6ZWS2ow750.png

六步算法顯示了單獨的計算內(nèi)核和外部內(nèi)存緩沖區(qū)?!癋etch”內(nèi)核從外部存儲器讀取數(shù)據(jù),可選擇轉置,并將其輸出到通道(在 OpenCL 2.0 命名法中也稱為“管道”)。在硬件中,通道被實現(xiàn)為具有編譯器計算深度的 FIFO。“片上 1D FFT”是未經(jīng)修改的供應商的 FFT 內(nèi)核,使用通道獲取輸入并產(chǎn)生位反轉輸出。“轉置”總是轉置從其輸入通道讀取的數(shù)據(jù),可選擇將其乘以特殊的旋轉因子,并以自然順序?qū)⑤敵鰧懭胪獠看鎯ζ鳌?/p>

如圖所示,數(shù)據(jù)通過 Fetch ? 1D FFT ? Transpose (F1T) 管道發(fā)送兩次以產(chǎn)生最終輸出。這為我們提供了第一個重要的設計選擇:要么擁有一個 F1T 管道副本以節(jié)省空間,要么擁有兩個副本以獲得更高的吞吐量。

該算法的初始原型設計是在模擬器中完成的,以確保轉置和旋轉因子的地址操作是正確的。仿真器將 OpenCL 內(nèi)核編譯為 x86-64 二進制代碼,可以在沒有 FPGA 的開發(fā)機器上運行。從模擬器到硬件編譯是一個輕松的步驟,因為模擬器中功能正確的代碼變成了硬件中功能正確的代碼,因此不需要模擬。

出于性能和面積原因,唯一需要修改的是 Fetch 和 Transpose 內(nèi)核使用的本地內(nèi)存系統(tǒng)。高效的轉置需要緩沖POINTS本地內(nèi)存中的列/行數(shù)據(jù)。OpenCL 編譯器分析 OpenCL 代碼中對本地存儲器的所有訪問,并創(chuàng)建針對該代碼優(yōu)化的自定義片上存儲器系統(tǒng)。在 POINTS=4 的情況下,原始轉置內(nèi)核有四次寫入和四次讀取。一個雙泵的片上 RAM 塊最多可以服務四個單獨的請求,其中最多兩個是寫入。為了支持四寫四讀,片上存儲器需要同時復制并包含請求仲裁邏輯,這會導致區(qū)域膨脹和性能損失。但是,可以更改寫入模式以使所有四個寫入連續(xù)。OpenCL 編譯器將這四次寫入分組為一次寬寫入,只提供對本地內(nèi)存系統(tǒng)的五次訪問:一次寫入和四次讀取。有了這樣的改變,

將設計編譯到硬件后,就可以測量性能了。使用 FPGA 上的 F1T 流水線的單個副本,我們測量了 217 MSPS,POINTS=4 和 457 MSPS,POINTS=8,對于 400 萬-點 FFT[2]。POINTS=8 版本使用了兩倍的片上 Block RAM,并且此配置中的兩個副本不適合。這為我們提供了第一個要探索的設計維度——并行處理的點數(shù)與面積。

全過濾設計

現(xiàn)在我們有了數(shù)百萬點的 FFT,我們準備將整個設計放在一起。只需拼接兩個片外 FFT,我們就可以得到圖 2 中整個流水線的邏輯視圖。

圖 2:為簡潔起見,完整過濾器系統(tǒng)的此邏輯視圖顯示 F1T 管道表示為單個塊。

poYBAGKhrbqAeTMFAAIWicPJeQI958.png

除了復制單個片外 FFT 計算流水線外,系統(tǒng)還添加了以下部分:

頻域中的復數(shù)乘法被吸收到第三個 F1T 塊中。coef緩沖區(qū)保存著兩百萬個復數(shù)乘法系數(shù)。

添加了 I/O 輸入和 I/O 輸出內(nèi)核,以真實地模擬外部存儲器上 10 GbE 通道的額外負載。使用這些內(nèi)核,我們可以繼續(xù)純粹基于軟件的開發(fā),并在核心計算管道完全優(yōu)化之前離開以太網(wǎng)通道集成。內(nèi)核中的 I/O 每個時鐘周期生成一個樣本,而 I/O 輸出每個時鐘周期消耗一個樣本。

正如片外 FFT 的實驗所示,我們只能擬合兩個 F1T 塊,并且只能使用 POINTS=4。因此,數(shù)據(jù)必須通過硬件兩次才能進行完整計算。這使我們的 200 萬個點的整體系統(tǒng)吞吐量僅為 120 MSPS,低于我們 150 MSPS 的目標。但是,通過將數(shù)據(jù)大小減少到 100 萬個點,我們能夠擬合 POINTS=8 的版本并獲得 198 MSPS 的吞吐量。這表明,只要我們能制作一個適合 200 萬個點的 POINTS=8 版本,性能還是有的。

選擇圖 2 中完整流水線的優(yōu)化結構是整個設計過程的下一步。我們可以做的第一個改進是刪除tmp3緩沖區(qū)。雙方以相同的方式訪問它(轉置寫入和讀?。?,因此第二個和第三個 F1T 塊可以通過通道直接連接。這需要讓 Transpose 內(nèi)核將其輸出寫入外部存儲器或?qū)懭胪ǖ?,并?Fetch 進行類似的更改。這種變化是由主機動態(tài)控制的,因此可以使用單個物理 Fetch 實例。請注意,這會改變我們與外部存儲器的連接,但我們完全不必擔心這一點,因為 OpenCL 編譯器總是為我們的系統(tǒng)生成高效的自定義外部存儲器互連。

進一步的改進是將第二個轉置“T”從寫入tmp1移動到從tmp1讀?。╰mp1中的數(shù)據(jù)存儲方式不同,但最終效果相同)。這消除了對轉置使用的一個本地內(nèi)存緩沖區(qū)的需要。盡管這種改變并不難實施,但我們決定放棄它以代替更激進的想法。

我們最初的轉置實現(xiàn)分兩個階段完成:

首先將所有需要的數(shù)據(jù)加載到本地內(nèi)存中,然后使用轉置地址從本地內(nèi)存中讀取。為了有效利用這樣的管道,OpenCL 編譯器會自動對本地內(nèi)存系統(tǒng)進行雙緩沖。這樣,管道的加載部分可以將數(shù)據(jù)加載到一個副本中,而讀取部分可以從另一個副本中讀取先前的數(shù)據(jù)集。

這種自動雙緩沖對我們的轉置算法來說是正確的,但它很昂貴。相反,我們將轉置內(nèi)核重寫為就地。這樣的內(nèi)核只需要一個緩沖區(qū),并且支持同時讀取和寫入多個數(shù)據(jù)點(但是關于這個轉置內(nèi)核我們將在另一時間詳細描述)。

通過這些更改,我們能夠在 POINTS=8 配置中安裝 200 萬點 FFT,并實現(xiàn) 164 MSPS 吞吐量。

調(diào)度

只有兩個 F1T 副本可以容納,但圖 3 顯示了如何安排數(shù)據(jù)流以充分利用管道。請注意,在穩(wěn)定狀態(tài)下,管道會在一次處理兩個和三個數(shù)據(jù)集之間交替,而無需額外的緩沖區(qū)。此調(diào)度由在 CPU 上運行的主機程序控制,并使用 Dynamic Profiler 工具進行驗證。

圖 3:在內(nèi)核調(diào)度方面,“0”是 F1T 管道的第一個物理副本,“1”是第二個副本。紫色箭頭通過管道跟隨單個數(shù)據(jù)集。

pYYBAGKhrcKAbZ35AATz4VGrdVg895.png

緩沖區(qū)分配

在 OpenCL 系統(tǒng)中,主機程序控制哪個 DDR bank 包含哪些緩沖區(qū)。由于 DDR bank 在讀取或?qū)懭霑r效率最高,但不是兩者兼而有之,因此我們可以將五個緩沖區(qū)拆分為兩個 DDR bank,如下所示:

DDR bank #0 獲得輸入和tmp2

DDR bank #1 獲取tmp1、coef和out

將緩沖區(qū)分配給 DDR bank 是 OpenCL 主機程序中的一行更改。編譯器和底層平臺負責其余的工作。鑒于這種自動化,我們可以在 2-DDR 和 4-DDR 板上進行試驗,以找到每個板的緩沖區(qū)到 bank 的最佳映射。

結論

本文介紹如何使用 Altera OpenCL SDK for FPGA 設計 200 萬點頻域濾波器。所有功能驗證均使用軟件樣式的仿真完成,并且每個硬件編譯都能正常工作。我們沒有打開硬件模擬器,也從不擔心時序收斂。

作者:Dmitry Denisenko,Mykhailo Popryaga

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 濾波器
    +關注

    關注

    162

    文章

    8134

    瀏覽量

    181986
  • DDR
    DDR
    +關注

    關注

    11

    文章

    732

    瀏覽量

    66791
  • 模擬器
    +關注

    關注

    2

    文章

    894

    瀏覽量

    44369
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    有源濾波器與無源濾波器的區(qū)別

    濾波器是根據(jù)電路參數(shù)對電路頻帶寬度的影響而設計出來的工程應用電路,濾波器種類很多,有源濾波器和無源濾波器的區(qū)別我們最簡單的分別辦法是看看是否需要電源,在作用上最大的區(qū)別在于有源
    的頭像 發(fā)表于 06-18 09:03 ?352次閱讀

    模擬低通濾波器的設計方法有哪些

    減小。 設計步驟 : 使用 buttord 函數(shù)計算濾波器的階數(shù)和截止頻率。 使用 buttap 函數(shù)生成濾波器的極點和零(對于巴特沃斯濾波器,只有極點,沒有零
    的頭像 發(fā)表于 11-26 10:07 ?1560次閱讀

    基于FPGA實現(xiàn)FIR數(shù)字濾波器

    在數(shù)字信號處理系統(tǒng)中,有限脈沖響應(finite impulse response,F(xiàn)IR)數(shù)字濾波器是一個非常重要的基本單元。近年來,由于FPGA具有高速度、高集成度和高可靠性的特點而得到快速發(fā)展
    的頭像 發(fā)表于 11-05 16:26 ?1777次閱讀
    基于<b class='flag-5'>FPGA</b>實現(xiàn)FIR數(shù)字<b class='flag-5'>濾波器</b>

    無源濾波器和有源濾波器的區(qū)別

    無源濾波器和有源濾波器在多個方面存在顯著差異。無源濾波器以其低成本和簡單結構在大容量濾波場合具有廣泛應用;而有源濾波器則以其卓越的
    的頭像 發(fā)表于 09-26 16:23 ?1753次閱讀

    emi濾波器是什么濾波器

    EMI濾波器(Electromagnetic Interference Filter)是一種用于抑制電磁干擾(EMI)的濾波器。電磁干擾是指在電子設備中由于電磁波的傳播而產(chǎn)生的干擾信號,這些干擾信號
    的頭像 發(fā)表于 08-25 15:59 ?2122次閱讀

    帶通濾波器的插損與哪些因素有關

    帶通濾波器是一種在頻域內(nèi)具有特定通帶和阻帶的濾波器,廣泛應用于無線通信、信號處理、電子測量等領域。帶通濾波器的性能指標之一是插損,即插入損耗,它表示
    的頭像 發(fā)表于 08-25 14:19 ?2365次閱讀

    濾波器的零和極點與s參數(shù)有關嗎

    濾波器的零和極點是濾波器設計中的重要概念,它們與濾波器的頻率響應密切相關。 濾波器的基本概念 濾波器
    的頭像 發(fā)表于 08-21 14:54 ?2238次閱讀

    全通濾波器系統(tǒng)函數(shù)穩(wěn)定嗎

    全通濾波器(All-pass filter)是一種特殊類型的濾波器,其主要特點是在頻域內(nèi)對信號的幅度沒有改變,但可以改變信號的相位。全通濾波器在許多信號處理領域有著廣泛的應用,如音頻處
    的頭像 發(fā)表于 08-21 14:48 ?1497次閱讀

    全通濾波器零極點的特點有哪些

    全通濾波器(All-pass filter)是一種特殊的濾波器,其主要特點是在頻域內(nèi)具有相位失真,但幅度響應是平坦的。全通濾波器在信號處理、通信、音頻處理等領域有著廣泛的應用。 一、零
    的頭像 發(fā)表于 08-21 14:42 ?2444次閱讀

    零極點怎么判斷濾波器類型

    傳遞函數(shù)的分母為零的頻率。在頻域中,零和極點分別對應濾波器的幅度和相位特性。 1.1 零
    的頭像 發(fā)表于 08-21 14:32 ?4729次閱讀

    陷波濾波器怎么進行濾波

    陷波濾波器(Notch Filter)是一種電子濾波器,其主要功能是在特定頻率迅速衰減輸入信號,以達到阻礙此頻率信號通過的濾波效果。這種濾波器
    的頭像 發(fā)表于 08-21 14:04 ?1519次閱讀

    陷波濾波器和超前滯后濾波器的差別是什么

    是一種可以在某一個頻率迅速衰減輸入信號,以達到阻礙此頻率信號通過的濾波效果的濾波器。它屬于帶阻濾波器的一種,但阻帶非常狹窄,通常其階數(shù)必須是二階(含二階)以上。 原理:陷波
    的頭像 發(fā)表于 08-21 11:18 ?1544次閱讀

    陷波濾波器和低通濾波器的區(qū)別是什么

    陷波濾波器和低通濾波器是兩種常見的濾波器,它們在信號處理領域有著廣泛的應用。 定義 陷波濾波器(Notch Filter)是一種特殊類型的濾波器
    的頭像 發(fā)表于 08-21 11:13 ?1622次閱讀

    iir濾波器和fir濾波器的優(yōu)勢和特點

    IIR濾波器和FIR濾波器是數(shù)字信號處理領域中兩種非常重要的濾波器類型。它們各自具有獨特的優(yōu)勢和特點,適用于不同的應用場景。本文將介紹IIR濾波器和FIR
    的頭像 發(fā)表于 07-19 09:28 ?3136次閱讀

    高通濾波器和低通濾波器判別方法

    高通濾波器和低通濾波器是信號處理領域中非常重要的兩種濾波器。它們在各種應用中都有廣泛的應用,如音頻處理、圖像處理、通信系統(tǒng)等。 一、濾波器的基本概念 1.1
    的頭像 發(fā)表于 07-15 11:15 ?2180次閱讀