? ?0. 概述
本文討論四種常用FPGA/CPLD設(shè)計思想與技巧:
乒乓操作
串并轉(zhuǎn)換
流水線操作
數(shù)據(jù)接口同步化
都是FPGA/CPLD邏輯設(shè)計的內(nèi)在規(guī)律的體現(xiàn),合理地采用這些設(shè)計思想能在FPGA/CPLD設(shè)計工作種取得事半功倍的效果。
FPGA/CPLD的設(shè)計思想與技巧是一個非常大的話題,由于篇幅所限,本文僅介紹這4個常用的設(shè)計思想與技巧,希望本文能引起工程師們的注意,如果能有意識地利用這些原則指導(dǎo)日后的設(shè)計工作,將取得事半功倍的效果!
下載鏈接: 《FPGA五問五答系列合集》 GPT-5后NLP大模型逐步走向收斂,ASIC將大有可為 《70+篇半導(dǎo)體行業(yè)“研究框架”合集》 《人工智能AI大模型技術(shù)合集》 信創(chuàng)從“芯”開始 云計算通用可編程DPU發(fā)展白皮書(2023年) 《42份智能網(wǎng)卡和DPU合集》 227份重磅ChatGPT專業(yè)報告 GPT4專題:構(gòu)建模型理解能力,商業(yè)落地未來可期 華為昇騰服務(wù)器研究框架(2023) 《華為鯤鵬產(chǎn)業(yè)鏈深度研究合集》 1、華為鯤鵬生態(tài)研究框架 2、產(chǎn)業(yè)鏈深度研究:鯤鵬生態(tài)助力華為涅槃
1. 乒乓操作
乒乓操作是一個常常應(yīng)用于數(shù)據(jù)流控制的處理技巧,典型的乒乓操作方法如下圖所示:
乒乓操作的處理流程為:
輸入數(shù)據(jù)流通過“輸入數(shù)據(jù)選擇單元”將數(shù)據(jù)流等時分配到兩個數(shù)據(jù)緩沖區(qū),數(shù)據(jù)緩沖模塊可以為任何存儲模塊,比較常用的存儲單元: 雙口RAM(DPRAM)、單口RAM(SPRAM)、FIFO 等。
在第1個緩沖周期,將輸入的數(shù)據(jù)流緩存到數(shù)據(jù)緩沖模塊1;
在第2個緩沖周期,通過輸入數(shù)據(jù)選擇單元的切換,將輸入的數(shù)據(jù)流緩存到數(shù)據(jù)緩沖模塊2,同時將數(shù)據(jù)緩沖模塊1緩存的第1個周期數(shù)據(jù)通過輸入數(shù)據(jù)選擇單元的選擇,送到數(shù)據(jù)流運算處理模塊進行運算處理;
在第3個緩沖周期,通過輸入數(shù)據(jù)選擇單元的再次切換,將輸入的數(shù)據(jù)流緩存到數(shù)據(jù)緩沖模塊1,同時將數(shù)據(jù)緩沖模塊2緩存的第2個周期的數(shù)據(jù)通過輸入數(shù)據(jù)選擇單元切換,送到數(shù)據(jù)流運算處理模塊進行運算處理。
如此循環(huán)。
乒乓操作的最大特點是通過“輸入數(shù)據(jù)選擇單元”和“輸出數(shù)據(jù)選擇單元”按節(jié)拍、相互配合的切換,將經(jīng)過緩沖的數(shù)據(jù)流沒有停頓地送到“數(shù)據(jù)流運算處理模塊” 進行運算與處理。
把乒乓操作模塊當(dāng)做一個整體,站在這個模塊的兩端看數(shù)據(jù),輸入數(shù)據(jù)流和輸出數(shù)據(jù)流都是連續(xù)不斷的,沒有任何停頓,因此非常適合對數(shù)據(jù)流進行流水線式處理。所以乒乓操作常常應(yīng)用于流水線式算法,完成數(shù)據(jù)的無縫緩沖與處理。
乒乓操作的第二個優(yōu)點是可以節(jié)約緩沖區(qū)空間。
比如在WCDMA基帶應(yīng)用中,1個幀是由15個時隙組成的,有時需要將 1整幀的數(shù)據(jù)延時一個時隙后處理,比較直接的辦法是將這幀數(shù)據(jù)緩存起來,然后延時1個時隙進行處理。這時緩沖區(qū)的長度是1整幀數(shù)據(jù)長,假設(shè)數(shù)據(jù)速率是3.84Mbps,1幀長10ms,則此時需要緩沖區(qū)長度是 38400 位。
如果采用乒乓操作,只需定義兩個能緩沖 1個時隙數(shù)據(jù)的RAM(單口RAM即可)。當(dāng)向一塊 RAM 寫數(shù)據(jù)的時候,從另一塊 RAM 讀數(shù)據(jù),然后送到處理單元處理,此時每塊 RAM 的容量僅需 2560 位即可,
2 塊 RAM 加起來也只有 5120 位的容量。
另外,巧妙運用乒乓操作還可以達到用低速模塊處理高速數(shù)據(jù)流的效果。
如上圖所示,數(shù)據(jù)緩沖模塊采用了雙口RAM,并在DPRAM后引入了一級數(shù)據(jù)預(yù)處理模塊,這個數(shù)據(jù)預(yù)處理可以根據(jù)需要的各種數(shù)據(jù)運算,比如在WCDMA設(shè)計中,對輸入數(shù)據(jù)流的解擴、解擾、去旋轉(zhuǎn)等。假設(shè)端口A的輸入數(shù)據(jù)流的速率為100Mbps,乒乓操作的緩沖周期是10ms。以下分析各個節(jié)點端口的數(shù)據(jù)速率。
A端口處輸入數(shù)據(jù)流速率為100Mbps,在第1個緩沖周期10ms內(nèi),通過“輸入數(shù)據(jù)選擇單元”,從 B1 到達 DPRAM1。B1 的數(shù)據(jù)速率也是 100Mbps,DPRAM1 要在 10ms 內(nèi)寫入 1Mb 數(shù)據(jù)。
同理,在第 2 個 10ms,數(shù)據(jù)流被切換到 DPRAM2,端口 B2 的數(shù)據(jù)速率也是 100Mbps,DPRAM2在第 2 個 10ms 被寫入 1Mb 數(shù)據(jù)。
在第3 個 10ms,數(shù)據(jù)流又切換到 DPRAM1,DPRAM1 被寫入1Mb 數(shù)據(jù)。
仔細分析就會發(fā)現(xiàn)到第3個緩沖周期時,留給DPRAM1讀取數(shù)據(jù)并送到“數(shù)據(jù)預(yù)處理模塊1”的時間一共是20ms。
有的工程師困惑于 DPRAM1 的讀數(shù)時間為什么是 20ms,這個時間是這樣得來的:
首先,在在第 2 個緩沖周期向 DPRAM2 寫數(shù)據(jù)的 10ms 內(nèi),DPRAM1 可以進行讀操作;
另外,在第 1 個緩沖周期的第 5ms 起(絕對時間為 5ms 時刻),DPRAM1 就可以一邊向 500K 以后的地址寫數(shù)據(jù),一邊從地址 0 讀數(shù),到達 10ms 時,DPRAM1 剛好寫完了 1Mb 數(shù)據(jù),并且讀了 500K 數(shù)據(jù),這個緩沖時間內(nèi) DPRAM1 讀了 5ms;
在第 3 個緩沖周期的第 5ms 起(絕對時間為 35ms 時刻),同理可以一邊向 500K 以后的地址寫數(shù)據(jù)一邊從地址0 讀數(shù),又讀取了5 個ms,所以截止 DPRAM1 第一個周期存入的數(shù)據(jù)被完全覆蓋以前,DPRAM1 最多可以讀取 20ms時間,而所需讀取的數(shù)據(jù)為 1Mb,所以端口 C1 的數(shù)據(jù)速率為:1Mb/20ms=50Mbps。因此,“數(shù)據(jù)預(yù)處理模塊 1”的最低數(shù)據(jù)吞吐能力也僅僅要求為 50Mbps。
同理,“數(shù)據(jù)預(yù)處理模塊 2”的最低數(shù)據(jù)吞吐能力也僅僅要求為 50Mbps。
換言之,通過乒乓操作,“數(shù)據(jù)預(yù)處理模塊”的時序壓力減輕了,所要求的數(shù)據(jù)處理速率僅僅為輸入數(shù)據(jù)速率的 1/2。
通過乒乓操作實現(xiàn)低速模塊處理高速數(shù)據(jù)的實質(zhì)是:通過 DPRAM 這種緩存單元實現(xiàn)了數(shù)據(jù)流的串并轉(zhuǎn)換,并行用“數(shù)據(jù)預(yù)處理模塊 1”和“數(shù)據(jù)預(yù)處理模塊 2”處理分流的數(shù)據(jù),是面積與速度互換原則的體現(xiàn)!
2. 串并轉(zhuǎn)換設(shè)計技巧
串并轉(zhuǎn)換是FPGA設(shè)計的一個重要技巧,它是數(shù)據(jù)流處理的常用手段,也是面積與速度互換思想的直接體現(xiàn)。
串并轉(zhuǎn)換的實現(xiàn)方法多種多樣,根據(jù)數(shù)據(jù)的排序和數(shù)量的要求,可以選用 寄存器、RAM 等實現(xiàn)。
前面在乒乓操作的圖例中,就是通過 DPRAM 實現(xiàn)了數(shù)據(jù)流的串并轉(zhuǎn)換,而且由于使用了DPRAM,數(shù)據(jù)的緩沖區(qū)可以開得很大,對于數(shù)量比較小的設(shè)計可以采用寄存器完成串并轉(zhuǎn)換。
如無特殊需求,應(yīng)該用同步時序設(shè)計完成串并之間的轉(zhuǎn)換。
比如數(shù)據(jù)從串行到并行,數(shù)據(jù)排列順序是高位在前,可以用下面的編碼實現(xiàn):
prl_temp<={prl_temp,srl_in};
其中,prl_temp是并行輸出緩存寄存器,srl_in是串行數(shù)據(jù)輸入。
對于排列順序有規(guī)定的串并轉(zhuǎn)換,可以用case語句判斷實現(xiàn)。
對于復(fù)雜的串并轉(zhuǎn)換,還可以用狀態(tài)機實現(xiàn)。串并轉(zhuǎn)換的方法比較簡單,在此不必贅述。
3. 流水線操作設(shè)計思想
首先需要聲明的是,這里所講述的流水線是指一種處理流程和順序操作的設(shè)計思想,并非FPGA、ASIC設(shè)計中優(yōu)化時序所用的Pipelining。
流水線處理是高速設(shè)計中的一個常用設(shè)計手段。如果某個設(shè)計的處理流程分為若干步驟,而且整個數(shù)據(jù)處理是“單流向”的,即沒有反饋或者迭代運算,前一個步驟的輸出是下一個步驟的輸入,則可以考慮采用流水線設(shè)計方法來提高系統(tǒng)的工作頻率。
流水線設(shè)計的結(jié)構(gòu)示意圖如上圖所示。
其基本結(jié)構(gòu)為:將適當(dāng)劃分的 n 個操作步驟單流向串聯(lián)起來。
流水線操作的最大特點和要求是,數(shù)據(jù)流在各個步驟的處理從時間上看是連續(xù)的,如果將每個操作步驟簡化假設(shè)為通過一個D觸發(fā)器(就是用寄存器打一個節(jié)拍),那么流水線操作就類似一個移位寄存器組,數(shù)據(jù)流依次流經(jīng)D觸發(fā)器,完成每個步驟的操作。流水線設(shè)計時序如下圖所示。
流水線設(shè)計的一個關(guān)鍵在于整個設(shè)計時序的合理安排,要求每個操作步驟的劃分合理。
如果前級操作時間恰好等于后級的操作時間,設(shè)計最為簡單,前級的輸出直接匯入后級的輸入即可;
如果前級操作時間大于后級的操作時間,則需要對前級的輸出數(shù)據(jù)適當(dāng)緩存才能匯入到后級輸入端;
如果前級操作時間恰好小于后級的操作時間,則必須通過復(fù)制邏輯,將數(shù)據(jù)流分流,或者在前級對數(shù)據(jù)采用存儲、后處理方式,否則會造成后級數(shù)據(jù)溢出。
在WCDMA設(shè)計中經(jīng)常使用到流水線處理的方法,如 RAKE 接收機、搜索器、前導(dǎo)捕獲等。
流水線處理方式之所以頻率較高,是因為復(fù)制了處理模塊,它是面積換取速度思想的又一種具體體現(xiàn)。
4. 數(shù)據(jù)接口的同步方法
數(shù)據(jù)接口的同步是 FPGA/CPLD 設(shè)計的一個常見問題,也是一個重點和難點,很多設(shè)計不穩(wěn)定都是源于數(shù)據(jù)接口的同步有問題。
在電路圖設(shè)計階段,一些工程師手工加入BUFT或者非門調(diào)整數(shù)據(jù)延遲,從而保證本級模塊的時鐘對上級模塊數(shù)據(jù)的建立、保持時間要求。還有一些工程師為了有穩(wěn)定的采樣,生成了很多相差90度的時鐘信號,時而用正沿打一下數(shù)據(jù),時而用負沿打一下數(shù)據(jù),用以調(diào)整數(shù)據(jù)的采樣位置。
這兩種做法都十分不可取,因為一旦芯片更新?lián)Q代或者移植到其它芯片組的芯片上,采樣實現(xiàn)必須重新設(shè)計。而且,這兩種做法造成電路實現(xiàn)的余量不夠,一旦外界條件變換(比如溫度升高),采樣時序就有可能完全紊亂,造成電路癱瘓。
下面簡單介紹幾種不同情況下數(shù)據(jù)接口的同步方法:
輸入、輸出的延時(芯片間、PCB布線、一些驅(qū)動接口元件的延時等)不可測,或者有可能變動的條件下,如何完成數(shù)據(jù)同步?
對于數(shù)據(jù)的延遲不可測或變動,就需要建立同步機制,可以用一個同步使能或同步指示信號。
另外,使數(shù)據(jù)通過RAM或者FIFO的存取,也可以達到數(shù)據(jù)同步目的。
把數(shù)據(jù)存放在RAM或FIFO的方法如下:將上級芯片提供的數(shù)據(jù)隨路時鐘作為寫信號,將數(shù)據(jù)寫入RAM或者 FIFO,然后使用本級的采樣時鐘(一般是數(shù)據(jù)處理的主時鐘)將數(shù)據(jù)讀出來即可。這種做法的關(guān)鍵是數(shù)據(jù)寫入RAM或者FIFO要可靠,如果使用同步 RAM 或者 FIFO,就要求應(yīng)該有一個與數(shù)據(jù)相對延遲關(guān)系固定的隨路指示信號,這個信號可以是數(shù)據(jù)的有效指示,也可以是上級模塊將數(shù)據(jù)打出來的時鐘。對于慢速數(shù)據(jù),也可以采樣 異步RAM 或者 FIFO,但是不推薦這種做法。
數(shù)據(jù)是有固定格式安排的,很多重要信息在數(shù)據(jù)的起始位置,這種情況在通信系統(tǒng)中非常普遍。通訊系統(tǒng)中,很多數(shù)據(jù)是按照“幀”組織的。而由于整個系統(tǒng)對時鐘要求很高,常常專門設(shè)計一塊時鐘板完成高精度時鐘的產(chǎn)生與驅(qū)動。而數(shù)據(jù)又是有起始位置的,如何完成數(shù)據(jù)的同步,并發(fā)現(xiàn)數(shù)據(jù)的“頭”呢?
數(shù)據(jù)的同步方法完全可以采用上面的方法,采用同步指示信號,或者使用RAM、FIFO 緩存一下。
找到數(shù)據(jù)頭的方法有兩種,第一種很簡單,隨路傳輸一個數(shù)據(jù)起始位置的指示信號即可,對于有些系統(tǒng),特別是異步系統(tǒng),則常常在數(shù)據(jù)中插入一段同步碼(比如訓(xùn)練序列),接收端通過狀態(tài)機檢測到同步碼后就能發(fā)現(xiàn)數(shù)據(jù)的“頭”了,這種做法叫做“盲檢測”。上級數(shù)據(jù)和本級時鐘是異步的,也就是說上級芯片或模塊和本級芯片或模塊的時鐘是異步時鐘域的。
前面在輸入數(shù)據(jù)同步化中已經(jīng)簡單介紹了一個原則:如果輸入數(shù)據(jù)的節(jié)拍和本級芯片的處理時鐘同頻,可以直接用本級芯片的主時鐘對輸入數(shù)據(jù)寄存器采樣,完成輸入數(shù)據(jù)的同步化;如果輸入數(shù)據(jù)和本級芯片的處理時鐘是異步的,特別是頻率不匹配的時候,則只有用處理時鐘對輸入數(shù)據(jù)做兩次寄存器采樣,才能完成輸入數(shù)據(jù)的同步化。
需要說明的是,用寄存器對異步時鐘域的數(shù)據(jù)進行兩次采樣,其作用是有效?防止亞穩(wěn)態(tài)(數(shù)據(jù)狀態(tài)不穩(wěn)定)?的傳播,使后級電路處理的數(shù)據(jù)都是有效電平。但是這種做法并不能保證兩級寄存器采樣后的數(shù)據(jù)是正確的電平,這種方式處理一般都會產(chǎn)生一定數(shù)量的錯誤電平數(shù)據(jù)。所以僅僅適用于對少量錯誤不敏感的功能單元。為了避免異步時鐘域產(chǎn)生錯誤的采樣電平,一般使用 RAM、FIFO 緩存的方法完成異步時鐘域的數(shù)據(jù)轉(zhuǎn)換。
最常用的緩存單元是DPRAM,在輸入端口使用上級時鐘寫數(shù)據(jù),在輸出端口使用本級時鐘讀數(shù)據(jù),這樣就非常方便的完成了異步時鐘域之間的數(shù)據(jù)交換。
設(shè)計數(shù)據(jù)接口同步是否需要添加約束?
建議最好添加適當(dāng)?shù)募s束,特別是對于高速設(shè)計,一定要對周期、建立、保持時間等添加相應(yīng)的約束。
這里附加約束的作用有兩點:
a. 提高設(shè)計的工作頻率,滿足接口數(shù)據(jù)同步要求。通過附加周期、建立時間、保持時間等約束可以控制邏輯的綜合、映射、布局和布線,以減小邏輯和布線延時,從而提高工作頻率,滿足接口數(shù)據(jù)同步要求。
b. 獲得正確的時序分析報告。幾乎所有的FPGA設(shè)計平臺都包含靜態(tài)時序分析工具,利用這類工具可以獲得映射或布局布線后的時序分析報告,從而對設(shè)計的性能做出評估。靜態(tài)時序分析工具以約束作為判斷時序是否滿足設(shè)計要求的標(biāo)準(zhǔn),因此要求設(shè)計者正確輸入約束,以便靜態(tài)時序分析工具輸出正確的時序分析報告。
Xilinx和數(shù)據(jù)接口相關(guān)的常用約束有Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE 和 OFFSET_OUT_AFTER;
Altera與數(shù)據(jù)接口相關(guān)的常用約束有Period、tsu、tH、tco等。
評論