精品国产一区二区三区不卡顿,国产素人视频电影网站,日本福利免费导航

NVMe IP放棄XDMA原因

選用XDMA做NVMe IP的關(guān)鍵傳輸模塊，可以加速IP的設(shè)計(jì)，但是XDMA對(duì)于開發(fā)者來說，還是不方便，原因是它就象一個(gè)黑匣子，調(diào)試也非一番周折，尤其是后面PCIe4.0升級(jí)。因此決定直接采用PCIe設(shè)計(jì)，雖然要費(fèi)一番周折，但是目前看，還是值得的，我們uvm驗(yàn)證也更清晰。

PCIe 寫應(yīng)答模塊設(shè)計(jì)

應(yīng)答模塊的具體任務(wù)是接收來自PCIe鏈路上的設(shè)備的TLP請(qǐng)求，并響應(yīng)請(qǐng)求。由于基于PCIe協(xié)議的NVMe數(shù)據(jù)傳輸只使用PCIe協(xié)議的存儲(chǔ)器讀請(qǐng)求TLP和存儲(chǔ)器寫請(qǐng)求TLP，應(yīng)答模塊分別針對(duì)兩種TLP設(shè)置處理引擎來提高并行性和處理速度。

對(duì)于存儲(chǔ)器寫請(qǐng)求TLP，該類型的TLP使用Posted方式傳輸，即不需要返回完成報(bào)文，因此只需要接收并做處理，這一過程由寫處理模塊來執(zhí)行，寫處理模塊的結(jié)構(gòu)如圖1所示。

圖1 TLP寫處理結(jié)構(gòu)

當(dāng)axis_cq 總線中出現(xiàn)數(shù)據(jù)流傳輸時(shí)，應(yīng)答模塊首先對(duì)傳輸?shù)腡LP報(bào)頭的類型字段進(jìn)行解析，如果為存儲(chǔ)器寫請(qǐng)求則由寫處理模塊進(jìn)一步解析。寫處理模塊提取出TLP 報(bào)頭的地址字段、長(zhǎng)度字段等，然后將數(shù)據(jù)字段寫入數(shù)據(jù)緩存中。提取出的地址字段用于進(jìn)行地址映射，在NVMe協(xié)議中，設(shè)備端的請(qǐng)求寫分為兩種，分別是寫完

成隊(duì)列和寫數(shù)據(jù)，因此地址映射的定向?qū)?yīng)為隊(duì)列管理模塊的完成條目處理單元和數(shù)據(jù)傳輸AXI總線的寫通道。完成條目的字段長(zhǎng)度為128比特，因此無需進(jìn)行數(shù)據(jù)緩存，跟隨地址映射發(fā)送到隊(duì)列管理模塊。AXIMaster驅(qū)動(dòng)負(fù)責(zé)將解析的字段與緩存的數(shù)據(jù)組成AXI寫傳輸事務(wù)發(fā)送到AXI寫通道，實(shí)現(xiàn)數(shù)據(jù)的寫傳輸。

PCIe 讀應(yīng)答模塊設(shè)計(jì)

對(duì)于存儲(chǔ)器讀請(qǐng)求TLP，使用Non-Posted方式傳輸，即在接收到讀請(qǐng)求后，不僅要進(jìn)行處理，還需要通過axis_cc總線返回CplD，這一過程由讀處理模塊執(zhí)行，讀處理模塊的結(jié)構(gòu)如圖2所示。

圖2 TLP讀處理模塊結(jié)構(gòu)

當(dāng)axis_cq 總線接收到存儲(chǔ)器讀請(qǐng)求時(shí)，數(shù)據(jù)流被轉(zhuǎn)發(fā)到讀處理模塊。讀請(qǐng)求TLP只包含128比特的請(qǐng)求報(bào)頭，而axis總線位寬也是128比特，因此在短時(shí)間內(nèi)可能接收到多個(gè)讀請(qǐng)求，為了應(yīng)對(duì)這種情況，讀處理模塊采用了帶有outstanding能力和事務(wù)并行處理的結(jié)構(gòu)設(shè)計(jì)，能夠有效提高讀請(qǐng)求事務(wù)處理效率和數(shù)據(jù)傳輸吞吐量。

首先當(dāng)讀請(qǐng)求數(shù)據(jù)流到達(dá)讀處理模塊時(shí)，經(jīng)過解析和地址映射的兩級(jí)流水后，放入響應(yīng)處理單元outstanding 緩存中，響應(yīng)處理單元從緩存中獲取事務(wù)一一處理，將讀取的數(shù)據(jù)打包成CplD，并將CplD放置到發(fā)送緩存中等待axis_cc總線的發(fā)送。根據(jù)地址的不同，讀請(qǐng)求事務(wù)被分為三類，分別是讀隊(duì)列請(qǐng)求，讀PRP請(qǐng)求和讀數(shù)據(jù)請(qǐng)求，每種請(qǐng)求對(duì)應(yīng)一個(gè)響應(yīng)處理單元。

在實(shí)際應(yīng)用環(huán)境中，由于隊(duì)列、PRP、數(shù)據(jù)的存儲(chǔ)往往在不同的位置，因此完成讀取過程的延遲也不同，在本課題中，將隊(duì)列管理與PRP都放置在了近PCIe端存儲(chǔ)，因此讀取隊(duì)列與PRP的延遲遠(yuǎn)遠(yuǎn)小于讀取數(shù)據(jù)的延遲。并且當(dāng)大量不同的讀請(qǐng)求交叉處理時(shí)，讀處理模塊的并行處理結(jié)構(gòu)更能夠充分利用PCIe的亂序傳輸能力來提高

吞吐量。為了清晰的說明讀處理模塊對(duì)吞吐量的提升，設(shè)置如圖3所示的簡(jiǎn)單時(shí)序樣例，樣例中PCIeTLP的tag最大為3。

圖3 TLP 讀處理時(shí)序圖

在對(duì)應(yīng)圖3中第1、2行時(shí)序的低性能處理模式下，同一時(shí)間只能處理一個(gè)讀事務(wù)，并且不帶有outstanding能力，此時(shí)從接收到讀請(qǐng)求到成功響應(yīng)所經(jīng)歷的延遲將會(huì)累積，造成axis_cq 請(qǐng)求總線的阻塞。在對(duì)應(yīng)圖中第3、4行時(shí)序的僅帶有outstanding 能力的處理模式下，雖然可以連續(xù)接收多個(gè)讀請(qǐng)求處理，但同一時(shí)間內(nèi)只能處理一個(gè)事務(wù)，仍會(huì)由于較大的處理延遲導(dǎo)致axis總線存在較多的空閑周期，實(shí)際的數(shù)據(jù)傳輸效率并不高。在對(duì)應(yīng)圖中第5、6行時(shí)序的讀處理模塊處理模式下，利用多個(gè)響應(yīng)處理單元的并行處理能力和發(fā)送緩存，先行處理完成的CplD可以優(yōu)先發(fā)送，緊接著可以處理下一事務(wù)，使總線的傳輸效率和吞吐量明顯提高。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1645

文章
22050

瀏覽量
618645
PCIe

PCIe

+關(guān)注

關(guān)注
16

文章
1342

瀏覽量
85176
高速傳輸

高速傳輸

+關(guān)注

關(guān)注
0

文章
28

瀏覽量
9174
nvme

nvme

+關(guān)注

關(guān)注
0

文章
252

瀏覽量
23248

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVMe IP高速傳輸卻不依賴XDMA設(shè)計(jì)之二：PCIe讀寫邏輯

評(píng)論