Xilinx的Versal AI Core系列器件旨在解決有關(guān) AI 推理的最大而獨(dú)特的難題,該系列使用具有高計(jì)算效率的 ASIC 級(jí)人工智能計(jì)算引擎以及靈活的可編程結(jié)構(gòu),來構(gòu)建具有加速器的 AI 應(yīng)用,以使任何給定的工作負(fù)載都能夠在實(shí)現(xiàn)低功耗、低延遲的同時(shí)達(dá)到最大效率。
Versal AI Core 系列VCK190 評(píng)估套件采用了該系列內(nèi) AI 性能最優(yōu)的VC1902 器件。該套件旨在用于需要高吞吐量 AI 推理和信號(hào)處理計(jì)算性能的設(shè)計(jì)。VCK190 套件提供比當(dāng)前服務(wù)器級(jí) CPU 高 100 倍的計(jì)算能力并提供各種連接選項(xiàng),因而是適用于從云到邊緣計(jì)算等眾多應(yīng)用的、理想的評(píng)估和原型開發(fā)平臺(tái)。
圖 1:Xilinx Versal AI Core 系列 VCK190 評(píng)估套件。(圖片來源:AMD, Inc)
VCK190 評(píng)估套件的主要特點(diǎn)
板載 Versal AI Core 系列器件
配備 Versal ACAP XCVC1902 生產(chǎn)芯片
AI 和 DSP 引擎擁有比當(dāng)今服務(wù)器級(jí) CPU 高 100 倍的計(jì)算能力
預(yù)先構(gòu)建的合作伙伴參考設(shè)計(jì)用于快速原型設(shè)計(jì)
用于前沿應(yīng)用開發(fā)的最新連接技術(shù)
內(nèi)置第 4 代 PCIe? 硬 IP,用于高性能設(shè)備接口,如 NVMe SSD 和主機(jī)處理器
內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡(luò)接口
DDR4 和 LPDDR4 存儲(chǔ)器接口
協(xié)同優(yōu)化型工具和調(diào)試方法
Vivado? ML、Vitis? 統(tǒng)一軟件平臺(tái)、Vitis AI、AI 引擎工具,用于 AI 推理應(yīng)用的開發(fā)
利用 Xilinx 的 Versal AI Core 系列器件進(jìn)行 AI 接口加速
圖 2:Xilinx 的 Versal AI Core VC1902 ACAP 器件的框圖(圖片來源:AMD, Inc)
Versal? AI Core 自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 是一個(gè)高度集成的多核異構(gòu)器件,可以在硬件和軟件層面動(dòng)態(tài)地適應(yīng)各種 AI 工作負(fù)載,使其成為 AI 邊緣計(jì)算應(yīng)用或云加速卡的理想選擇。該平臺(tái)集成了用于嵌入式計(jì)算的下一代 Scalar 引擎、用于提高硬件靈活性的自適應(yīng)引擎以及由 DSP 引擎和用于推理和信號(hào)處理的革命性 AI 引擎組成的智能引擎。如此集成便形成了一款自適應(yīng)性強(qiáng)的加速器,在 AI/ML 工作負(fù)荷方面超過了傳統(tǒng) FPGA 和 GPU 的性能、延遲和功率效率。
Versal ACAP 平臺(tái)的亮點(diǎn)
自適應(yīng)性引擎:
自定義存儲(chǔ)器層次結(jié)構(gòu)優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動(dòng)和管理
預(yù)處理和后處理功能包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放
AI 引擎 (DPU)
矢量處理器的平鋪陣列,通過 XCVC1902 器件達(dá)到 133 INT8 TOPS 性能,稱為深度學(xué)習(xí)處理單元或 DPU
非常適用于 CNN、RNN 和 MLP 等神經(jīng)網(wǎng)絡(luò);為了適應(yīng)不斷發(fā)展的算法,可對(duì)硬件進(jìn)行優(yōu)化
標(biāo)量引擎
四核 ARM 處理子系統(tǒng),用于安全、電源和比特流管理的平臺(tái)管理控制器
VCK190 AI 推理性能
相比目前的服務(wù)器級(jí) CPU,VCK190 具有超過其 100 倍的計(jì)算性能。以下是一個(gè)基于 C32B6 DPU 內(nèi)核(批處理 = 6)實(shí)現(xiàn)的 AI 引擎性能例子。請(qǐng)參考下表,了解 VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣品的吞吐性能(以幀/秒或 fps 為單位),DPU 工作頻率 1250MHz。
表1:VCK190 AI 推理性能示例。
更多關(guān)于 VCK190 AI 性能的詳細(xì)內(nèi)容,請(qǐng)參見《Vitis AI Library User Guide (UG1354), r2.5.0》,網(wǎng)址:https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board。
Design Gateway 的 IP 內(nèi)核如何加速 AI 應(yīng)用的性能?
Design GatewayIP 內(nèi)核用來處理網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議,且不需要 CPU 干預(yù)。這使得該器件成為 CPU 系統(tǒng)完全擺脫復(fù)雜的協(xié)議處理的理想之選,使得這些系統(tǒng)能夠?qū)⒋蟛糠钟?jì)算能力用于人工智能應(yīng)用,包括人工智能推理、前后數(shù)據(jù)處理、用戶接口、網(wǎng)絡(luò)通信和數(shù)據(jù)存儲(chǔ)訪問,從而獲得最佳性能。
圖 3:使用 Design Gateway IP Core 的 AI 應(yīng)用實(shí)例框圖(圖片來源:Design Gateway)
Design Gateway 的 TCP 卸載引擎 IP(TOExxG-IP)性能
用傳統(tǒng) CPU 系統(tǒng)處理 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要占用 50% 以上的 CPU 時(shí)間,這會(huì)降低 AI 應(yīng)用的整體性能。根據(jù)在 Xilinx MPSoC Linux 系統(tǒng)上進(jìn)行的 10G TCP 性能測(cè)試,在 10GbE TCP 傳輸過程中 CPU 的使用率超過 50%,TCP 發(fā)送和接收數(shù)據(jù)的傳輸速度可以達(dá)到 10GbE 速度的 40% 到 60% 左右,即 400 MB/s 到 600 MB/s。
通過實(shí)施 Design Gateway 的TOExxG-IP Core,在 10GbE 和 25GbE 上進(jìn)行 TCP 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,而以太網(wǎng)帶寬的利用率可接近100%。這允許通過純硬件邏輯直接在 TCP 網(wǎng)絡(luò)上發(fā)送和接收數(shù)據(jù),并以最低的 CPU 占用率和最低的延遲被送入 Versal AI 引擎。下方圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)的 CPU 使用率和 TCP 傳輸速度對(duì)比。
圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP Core 的 10G/25G TCP 傳輸?shù)男阅鼙容^。(圖片來源:Design Gateway)
Design Gateway 的 TOExxG-IP 用于 Versal 器件
圖 5:TOExxG-IP 系統(tǒng)概覽。(圖片來源:Design Gateway)
TOExxG-IP 內(nèi)核實(shí)現(xiàn)了 TCP/IP 協(xié)議棧(在硬線邏輯中)并與 Xilinx 的 EMAC 硬 IP 和以太網(wǎng)子系統(tǒng)模塊連接,以實(shí)現(xiàn) 10G/25G/100G 以太網(wǎng)速度的底層硬件接口。TOExxG-IP 的用戶接口包括一個(gè)用于控制信號(hào)的寄存器接口和一個(gè)用于數(shù)據(jù)信號(hào)的 FIFO 接口。TOExxG-IP 專用于通過 AXI4-ST 接口與 Xilinx 的以太網(wǎng)子系統(tǒng)連接。用戶接口的時(shí)鐘頻率取決于以太網(wǎng)接口的速度(例如 156.625 MHz 或 322.266 MHz)。
TOExxG-IP 的特點(diǎn)
完整的 TCP/IP 協(xié)議棧實(shí)施,不需要 CPU
支持與 TOExxG-IP 的一對(duì)一會(huì)話
多會(huì)話可以通過使用多個(gè) TOExxG-IP 實(shí)例來實(shí)現(xiàn)
支持服務(wù)器和客戶端模式(被動(dòng)/主動(dòng)打開和關(guān)閉)
支持 Jumbo 框架
通過標(biāo)準(zhǔn) FIFO 接口提供簡(jiǎn)單的數(shù)據(jù)接口
通過單端口 RAM 接口進(jìn)行簡(jiǎn)單的接口控制
XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所列。
表 2:Versal 器件的實(shí)施統(tǒng)計(jì)示例。
有關(guān) TOExxG-IP 的更多詳情,請(qǐng)參閱其規(guī)格書。可從 Design Gateway 網(wǎng)站下載規(guī)格書:
TOE10G-IP Core Xilinx 規(guī)格書
TOE25G-IP Core Xilinx 規(guī)格書
TOE100G-IP Core Xilinx 規(guī)格書
Design Gateway 的 NVMe 主機(jī)控制器 IP 性能
具有 PCIe Gen3 x4 或 PCIe Gen4 x4 的 NVMe 存儲(chǔ)器接口速度的數(shù)據(jù)速率分別高達(dá) 32Gbps 和 64Gbps。這比 10GbE 的以太網(wǎng)速度高三到六倍。CPU 處理復(fù)雜的 NVMe 存儲(chǔ)協(xié)議以達(dá)到最高的磁盤訪問速度;相比 10Gbe 以太網(wǎng)的 TCP 協(xié)議,這需要更多的 CPU 時(shí)間。
Design Gateway 通過開發(fā) NVMe IP 內(nèi)核解決了該問題,該 IP 內(nèi)核能夠作為獨(dú)立的 NVMe 主機(jī)控制器運(yùn)行,能夠在沒有 CPU 參與的情況下直接與 NVMe SSD 通信。這使得 NVMe PCIe Gen3 和 Gen4 固態(tài)硬盤的訪問效率高、性能好,從而能夠簡(jiǎn)化用戶接口和標(biāo)準(zhǔn)功能,實(shí)現(xiàn)了使用簡(jiǎn)單,而不需要 NVMe 協(xié)議的知識(shí)。如圖 6 所示,NVMe PCIe Gen4 固態(tài)硬盤的性能可以通過 NVMe IP 實(shí)現(xiàn)高達(dá) 6GB/s 的傳輸速度。
圖 6:NVMe PCIe Gen3 和 Gen4 SSD 與 Design Gateway 的 NVMe-IP Core 的性能比較。(圖片來源:Design Gateway)
用于 Versal 器件的 Design Gateway NVMe-IP
圖 7:NVMe-IP 系統(tǒng)概覽圖。(圖片來源:Design Gateway)
NVMe-IP 的特點(diǎn)
能夠?qū)崿F(xiàn)應(yīng)用層、事務(wù)層、數(shù)據(jù)鏈路層和物理層的某些部分在沒有 CPU 或外部 DDR 存儲(chǔ)器的情況下訪問 NVMe SSD
與 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起使用
能夠利用 BRAM 和 URAM 作為數(shù)據(jù)緩沖器,而不需要外部存儲(chǔ)器接口
支持六條指令:識(shí)別、關(guān)斷、寫入、讀取、SMART 和刷新(可選擇支持其他命令)
XCVC1902-VSVA2197-2MP-E-S FPGA 器件的 FPGA 資源使用情況,如表 2 所示。
表 3:Versal 器件的實(shí)施統(tǒng)計(jì)示例。
有關(guān) Versal 器件的 TOExxG-IP 的更多詳情,請(qǐng)參閱其規(guī)格書??蓮?Design Gateway 網(wǎng)站下其載規(guī)格書:
Gen4 Xilinx 的 NVMe IP Core 規(guī)格書
結(jié)語
TOExxG-IP 和 NVMe-IP Core 通過使 CPU 系統(tǒng)完全擺脫計(jì)算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲(chǔ)協(xié)議),來幫助加速人工智能應(yīng)用的性能,這對(duì)實(shí)時(shí)人工智能應(yīng)用至關(guān)重要。這使得 Xilinx 的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延誤。
VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案能夠在 Xilinx 的 Versal AI Core 器件上以最低的 FPGA 資源占用率、極高的功率效率實(shí)現(xiàn) AI 應(yīng)用的最佳性能。
審核編輯:湯梓紅
-
asic
+關(guān)注
關(guān)注
34文章
1247瀏覽量
122450 -
接口
+關(guān)注
關(guān)注
33文章
9005瀏覽量
153786 -
Xilinx
+關(guān)注
關(guān)注
73文章
2185瀏覽量
125438 -
AI
+關(guān)注
關(guān)注
88文章
35194瀏覽量
280305
發(fā)布評(píng)論請(qǐng)先 登錄
詳解基于賽靈思的Versal? ACAP設(shè)計(jì)創(chuàng)建步驟

如何在Linux平臺(tái)上進(jìn)行Linux程序開發(fā)

利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用
下載Xilinx IP Core
在Xilinx ZCU102評(píng)估套件上啟用NVMe SSD接口
利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用
賽靈思Versal評(píng)估套件助力開發(fā)者邁入解鎖ACAP功能的高速路
賽靈思宣布兩款Versal ACAP評(píng)估套件現(xiàn)已上市
Vitis AI 1.4賦予 AI 產(chǎn)品化更多可能性
在VCK190板子上使用DDR4-DIMM的ECC
如何更改VCK190單板啟動(dòng)模式
利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用

【產(chǎn)品測(cè)試】利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用
在Versal VCK190評(píng)估套件上使用器件固件升級(jí)(DFU)執(zhí)行USB輔助啟動(dòng)模式測(cè)試

VCK190評(píng)估板用戶指南

評(píng)論