VITIS 是一個用于開發(fā)軟件和硬件的統(tǒng)一軟件平臺,使用 Vivado 和其他用于 Xilinx FPGA SoC 平臺(如 ZynqMP UltraScale+ 和 Alveo 卡)的組件。VITIS SDK 的關(guān)鍵組件 VITIS AI 運行時 (VART) 為在邊緣和云上部署終端 ML/AI 應用程序提供了統(tǒng)一的接口。
機器學習中的推理是計算密集型的,需要高內(nèi)存帶寬和高性能計算,以滿足各種終端應用程序的低延遲和高吞吐量要求。
Vitis AI 工作流程
Xilinx Vitis AI 提供了一個工作流,可使用簡單的流程在 Xilinx 深度學習處理單元 (DPU) 上部署深度學習推理應用程序:
深度處理單元 (DPU) 是一種可配置的計算引擎,針對深度學習推理應用的卷積神經(jīng)網(wǎng)絡進行了優(yōu)化,并置于可編程邏輯 (PL) 中。DPU 包含高效且可擴展的 IP 內(nèi)核,可進行定制以滿足許多不同應用的需求。DPU 定義自己的指令集,Vitis AI 編譯器生成指令。
VITIS AI 編譯器以優(yōu)化的方式調(diào)度指令以獲得可能的最大性能。
在 Xilinx ZynqMP UltraScale+ SoC 平臺上運行任何 AI 應用程序的典型工作流程包括以下內(nèi)容:
模型量化
模型編譯
模型優(yōu)化(可選)
構(gòu)建 DPU 可執(zhí)行文件
構(gòu)建軟件應用程序
集成 VITIS AI 統(tǒng)一 API
編譯和鏈接混合 DPU 應用程序
在 FPGA 上部署混合 DPU 可執(zhí)行文件
人工智能量化器
AI Quantizer 是一種用于量化過程的壓縮工具,通過將 32 位浮點權(quán)重和激活轉(zhuǎn)換為定點 INT8。它可以在不丟失模型準確信息的情況下降低計算復雜度。定點模型需要更少的內(nèi)存,因此比浮點實現(xiàn)提供更快的執(zhí)行和更高的功率效率。
人工智能編譯
AI 編譯器將網(wǎng)絡模型映射到高效的指令集和數(shù)據(jù)流。編譯器的輸入是量化的 8 位神經(jīng)網(wǎng)絡,輸出是 DPU 內(nèi)核 - 可執(zhí)行文件將在 DPU 上運行。在這里,不支持的層需要部署在 CPU 中,或者可以自定義模型來替換和刪除那些不支持的操作。它還執(zhí)行復雜的優(yōu)化,例如層融合、指令調(diào)度和片上存儲器的重用。
一旦我們能夠執(zhí)行 DPU,我們需要使用 Vitis AI 統(tǒng)一 API 來初始化數(shù)據(jù)結(jié)構(gòu),初始化 DPU,在 CPU 上實現(xiàn) DPU 不支持的層,并在 CPU 上添加預處理和后處理PL/PS 的需求基礎(chǔ)。
人工智能優(yōu)化器
借助其模型壓縮技術(shù),AI Optimizer 可以將模型復雜度降低 5-50 倍,而對準確性的影響最小。這種深度壓縮將推理性能提升到一個新的水平。我們可以實現(xiàn)所需的稀疏性并將運行時間減少 2.5 倍。
人工智能分析器
AI Profiler 可以幫助分析推理找到導致端到端管道瓶頸的警告。分析器為設(shè)計人員提供了 DPU/CPU/內(nèi)存的通用時間線。此過程不會更改任何代碼,并且可以跟蹤功能并進行分析。
人工智能運行時
VITIS AI 運行時 (VART) 允許應用程序使用統(tǒng)一的高級運行時 API 進行邊緣和云部署,使其無縫且高效。一些關(guān)鍵功能包括:
異步作業(yè)提交
異步作業(yè)收集
多線程和多進程執(zhí)行
Vitis AI 還提供 DSight、DExplorer、DDump 和 DLet 等,用于執(zhí)行各種任務。
DSight & DExplorer
DPU IP 為特定內(nèi)核提供了多種配置,以根據(jù)網(wǎng)絡模型進行選擇。DSight 告訴我們每個 DPU 核心的百分比利用率。它還提供了調(diào)度程序的效率,以便我們可以調(diào)整用戶線程。還可以查看每一層和每個 DPU 節(jié)點的性能數(shù)據(jù),例如 MOPS、運行時間和內(nèi)存帶寬。
Softnautics選擇賽靈思 ZynqMP UltraScale+ 平臺進行高性能和計算部署。它提供最佳的應用程序處理、高度可配置的 FPGA 加速功能和 VITIS SDK,以加速高性能 ML/AI 推理。我們針對的此類應用之一是用于 Covid-19 篩查的面罩檢測。其目的是為戴口罩的人的 Covid-19 篩查部署多流推理,并根據(jù)各國政府對 Covid-19 預防措施指南的要求,實時識別違規(guī)行為。
我們準備了一個數(shù)據(jù)集并選擇了預訓練的權(quán)重來設(shè)計一個用于掩碼檢測和篩選的模型。我們通過 TensorFlow 框架訓練和修剪我們的自定義模型。這是面部檢測和面具檢測的兩階段部署。如此獲得的訓練模型通過前面章節(jié)中介紹的 VITIS AI 工作流程傳遞。與 CPU 相比,我們觀察到推理時間的 10 倍速度。Xilinx 提供了不同的調(diào)試工具和實用程序,它們在初始開發(fā)和部署期間非常有用。在我們最初的部署階段,我們沒有檢測到掩碼和非掩碼類別。我們嘗試將基于 PC 的推理輸出與名為 Dexplorer 的調(diào)試實用程序之一的輸出相匹配。但是,調(diào)試模式和根本原因?qū)е聠栴}進一步調(diào)試。在運行量化器時,我們可以使用更大的校準圖像、迭代和檢測來調(diào)整輸出,視頻輸入的準確率約為 96%。我們還嘗試使用 AI 分析器識別管道中的瓶頸,然后采取糾正措施以通過各種方式消除瓶頸,例如使用 HLS 加速來計算后處理中的瓶頸。
審核編輯:郭婷
-
cpu
+關(guān)注
關(guān)注
68文章
11080瀏覽量
217073 -
Xilinx
+關(guān)注
關(guān)注
73文章
2185瀏覽量
125335 -
AI
+關(guān)注
關(guān)注
88文章
35147瀏覽量
279833
發(fā)布評論請先 登錄
2.0.0版本的ST Edge AI Core在linux平臺上可以把量化后的onnx模型轉(zhuǎn)換為.nb,但是運行報錯,缺少文件,為什么?
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+讀《零基礎(chǔ)開發(fā)AI Agent》掌握扣子平臺開發(fā)智能體方法
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+初品Agent
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應手
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
《AI Agent 應用與項目實戰(zhàn)》----- 學習如何開發(fā)視頻應用
《AI Agent應用與項目實戰(zhàn)》閱讀體驗--跟著迪哥學Agent
AI開發(fā)平臺模型怎么用
AI開發(fā)平臺如何賦能開發(fā)者
NVIDIA發(fā)布Cosmos平臺,加速物理AI開發(fā)
自動化AI開發(fā)平臺功能介紹
AI高性能計算平臺是什么
AI開發(fā)平臺可以干什么
Arm推出GitHub平臺AI工具,簡化開發(fā)者AI應用開發(fā)部署流程
NVIDIA IGX平臺加速實時邊緣AI應用

評論