在這個項目中,將在線和離線 TSM 網(wǎng)絡(luò)部署到 FPGA,通過 2D CNN 執(zhí)行視頻理解任務(wù)。
介紹
在這個項目中,展示了 Temporal-Shift-Module ( https://hanlab.mit.edu/projects/tsm/)在 FPGA 上解決視頻理解問題的實用性和性能。
TSM 是一種網(wǎng)絡(luò)結(jié)構(gòu),可以通過 2D CNN 有效學習時間關(guān)系。在較高級別上,這是通過一次對單個幀(在線 TSM)或多個幀(離線 TSM)執(zhí)行推理并在這些張量流經(jīng)網(wǎng)絡(luò)時在這些張量之間轉(zhuǎn)移激活來完成的。這是通過將shift操作插入 2D 主干網(wǎng)的bottleneck層(在本例中為 mobilenetv2 和 resnet50)來完成的。然后,該shift操作會打亂時間相鄰幀之間的部分輸入通道。
詳細的解析可以看下面的文章:
?
https://zhuanlan.zhihu.com/p/64525610
?
將這樣的模型部署到 FPGA 可以帶來許多好處。首先,由于 TSM 已經(jīng)在功效方面帶來了巨大優(yōu)勢,部署到 FPGA 可以進一步推動這一點。
TSM網(wǎng)絡(luò)結(jié)構(gòu)
我們將首先回顧這些 TSM 網(wǎng)絡(luò)的底層結(jié)構(gòu)以及到 DPU 兼容實現(xiàn)的轉(zhuǎn)換。TSM 網(wǎng)絡(luò)的核心結(jié)構(gòu)是插入骨干模型bottleneck層中的時間shift模塊,以實現(xiàn)時間建模。例如,插入shift操作后,TSM MobilenetV2 bottleneck層具有以下結(jié)構(gòu):
Online Shift
在演示的在線 TSM 網(wǎng)絡(luò)中,如果我們處于時間步驟 T,我們也處于推理輪 T。shift模塊將輸入通道的前 1/8 移位到包含來自上一推理輪的相同通道的shift緩沖區(qū)( T – 1)。然后,第 (T – 1) 輪的內(nèi)容被移入 T 輪的當前張量。
Offline Shift
對于離線 TSM,如 resnet50 演示(當前禁用)中所使用的,shift緩沖區(qū)被繞過。相反,我們將N 個相鄰的時間步驟作為批次中的張量進行處理。通道可以在批次內(nèi)直接移動,而不是將步驟 (T – 1) 中的通道存儲在緩沖區(qū)中。此外,這使得能夠訪問批次內(nèi)的未來回合(即推理步驟 T 可以與步驟 T + 1 存在于同一批次中)。通過這種訪問,離線shift也會將通道從步驟 T + 1 移位到步驟 T 的張量中。
DPU模型優(yōu)化
為了將TSM部署到 DPU,需要對原始 TSM 模型進行兩項重大更改。第一個是將shift模塊與網(wǎng)絡(luò)分離,因為我們無法使用支持的張量流操作來實現(xiàn)shift操作。為了實現(xiàn)這一目標,我們在每次出現(xiàn)shift模塊時對模型進行管道化。
通過將shift模塊放置在其自己的管道階段,我們可以靈活地從 DPU 內(nèi)核卸載shift操作。下面我們可以看到 MobilenetV2 在線 TSM 的前 4 個管道階段(從右到左)。如果比較兩個bottleneck層實現(xiàn),并刪除shift操作,則這對應(yīng)于以下轉(zhuǎn)換,其中bottleneck層在移位模塊之前包含 1 個輸出,在shift模塊之后包含 2 個輸入。一個輸入包含來自頂部分支的移位后張量,另一個輸入包含底部分支中未移位的殘差張量。
為簡單起見,這里我們使用 mobilenetV2 主干網(wǎng)來可視化 TSM,但 resnet-50 主干網(wǎng)也使用相同的方法。
為了實現(xiàn)這種流水線結(jié)構(gòu), Tensorflow 模型中有一個標志,指示我們是否要生成不包括移位操作的拆分模型(用于 DPU 部署)或在 Tensorflow 中實現(xiàn)移位操作的普通統(tǒng)一模型。如果設(shè)置了分割標志,則在每次移位操作之前添加新的輸出,并在移位后添加新的占位符,其中輸入移位后的輸入。
因為移位(shift)模塊僅插入到類似于上面所示的 3 級 MobilenetV2 瓶頸的結(jié)構(gòu)中,所以邏輯的實現(xiàn)得到了簡化。然而,對于 resnet 模型,我們確保在快捷路徑中的歸約邏輯之后插入移位管道階段。由于移位+卷積路徑在瓶頸層完成之前獨立于快捷路徑,因此快捷路徑上的操作可以放置在3個階段中的任何一個中。
DPU量化策略
雖然如上所述對模型進行流水線化簡化了轉(zhuǎn)換實現(xiàn),但由于我們的網(wǎng)絡(luò)不再是單個內(nèi)核,因此使 DPU 部署變得復(fù)雜。相反,我們?yōu)槊總€管道階段都有一個內(nèi)核,無需進行移位操作(MobilenetV2 為 11,resnet50 為 17)。
為了量化這樣的網(wǎng)絡(luò),我們必須為每個內(nèi)核提供未量化的輸入。為了生成這些信息,我們的模型可以在沒有管道階段的情況下生成。然后,我們直接在 Tensorflow 中對來自真實校準數(shù)據(jù)集的幀進行推理,但是我們在每個管道邊界轉(zhuǎn)儲中間網(wǎng)絡(luò)狀態(tài)。轉(zhuǎn)儲的狀態(tài)包括需要饋送到 vai_q_tensorflow 的節(jié)點名稱等元數(shù)據(jù)以及相應(yīng)的張量數(shù)據(jù)。當在校準集中重復(fù)推理時,所有這些信息都會被“波及”。
轉(zhuǎn)儲此中間推理信息后,我們獲得了輸入 vai_q_tensorflow 的每個內(nèi)核的輸入張量。該邏輯全部由我們的tensorflow模型腳本和quantize_split.sh腳本中的DUMP_QUANTIZE標志處理(項目結(jié)構(gòu)在“Deployment”部分中描述)。一旦對所有內(nèi)核運行量化,我們就可以為每個內(nèi)核生成一個 ELF 文件,就可以集成到我們的主代碼中。
演示
下面我們介紹 2 個平臺(ZCU104 和 Ultra96V2)和 2 個模型(MobilenetV2 Online TSM 和 Resnet50 Offline TSM)的性能細分。我們將 FPS 計算為 1/(預(yù)處理 + 推理延遲)。
MobilenetV2 在線 TSM 延遲:
ZCU104 (60.1 FPS) - B4096,300MHz,RAM 高,啟用所有功能
Ultra96V2 (38.4 FPS) - B2304,300MHz,RAM 低,啟用所有功能
現(xiàn)在,我們可以將推理延遲與之前在移動設(shè)備和 NVIDIA Jetson 平臺上收集的 TSM 數(shù)據(jù)進行比較。
部署
上面演示的所有代碼都位于 TSM github 存儲庫的 fpga 分支中:
?
https://github.com/mit-han-lab/temporal-shift-module
?
環(huán)境設(shè)置
要為上面這些設(shè)置開發(fā)環(huán)境,按照此處所述進行初始 Vitis-AI 環(huán)境設(shè)置:
?
https: //github.com/Xilinx/Vitis-AI
?
使用的 ZCU104 DPU 映像如下所述:
?
https: //github.com/Xilinx/Vitis-AI/tree/master/mpsoc
?
ZCU104 VCU 映像是按照此處所述的 ivas 示例應(yīng)用程序構(gòu)建的:
?
https://github. com/Xilinx/Vitis-In-Depth-Tutorial/tree/master/Runtime_and_System_Optimization/Design_Tutorials/02-ivas-ml
?
Ultra96V2 映像是根據(jù) 2020.1 Avnet BSP 構(gòu)建的,并在 petalinux 構(gòu)建時啟用 Vitis-AI
?
https://github.com/Avnet/vitis/tree/2020.1
?
參考文獻
?
https://www.hackster.io/joshua-noel/tsm-networks-for-efficient-video-understanding-on-fpga-f881ba
?
?
https://hanlab.mit.edu/projects/tsm/
?
?
https: //github.com/Xilinx/Vitis-AI/tree/master/mpsoc
?
?
https://github.com/Avnet/vitis/tree/2020.1
?
代碼
?
https://github.com/mit-han-lab/temporal-shift-module/tree/master/tsm_fpga
?
-
FPGA
+關(guān)注
關(guān)注
1645文章
22050瀏覽量
618420 -
模塊
+關(guān)注
關(guān)注
7文章
2788瀏覽量
50380 -
TSM
+關(guān)注
關(guān)注
0文章
7瀏覽量
6745
發(fā)布評論請先 登錄
怎么在xC8中傳遞和返回2D數(shù)組
怎么在xC8中傳遞和返回2D數(shù)組?
理解任務(wù)切換和任務(wù)狀態(tài)改變的關(guān)鍵是什么?
如何移植一個CNN神經(jīng)網(wǎng)絡(luò)到FPGA中?
可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實現(xiàn)關(guān)鍵詞識別
2D到3D視頻自動轉(zhuǎn)換系統(tǒng)

一款只通過單個普通的2D攝像頭就能實時捕捉視頻中的3D動作的系統(tǒng)
通過2D NoC可實現(xiàn)FPGA內(nèi)部超高帶寬邏輯互連

基于差分進化算法的CNN推斷任務(wù)卸載策略
從C 到 matlab 到 FPGA,如何實現(xiàn)CNN的項目
Achronix Speedster7t FPGA芯片中2D NoC的設(shè)計細節(jié)
2D執(zhí)行器在X/Y 2D空間中移動微型機器人

評論