NVIDIA TensorRT是一個(gè)用于高效實(shí)現(xiàn)已訓(xùn)練好的深度學(xué)習(xí)模型推理過(guò)程的軟件開(kāi)發(fā)工具包,內(nèi)含推理優(yōu)化器和運(yùn)行環(huán)境兩部分,其目的在于讓深度學(xué)習(xí)模型能夠在 GPU 上以更高吞吐量和更低的延遲運(yùn)行,目前已在業(yè)界得到廣泛應(yīng)用與部署。
為了幫助廣大開(kāi)發(fā)者更好地了解 TensorRT,NVIDIA GPU 計(jì)算專家團(tuán)隊(duì)(Devtech)工程師李瑋、王猛基于最新的 8.6.1 版本錄制了NVIDIA TensorRT 教程。本系列教程預(yù)計(jì) 4 小時(shí),包含五個(gè)章節(jié),旨在相對(duì)全面地介紹 TensorRT。該教程濃縮了 NVIDIA TensorRT 開(kāi)發(fā)團(tuán)隊(duì)的技術(shù)和經(jīng)驗(yàn),以及與客戶在合作過(guò)程中遇到的各種問(wèn)題和相應(yīng)的解決方法,期待開(kāi)發(fā)者們?cè)谟^看該教程及配套代碼庫(kù)后能有所收獲,為學(xué)習(xí)、科研和工作添磚加瓦。
需要注意的是,在未來(lái)版本的 TensorRT 中,部分 API 和用法可能發(fā)生變化,該教程內(nèi)容也會(huì)隨之進(jìn)行更新,請(qǐng)?jiān)谂浜洗a進(jìn)行學(xué)習(xí)的時(shí)候,注意開(kāi)發(fā)環(huán)境和軟件版本,避免兼容性方面的問(wèn)題。
立即掃碼充電!
TensorRT教程介紹
第一部分:TensorRT 簡(jiǎn)介(時(shí)長(zhǎng): 41 分鐘)
●TensorRT 基本特性和用法●Workflow:使用 TensorRT API 搭建●Workflow:使用 ONNX-Parser●Workflow:使用框架內(nèi) TensorRT 接口 本章節(jié)將介紹 TensorRT 的基本特性和用法,并介紹使用 TensorRT 的三種常見(jiàn)工作流程。在該章節(jié)中,將從頭搭建一個(gè)可以在 TensorRT 中運(yùn)行推理計(jì)算的程序,方便了解一些基本 API 的用法,然后分別使用 TensorRT 的原生 API 搭建、使用 Parser 解析 ONNX 模型,以及使用 TensorFlow 和 Pytorch 等平臺(tái)自帶的 TensorRT 接口這三種方法將 TensorRT 用起來(lái)。
第二部分:開(kāi)發(fā)輔助工具(時(shí)長(zhǎng):24 分鐘)
●trtexec●Netron●polygraphy●onnx-graphsurgeon●NsightSystems
本章節(jié)介紹使用 TensorRT 過(guò)程中五個(gè)常用的開(kāi)發(fā)輔助工具,它們?cè)谛阅軠y(cè)試、網(wǎng)絡(luò)可視化、模型遷移、精度檢驗(yàn)、計(jì)算圖編輯、模型整體性能優(yōu)化等方面都起到了重要的作用。第二章節(jié)將逐一介紹這五個(gè)工具,并列舉在實(shí)際工作中使用這些工具的范例和經(jīng)驗(yàn)。
第三部分:插件書寫(時(shí)長(zhǎng):18 分鐘)
●使用 Plugin 的簡(jiǎn)單例子●關(guān)鍵 API●結(jié)合使用 Parser 和 Plugin●Plugin 高級(jí)話題●使用 Plugin 的例子
本章節(jié)將著重介紹 TensorRT Plugin 的相關(guān)技術(shù),將從一個(gè)最簡(jiǎn)單的標(biāo)量加法的 Plugin 例子開(kāi)始,講解 Plugin 的原理、特性、用法等,然后介紹一個(gè)把 Plugin 和 Parser 結(jié)合使用的例子,最后補(bǔ)充一些 Plugin 的高級(jí)用法,以及在工作中使用 Plugin 的一些案例。
第四部分:TensorRT高級(jí)用法(時(shí)長(zhǎng): 28 分鐘)
●多 OptimizationProfile●多 Stream●多 Context●CUDAGraph●TimingCache●Refit●TacticSource●硬件兼容+版本兼容●更多工具
本章節(jié)將介紹 TensorRT 的一些高級(jí)話題。這些技術(shù)在 TensorRT 的使用過(guò)程中不是必須的,但在復(fù)雜的實(shí)際應(yīng)用場(chǎng)景中,這些技術(shù)對(duì)于改善模型性能和內(nèi)存占用、模型的調(diào)試分析、算法精確控制等方面有重要的作用。建議在完成前三個(gè)章節(jié)的學(xué)習(xí)后,瀏覽本章節(jié),將對(duì) TensorRT 的使用起到錦上添花的作用。
第五部分:常見(jiàn)優(yōu)化策略(時(shí)長(zhǎng):1 小時(shí) 42 分鐘)
●概述●性能分析工具●性能優(yōu)化實(shí)例
本章節(jié)將介紹 TensorRT 工作流程中常見(jiàn)的模型優(yōu)化方法。該部分內(nèi)容將深入講解 TensorRT 相關(guān)性能分析工具,并以實(shí)例方式講述曾經(jīng)遇到過(guò)的一個(gè)模型在移植、優(yōu)化、部署的過(guò)程中使用的優(yōu)化策略。

TensorRT Hackathon、
生成式 AI 模型優(yōu)化賽
火熱報(bào)名中!
由阿里云、 NVIDIA 聯(lián)合舉辦,由阿里云天池平臺(tái)組織運(yùn)營(yíng)的“NVIDIA TensorRT Hackathon 2023 生成式 AI 模型優(yōu)化賽”正在火熱報(bào)名中,截止時(shí)間 8 月 14 日上午 10:00。該賽事面向全社會(huì)開(kāi)放,接受個(gè)人或不多于三人的組隊(duì)形式參賽。
掃碼報(bào)名參賽!

相關(guān)資源鏈接:
?TensorRT 介紹:https://developer.nvidia.com/tensorrt?TensorRT下載:https://developer.nvidia.com/nvidia-tensorrt-download?TensorRT Cookbook(本教程配套代碼,包含視頻以外的更多范例代碼):https://github.com/NVIDIA/trt-samples-for-hackathon-cn/tree/master/cookbook
?TensorRT文檔:https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html
?C++ API文檔:https://docs.nvidia.com/deeplearning/tensorrt/api/c_api/
?Python API文檔:https://docs.nvidia.com/deeplearning/tensorrt/api/python_api/ 點(diǎn)擊“閱讀原文”,查看 TensorRT 全新教程! 掃描下方海報(bào)二維碼,在 8 月 8日聆聽(tīng)NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開(kāi)發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。
原文標(biāo)題:學(xué)習(xí)資源 | NVIDIA TensorRT 全新教程上線
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3953瀏覽量
93775
原文標(biāo)題:學(xué)習(xí)資源 | NVIDIA TensorRT 全新教程上線
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

NVIDIA攜手合作伙伴提升AI智能體的交互能力
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

【AIBOX應(yīng)用】通過(guò) NVIDIA TensorRT 實(shí)現(xiàn)實(shí)時(shí)快速的語(yǔ)義分割

解鎖NVIDIA TensorRT-LLM的卓越性能
NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

使用NVIDIA TensorRT提升Llama 3.2性能
TensorRT-LLM低精度推理優(yōu)化

NVIDIA發(fā)布全新AI和仿真工具以及工作流
NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

評(píng)論