Nsight Compute 的這一版本擴展了現(xiàn)有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應(yīng)用程序中 CUDA API 調(diào)用和內(nèi)核啟動的完整范圍。度量與整個范圍相關(guān)聯(lián),而不是單個內(nèi)核。這允許該工具在不序列化的情況下執(zhí)行內(nèi)核,并支持出于正確性或性能原因而需要并發(fā)運行的評測內(nèi)核。范圍由起點和終點標記組成;并包括所有 CUDA API 調(diào)用和從任何 CPU 線程在這些標記之間啟動的內(nèi)核。
范圍標記可以使用以下任一方法定義:
分析器啟動/停止 API
NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個過程都會收集整個范圍的性能信息。
記憶分析
在 A100 上評測時,內(nèi)存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數(shù)和達到的命中率。在同一部分中,二級緩存表現(xiàn)在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創(chuàng)建的流量。
圖 2 。內(nèi)存工作負載分析表的改進: ECC 和二級緩存逐出策略信息。
引導(dǎo)分析
Nsight Compute 現(xiàn)在通過在打開報表時在摘要和詳細信息頁面之間動態(tài)選擇,可以更輕松地在多結(jié)果集合中選擇初始分析目標。規(guī)則被擴展以檢測非融合浮點指令作為優(yōu)化機會。最后,但并非最不重要的一點是,當觸發(fā)未恢復(fù)的內(nèi)存訪問規(guī)則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。
圖 3 。打開多結(jié)果報告現(xiàn)在會顯示摘要頁面,允許您對結(jié)果進行排序并決定優(yōu)化順序。
圖 4 。這兩種未恢復(fù)的內(nèi)存訪問規(guī)則都以更簡潔、更有序的格式呈現(xiàn)結(jié)果。
其他改進
進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執(zhí)行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。
關(guān)于作者
Chaitrali Joshi 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,專注于電信 5G 系統(tǒng)的設(shè)計和開發(fā)。她對網(wǎng)絡(luò)空間有著深入的了解,是移動通信系統(tǒng)和云棧方面的專家。在英特爾之前,她是一名領(lǐng)導(dǎo),向開發(fā)人員宣傳電信技術(shù)和邊緣計算技術(shù)。她獲得了加利福尼亞大學(xué)計算機科學(xué)碩士學(xué)位,戴維斯專注于軟件定義的網(wǎng)絡(luò)和多址邊緣計算( MEC )。
Jackson Marusarz 是 NVIDIA 計算開發(fā)工具的產(chǎn)品經(jīng)理。他關(guān)注如何使用工具使所有開發(fā)人員能夠輕松高效地評測、調(diào)試和優(yōu)化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學(xué)計算機工程碩士學(xué)位。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106412 -
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131249 -
代碼
+關(guān)注
關(guān)注
30文章
4900瀏覽量
70747
發(fā)布評論請先 登錄
名單公布!【書籍評測活動NO.60】運算放大器參數(shù)解析與LTspice應(yīng)用仿真
請問如何使用UUU進行獨立內(nèi)核構(gòu)建?
【米爾-STM32MP257開發(fā)板試用】——開箱評測
貿(mào)澤開售適用于AI和嵌入式應(yīng)用的 全新Raspberry Pi Compute Module 5
在華為云上通過 Docker 容器部署 Elasticsearch 并進行性能評測

名單公布!【書籍評測活動NO.54】典型電子電路設(shè)計與測試
Silicon Labs攜手Eta Compute簡化邊緣ML開發(fā)
數(shù)字電機控制的未來:一個MCU上的多個電機、嵌入式AI和高級算法

RISC-V內(nèi)核是如何與FPGA內(nèi)核進行資源共享的?
使用增強型仿真模塊(EEM)和CCS v6進行高級調(diào)試

安達發(fā)|APS高級排程高級物料需求計劃

名單公布!【書籍評測活動NO.45】RISC-V體系結(jié)構(gòu)編程與實踐(第二版)
linux驅(qū)動程序如何加載進內(nèi)核
名單公布!【書籍評測活動NO.42】 嵌入式Hypervisor:架構(gòu)、原理與應(yīng)用
Linux內(nèi)核測試技術(shù)

評論