一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Nsight Compute進行高級內(nèi)核評測

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Nsight Compute 的這一版本擴展了現(xiàn)有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應(yīng)用程序中 CUDA API 調(diào)用和內(nèi)核啟動的完整范圍。度量與整個范圍相關(guān)聯(lián),而不是單個內(nèi)核。這允許該工具在不序列化的情況下執(zhí)行內(nèi)核,并支持出于正確性或性能原因而需要并發(fā)運行的評測內(nèi)核。范圍由起點和終點標記組成;并包括所有 CUDA API 調(diào)用和從任何 CPU 線程在這些標記之間啟動的內(nèi)核。

范圍標記可以使用以下任一方法定義:

分析器啟動/停止 API

poYBAGJWJZyAM4wPAAD3mEfYmy4917.png

NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個過程都會收集整個范圍的性能信息。

記憶分析

在 A100 上評測時,內(nèi)存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數(shù)和達到的命中率。在同一部分中,二級緩存表現(xiàn)在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創(chuàng)建的流量。

poYBAGJWJY2AX77tAAHDYYpGHeU478.png

圖 2 。內(nèi)存工作負載分析表的改進: ECC 和二級緩存逐出策略信息。

引導(dǎo)分析

Nsight Compute 現(xiàn)在通過在打開報表時在摘要和詳細信息頁面之間動態(tài)選擇,可以更輕松地在多結(jié)果集合中選擇初始分析目標。規(guī)則被擴展以檢測非融合浮點指令作為優(yōu)化機會。最后,但并非最不重要的一點是,當觸發(fā)未恢復(fù)的內(nèi)存訪問規(guī)則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。

pYYBAGJWJaiAFQ_AAAJeY82_dps659.png

圖 3 。打開多結(jié)果報告現(xiàn)在會顯示摘要頁面,允許您對結(jié)果進行排序并決定優(yōu)化順序。

pYYBAGJWJbWAF8QkAAHXhz-C6j4326.png

圖 4 。這兩種未恢復(fù)的內(nèi)存訪問規(guī)則都以更簡潔、更有序的格式呈現(xiàn)結(jié)果。

其他改進

進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執(zhí)行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。

關(guān)于作者

Chaitrali Joshi 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,專注于電信 5G 系統(tǒng)的設(shè)計和開發(fā)。她對網(wǎng)絡(luò)空間有著深入的了解,是移動通信系統(tǒng)和云棧方面的專家。在英特爾之前,她是一名領(lǐng)導(dǎo),向開發(fā)人員宣傳電信技術(shù)和邊緣計算技術(shù)。她獲得了加利福尼亞大學(xué)計算機科學(xué)碩士學(xué)位,戴維斯專注于軟件定義的網(wǎng)絡(luò)和多址邊緣計算( MEC )。

Jackson Marusarz 是 NVIDIA 計算開發(fā)工具的產(chǎn)品經(jīng)理。他關(guān)注如何使用工具使所有開發(fā)人員能夠輕松高效地評測、調(diào)試和優(yōu)化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學(xué)計算機工程碩士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106412
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4948

    瀏覽量

    131249
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4900

    瀏覽量

    70747
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    名單公布!【書籍評測活動NO.60】運算放大器參數(shù)解析與LTspice應(yīng)用仿真

    本期評測名單如下 jf_69121293、meiyaolei、jf_1137202360 請以上幾位大佬聯(lián)系工作人員(微信:elecfans_666)領(lǐng)取書籍進行評測,如在5個工作日內(nèi)未聯(lián)系
    發(fā)表于 04-21 16:18

    請問如何使用UUU進行獨立內(nèi)核構(gòu)建?

    我已經(jīng)成功地使用 UUU 安裝了一個 yocto 構(gòu)建的內(nèi)核,我不知道如何使用它來安裝一個獨立內(nèi)核構(gòu)建.盡管關(guān)于如何使用它的信息不少 (https://github.com/nxp-imx
    發(fā)表于 04-04 06:07

    【米爾-STM32MP257開發(fā)板試用】——開箱評測

    1.5GHz+400MHz;可以用在車聯(lián)網(wǎng),工業(yè)控制領(lǐng)域,Cortex-A35可以跑linux系統(tǒng),Cortex-M33可以用來跑FreeRTOS系統(tǒng),兩個內(nèi)核之間可以通過共享內(nèi)存,硬件信號量來進行信息
    發(fā)表于 03-31 12:23

    貿(mào)澤開售適用于AI和嵌入式應(yīng)用的 全新Raspberry Pi Compute Module 5

    2025 年 3 月 20 日 – 專注于推動行業(yè)創(chuàng)新的知名新品引入 (NPI) 代理商?貿(mào)澤電子 (Mouser Electronics) 即日起供應(yīng)Raspberry Pi的全新Compute
    發(fā)表于 03-24 15:09 ?207次閱讀

    在華為云上通過 Docker 容器部署 Elasticsearch 并進行性能評測

    Elasticsearch容器 ? 3.3 驗證Elasticsearch ? 4. 安裝Apache Benchmark (ab) 工具 ? 5. 使用 ab 工具對 Elasticsearch 進行評測 ? 5.1
    的頭像 發(fā)表于 01-13 13:36 ?492次閱讀
    在華為云上通過 Docker 容器部署 Elasticsearch 并<b class='flag-5'>進行</b>性能<b class='flag-5'>評測</b>

    名單公布!【書籍評測活動NO.54】典型電子電路設(shè)計與測試

    本期評測名單如下 jf_80391399、jf_04611493、zcz20053550、jf_87445960 請以上幾位大佬聯(lián)系工作人員(微信:elecfans123)領(lǐng)取書籍進行評測,如在
    發(fā)表于 01-06 11:17

    Silicon Labs攜手Eta Compute簡化邊緣ML開發(fā)

    Silicon Labs(芯科科技)與 Eta Compute近期共同宣布建立合作伙伴關(guān)系,將支持產(chǎn)品開發(fā)人員將機器學(xué)習(xí)(ML)高級功能無縫集成到其邊緣ML嵌入式產(chǎn)品中,以添加多樣應(yīng)用價值。
    的頭像 發(fā)表于 12-12 10:26 ?641次閱讀

    數(shù)字電機控制的未來:一個MCU上的多個電機、嵌入式AI和高級算法

    RA8T1 32位MCU采用Arm Cortex-M85內(nèi)核,采用氦氣技術(shù),頻率高達480MHz,封裝針對電機或逆變器控制進行了優(yōu)化。與市場上的其他電機控制解決方案相比,該產(chǎn)品明顯更快、更先進,并為AI等高級算法帶來了充足的動力
    發(fā)表于 11-20 14:33 ?1277次閱讀
    數(shù)字電機控制的未來:一個MCU上的多個電機、嵌入式AI和<b class='flag-5'>高級</b>算法

    RISC-V內(nèi)核是如何與FPGA內(nèi)核進行資源共享的?

    我們知道RISC-V內(nèi)核支持的精簡指令集,F(xiàn)PGA又是要求性能相對比較高的模塊,這兩者在同一個產(chǎn)品中可否共存?若能,兩者的資源又是通過哪些接口進行傳輸共享的呢?
    發(fā)表于 10-27 17:05

    使用增強型仿真模塊(EEM)和CCS v6進行高級調(diào)試

    電子發(fā)燒友網(wǎng)站提供《使用增強型仿真模塊(EEM)和CCS v6進行高級調(diào)試.pdf》資料免費下載
    發(fā)表于 10-21 09:53 ?0次下載
    使用增強型仿真模塊(EEM)和CCS v6<b class='flag-5'>進行</b><b class='flag-5'>高級</b>調(diào)試

    安達發(fā)|APS高級排程高級物料需求計劃

    APS高級排程高級物料需求計劃是在制造業(yè)中非常重要的概念。它們分別涉及到生產(chǎn)計劃和物料管理,對于提高生產(chǎn)效率、降低成本和滿足客戶需求具有重要意義。下面我將詳細介紹這兩個概念及其在實際生產(chǎn)
    的頭像 發(fā)表于 09-25 17:49 ?635次閱讀
    安達發(fā)|APS<b class='flag-5'>高級</b>排程<b class='flag-5'>高級</b>物料需求計劃

    名單公布!【書籍評測活動NO.45】RISC-V體系結(jié)構(gòu)編程與實踐(第二版)

    本期評測名單如下 sunc ggg 、張淑源 、火印冰薪 、winter91、來我這兒 請以上幾位大佬聯(lián)系工作人員(微信:elecfans123)領(lǐng)取書籍進行評測,如在5個工作日內(nèi)未聯(lián)系,視為
    發(fā)表于 09-25 10:08

    linux驅(qū)動程序如何加載進內(nèi)核

    在Linux系統(tǒng)中,驅(qū)動程序是內(nèi)核與硬件設(shè)備之間的橋梁。它們允許內(nèi)核與硬件設(shè)備進行通信,從而實現(xiàn)對硬件設(shè)備的控制和管理。 驅(qū)動程序的編寫 驅(qū)動程序的編寫是Linux驅(qū)動開發(fā)的基礎(chǔ)。在編寫驅(qū)動程序之前
    的頭像 發(fā)表于 08-30 15:02 ?1102次閱讀

    名單公布!【書籍評測活動NO.42】 嵌入式Hypervisor:架構(gòu)、原理與應(yīng)用

    本期評測名單如下 super杰杰、nicegirl 、熊治坤 、水泊梁山901、jf_02192444 請以上幾位大佬聯(lián)系工作人員(微信:elecfans123)領(lǐng)取書籍進行評測,如在5個
    發(fā)表于 08-23 15:17

    Linux內(nèi)核測試技術(shù)

    Linux 內(nèi)核是Linux操作系統(tǒng)的核心部分,負責管理硬件資源和提供系統(tǒng)調(diào)用接口。隨著 Linux 內(nèi)核的不斷發(fā)展和更新,其復(fù)雜性和代碼規(guī)模也在不斷增加。因此,確保內(nèi)核的穩(wěn)定性和可靠性變得尤為重要
    的頭像 發(fā)表于 08-13 13:42 ?1307次閱讀
    Linux<b class='flag-5'>內(nèi)核</b>測試技術(shù)