一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為MLPerf HPC v1.0實(shí)現(xiàn)的選定優(yōu)化

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Sukru Burc Eryilmaz ? 2022-04-02 12:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統(tǒng)贏得了五項(xiàng)新的行業(yè)指標(biāo)中的四項(xiàng),這些指標(biāo)主要關(guān)注 HPC 中的人工智能性能。作為一個(gè)全行業(yè)人工智能聯(lián)盟, MLPerf HPC 評(píng)估了一套性能基準(zhǔn),涵蓋了廣泛使用的人工智能工作負(fù)載。

在這一輪中,與 MLPerf 0 . 7 的強(qiáng)大擴(kuò)展性結(jié)果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強(qiáng)大的表現(xiàn)得益于成熟的 NVIDIA AI 平臺(tái)和全套軟件。

提供豐富多樣的庫(kù)、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時(shí)何地應(yīng)用正確的資產(chǎn)。這篇文章詳細(xì)介紹了各種場(chǎng)景的工具、技術(shù)和好處,并概述了 CosmoFlow 和 DeepCAM 基準(zhǔn)測(cè)試所取得的成果。

我們已經(jīng)為 MLPerf Training v1.0 和 MLPerf Inference v1.1 發(fā)布了類似的指南,推薦用于其他面向基準(zhǔn)測(cè)試的案例。

調(diào)整計(jì)劃

我們使用包括 NVIDIA DALI 在內(nèi)的工具對(duì)代碼進(jìn)行了優(yōu)化,以加速數(shù)據(jù)處理,以及 CUDA Graphs 減少了小批量延遲,從而有效地?cái)U(kuò)展到 1024 個(gè)或更多 GPU 。我們還應(yīng)用了 NVIDIA SHARP ,通過(guò)將一些操作卸載到網(wǎng)絡(luò)交換機(jī)來(lái)加速通信

我們提交的文件中使用的軟件可從 MLPerf repository 獲得。我們定期向 NGC catalog 添加新工具和新版本,這是我們針對(duì)預(yù)訓(xùn)練 AI 模型、行業(yè)應(yīng)用程序框架、 GPU 應(yīng)用程序和其他軟件資源的軟件中心

主要性能優(yōu)化

在本節(jié)中,我們將深入討論為 MLPerf HPC 1 . 0 實(shí)現(xiàn)的選定優(yōu)化。

使用 NVIDIA DALI 庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理

在每次迭代之前,從磁盤獲取數(shù)據(jù)并進(jìn)行預(yù)處理。我們從默認(rèn)的數(shù)據(jù)加載器移到了 NVIDIA DALI library 。這為 GPU 提供了優(yōu)化的數(shù)據(jù)加載和預(yù)處理功能。

DALI 庫(kù)使用 CPU 和 GPU 的組合,而不是在 CPU 上執(zhí)行數(shù)據(jù)加載和預(yù)處理并將結(jié)果移動(dòng)到 GPU 。這將為即將到來(lái)的迭代帶來(lái)更有效的數(shù)據(jù)預(yù)處理。優(yōu)化后, CosmoFlow 和 DeepCAM 的速度都顯著加快。 DeepCAM 實(shí)現(xiàn)了超過(guò) 50% 的端到端性能提升。

此外, DALI 還為即將到來(lái)的迭代提供異步數(shù)據(jù)加載,以消除關(guān)鍵路徑的 I / O 開銷。啟用此模式后,我們看到 DeepCAM 額外增加了 70% 。

將通道應(yīng)用于最后的 NHWC 布局

默認(rèn)情況下, DeepCAM 基準(zhǔn)使用 NCHW 布局作為激活張量。我們使用 PyTorch 的通道 last ( NHWC 布局)支持來(lái)避免額外的轉(zhuǎn)置內(nèi)核。 cuDNN 中的大多數(shù)卷積核都針對(duì) NHWC 布局進(jìn)行了優(yōu)化。

因此,在框架中使用 NCHW 布局需要額外的轉(zhuǎn)置內(nèi)核,以便從 NCHW 轉(zhuǎn)換到 NHWC ,從而實(shí)現(xiàn)高效的卷積運(yùn)算。在框架中使用 NHWC 布局避免了這些冗余拷貝,并在 DeepCAM 模型上實(shí)現(xiàn)了約 10% 的性能提升。 NHWC support 在 PyTorch 框架中以 beta 模式提供。

CUDA 圖

CUDA 圖形允許啟動(dòng)由一系列內(nèi)核組成的單個(gè)圖形,而不是單獨(dú)啟動(dòng)從 CPU 到 GPU 的每個(gè)內(nèi)核。此功能最大限度地減少了 CPU 在每次迭代中的參與,通過(guò)最大限度地減少延遲(尤其是在強(qiáng)擴(kuò)展場(chǎng)景中)顯著提高了性能。

MXNet 先前添加了 CUDA 圖形支持,而 CUDA Graphs support 最近也添加到了 PyTorch 。 PyTorch 中的 CUDA 圖形支持使 DeepCAM 在強(qiáng)擴(kuò)展場(chǎng)景中的端到端性能提高了約 15% ,這對(duì)延遲和抖動(dòng)最為敏感。

使用 MPI 進(jìn)行高效的數(shù)據(jù)暫存

在伸縮性較弱的情況下,分布式文件系統(tǒng)的性能無(wú)法滿足 GPU 的需求。為了增加總存儲(chǔ)帶寬,我們將數(shù)據(jù)集放入 DeepCAM 的節(jié)點(diǎn)本地 NVME 內(nèi)存中。

由于各個(gè)實(shí)例都很小,我們可以靜態(tài)地分割數(shù)據(jù),因此每個(gè)節(jié)點(diǎn)只需要準(zhǔn)備完整數(shù)據(jù)集的一小部分。該解決方案如圖 1 所示。這里,我們用 M 表示實(shí)例數(shù),用 N 表示每個(gè)實(shí)例的秩數(shù)。

圖 1 :將列組聚集到碎片中。

請(qǐng)注意,跨實(shí)例,具有相同列組 ID 的每個(gè)列組使用相同的數(shù)據(jù)碎片。這意味著在本機(jī)上,每個(gè)數(shù)據(jù)碎片被讀取 M 次。為了減輕文件系統(tǒng)的壓力,我們創(chuàng)建了與實(shí)例正交的數(shù)據(jù)子硬盤,如圖 2 所示。

圖 2 :亞硬化的演示。

這樣,每個(gè)文件從全局文件系統(tǒng)只讀一次。最后,每個(gè)實(shí)例都需要接收所有數(shù)據(jù)。為此,我們創(chuàng)建了與實(shí)例內(nèi)通訊器正交的新 MPI 通訊器,也就是說(shuō),我們將具有相同列組 id 的所有實(shí)例列組組合到相同的實(shí)例間通訊器中。然后,我們可以使用 MPI allgather 將各個(gè)子硬盤組合成原始碎片的 M 個(gè)副本。

圖 3 :子硬塊的分布。

我們不按順序執(zhí)行這些步驟,而是使用批處理來(lái)創(chuàng)建一個(gè)管道,該管道與子硬盤的數(shù)據(jù)讀取和分發(fā)重疊。為了提高讀寫性能,我們進(jìn)一步實(shí)現(xiàn)了一個(gè)小型輔助工具,它使用 O _ DIRECT 來(lái)提高 I / O 帶寬。

優(yōu)化使 DeepCAM 基準(zhǔn)測(cè)試的端到端加速比超過(guò) 2 倍。這在提交文件 repository 中提供。

損失函數(shù)的混合編程

使用命令式編程可以靈活地定義和運(yùn)行模型,這樣定義一個(gè)機(jī)器學(xué)習(xí)模型就像寫一個(gè)python程序。與此相對(duì)的是符號(hào)式編程,它會(huì)先定義計(jì)算過(guò)程,然后再執(zhí)行。這種編程方法允許執(zhí)行引擎進(jìn)行各種優(yōu)化,但丟失了命令式方法的靈活性。

MXNet 框架采用了合并這兩種方法的混合式編程。命令式定義的計(jì)算可以被編譯成符號(hào)式,并在可能時(shí)進(jìn)行優(yōu)化。CosmoFlow 將模型混合式編程進(jìn)行了擴(kuò)展,把損失函數(shù)也包含進(jìn)來(lái)。

Hybridization of a larger scope of the model allows realizing further fusion opportunities.

圖 4 :損失函數(shù)的模型混合式。

這允許將損耗計(jì)算中的元素操作與 CosmoFlow 模型的縮放激活輸出進(jìn)行融合,從而減少總體迭代延遲。優(yōu)化使 CosmoFlow 的端到端性能提高了近 5% 。

節(jié)間均采用夏普處理,降低了集體成本

SHARP 允許將集合操作從 CPU 卸載到節(jié)間網(wǎng)絡(luò)結(jié)構(gòu)中的交換機(jī)。這有效地將 allreduce 操作的 InfiniBand 網(wǎng)絡(luò)的節(jié)間帶寬增加了一倍。這種優(yōu)化可使 MLPerf HPC 基準(zhǔn)測(cè)試的性能提高高達(dá) 5% ,特別是在強(qiáng)擴(kuò)展場(chǎng)景中。

繼續(xù)使用 MLPerf HPC

科學(xué)家們正在加速取得突破,部分原因是人工智能和高性能計(jì)算相結(jié)合,能夠比傳統(tǒng)方法更快、更準(zhǔn)確地提供洞察力。

MLPerf HPC v1 . 0 反映了超級(jí)計(jì)算行業(yè)對(duì)客觀、同行評(píng)審的方法的需求,以測(cè)量和比較與 HPC 相關(guān)用例的 AI 培訓(xùn)性能。在這一輪中, NVIDIA 計(jì)算平臺(tái)通過(guò)損壞所有三個(gè)性能基準(zhǔn)來(lái)證明清晰的領(lǐng)導(dǎo),同時(shí)也證明了兩個(gè)吞吐量測(cè)量的最高效率。

關(guān)于作者

Sukru Burc Eryilmaz 是 NVIDIA 計(jì)算機(jī)體系結(jié)構(gòu)的高級(jí)架構(gòu)師,他致力于在單節(jié)點(diǎn)和超級(jí)計(jì)算機(jī)規(guī)模上改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的端到端性能。他從斯坦福大學(xué)獲得博士學(xué)位,并從比爾肯特大學(xué)獲得學(xué)士學(xué)位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5299

    瀏覽量

    106293
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7657

    瀏覽量

    90704
  • MLPerf
    +關(guān)注

    關(guān)注

    0

    文章

    36

    瀏覽量

    818
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深控?cái)?shù)據(jù)平臺(tái)V1.0發(fā)布!以IoT之力重塑工廠“數(shù)據(jù)脈絡(luò)”

    自主研發(fā)的“深控?cái)?shù)據(jù)平臺(tái)V1.0”(軟著登記號(hào):XXXXXXXX),以IoT技術(shù)核心,打造“全域感知-智能分析-精準(zhǔn)控制”的一體化平臺(tái)。
    的頭像 發(fā)表于 05-28 14:56 ?171次閱讀

    CR6520B應(yīng)用指導(dǎo)書 V1.0

    電子發(fā)燒友網(wǎng)站提供《CR6520B應(yīng)用指導(dǎo)書 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 04-22 15:52 ?0次下載

    中軟國(guó)際推出昇騰金融AI解決方案和一體機(jī)v1.0

    近日,中軟國(guó)際重磅推出昇騰金融AI解決方案和一體機(jī)v1.0,該方案基于昇騰AI基礎(chǔ)軟硬件平臺(tái),完成并通過(guò)昇騰原生技術(shù)認(rèn)證,深度對(duì)接DeepSeek大模型,金融行業(yè)帶來(lái)了創(chuàng)新的數(shù)字化轉(zhuǎn)型思路,旨在
    的頭像 發(fā)表于 03-28 17:05 ?593次閱讀

    主機(jī)處理器板DSI MIPI輸出是否與DLPC3430的DSI輸入匹配?就是v1.0V1.2是否兼容?

    DLPC3430和DLPC3433控制器實(shí)現(xiàn)DSI v1.02.00和D-PHY MIPI v1.0,主機(jī)處理器DSI變送器的DSI適用標(biāo)準(zhǔn)MIPI聯(lián)盟規(guī)范,DSIV1.2和MIP
    發(fā)表于 02-25 06:29

    WH-M溫濕度模塊安裝使用說(shuō)明書 V1.0

    電子發(fā)燒友網(wǎng)站提供《WH-M溫濕度模塊安裝使用說(shuō)明書 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 02-19 14:30 ?0次下載

    EG3112芯片數(shù)據(jù)手冊(cè) V1.0

    電子發(fā)燒友網(wǎng)站提供《EG3112芯片數(shù)據(jù)手冊(cè) V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 02-08 15:36 ?1次下載

    HPC工作負(fù)載管理的關(guān)鍵要素

    HPC工作負(fù)載管理是一個(gè)復(fù)雜而精細(xì)的過(guò)程,涉及資源分配、作業(yè)調(diào)度、性能監(jiān)控與優(yōu)化以及故障處理與恢復(fù)等多個(gè)關(guān)鍵要素。下面,AI部落小編帶您了解HPC工作負(fù)載管理的關(guān)鍵要素。
    的頭像 發(fā)表于 02-08 09:53 ?323次閱讀

    HPC云計(jì)算的技術(shù)架構(gòu)

    HPC云計(jì)算結(jié)合了HPC的強(qiáng)大計(jì)算能力和云計(jì)算的彈性、可擴(kuò)展性,用戶提供了按需獲取高性能計(jì)算資源的便利。下面,AI部落小編帶您了解HPC云計(jì)算的技術(shù)架構(gòu)。
    的頭像 發(fā)表于 02-05 14:51 ?384次閱讀

    云計(jì)算HPC軟件關(guān)鍵技術(shù)

    云計(jì)算HPC軟件關(guān)鍵技術(shù)涉及系統(tǒng)架構(gòu)、處理器技術(shù)、操作系統(tǒng)、計(jì)算加速、網(wǎng)絡(luò)技術(shù)以及軟件優(yōu)化等多個(gè)方面。下面,AI部落小編帶您探討云計(jì)算HPC軟件的關(guān)鍵技術(shù)。
    的頭像 發(fā)表于 12-18 11:23 ?449次閱讀

    APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0

    電子發(fā)燒友網(wǎng)站提供《APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 12-16 14:11 ?0次下載

    ESP32-CAM Wi-Fi+BT SoC模組 V1.0

    電子發(fā)燒友網(wǎng)站提供《ESP32-CAM Wi-Fi+BT SoC模組 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 11-21 16:24 ?1次下載

    浪潮信息AI存儲(chǔ)性能測(cè)試的領(lǐng)先之道

    AI技術(shù)的無(wú)限可能。近日,在MLCommons的子項(xiàng)目MLPerf Storage v1.0性能基準(zhǔn)評(píng)測(cè)中,浪潮信息再度展現(xiàn)了在AI存儲(chǔ)領(lǐng)域的卓越實(shí)力。
    的頭像 發(fā)表于 10-29 16:30 ?645次閱讀
    浪潮信息AI存儲(chǔ)性能測(cè)試的領(lǐng)先之道

    浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

    北京2024年9月27日?/美通社/ -- 9月25日,MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7表現(xiàn)出
    的頭像 發(fā)表于 09-28 16:46 ?404次閱讀
    浪潮信息AS13000G7榮獲<b class='flag-5'>MLPerf</b>? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

    第四章:對(duì)廣東龍芯2K0300-蜂鳥板-v1.0視頻教程我的感觸

    我全部下載了廣東龍芯2K0300-蜂鳥板-v1.0視頻教程共十四個(gè)。 (在嘩哩嘩哩地址https://space.bilibili.com/481273999) 將看后的感想總結(jié)如下: 龍芯
    發(fā)表于 09-11 18:10

    qdprobot for mixly軟件及模塊操作教程v1.0

    電子發(fā)燒友網(wǎng)站提供《qdprobot for mixly軟件及模塊操作教程v1.0.pdf》資料免費(fèi)下載
    發(fā)表于 08-06 14:23 ?0次下載