一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPUNet 由 AI 為 AI 精心打造,是一類卷積神經(jīng)網(wǎng)絡(luò),旨在使用 NVIDIA TensorRT 最大化 NVIDIA GPU 的性能。

使用新的神經(jīng)架構(gòu)搜索( NAS )方法構(gòu)建, GPUNet 展示了最先進的推理性能,比 EfficientNet-X 和 FBNet-V3 快兩倍。

NAS 方法有助于為廣泛的應(yīng)用構(gòu)建 GPUNet ,以便深度學(xué)習(xí)工程師可以根據(jù)相對精度和延遲目標直接部署這些神經(jīng)網(wǎng)絡(luò)。

GPUNet NAS 設(shè)計方法

高效的體系結(jié)構(gòu)搜索和部署就緒模型是 NAS 設(shè)計方法的關(guān)鍵目標。這意味著幾乎不與領(lǐng)域?qū)<疫M行交互,并且有效地使用集群節(jié)點來培訓(xùn)潛在的架構(gòu)候選。最重要的是,生成的模型已準備好部署。

人工智能制作

為目標設(shè)備尋找性能最佳的架構(gòu)搜索可能很耗時。 NVIDIA 構(gòu)建并部署了一種新型的 NAS AI 代理,該代理可以有效地做出構(gòu)建 GPUNET 所需的艱難設(shè)計選擇,使 GPUNET 比當前的 SOTA 模型領(lǐng)先 2 倍。

此 NAS AI 代理在中自動協(xié)調(diào)數(shù)百個 GPU Selene 超級計算機 而不需要領(lǐng)域?qū)<业娜魏胃深A(yù)。

使用 TensorRT 為 NVIDIA GPU 優(yōu)化

GPUNet 通過相關(guān)的 TensorRT 推理延遲成本,提升 GPU 友好的運算符(例如,較大的篩選器)而不是內(nèi)存綁定運算符(例如花哨的激活)。它在 ImageNet 上提供了 SOTA GPU 延遲和精度。

部署就緒

GPUNet 報告的延遲包括 TensorRT 發(fā)貨版本中可用的所有性能優(yōu)化,包括融合內(nèi)核、量化和其他優(yōu)化路徑。構(gòu)建的 GPune 已準備好部署。

構(gòu)建 GPune :端到端 NAS 工作流

在高層次上,神經(jīng)架構(gòu)搜索( NAS ) AI 代理分為兩個階段:

根據(jù)推理延遲對所有可能的網(wǎng)絡(luò)架構(gòu)進行分類。

使用適合延遲預(yù)算的這些網(wǎng)絡(luò)的子集,并優(yōu)化其準確性。

在第一階段,由于搜索空間是高維的,代理使用 Sobol 采樣來更均勻地分布候選。使用延遲查找表,然后將這些候選對象分類到子搜索空間,例如, NVIDIA V100 GPU 上總延遲低于 0.5 毫秒的網(wǎng)絡(luò)子集。

此階段中使用的推斷延遲是一個近似成本,通過將延遲查找表中每個層的延遲相加來計算。延遲表使用輸入數(shù)據(jù)形狀和層配置作為鍵來查找查詢層上的相關(guān)延遲。

在第二階段,代理建立貝葉斯優(yōu)化損失函數(shù),以在子空間的延遲范圍內(nèi)找到性能最佳的高精度網(wǎng)絡(luò):

latex.php?latex=loss+%3D+CrossEntropy%28model+weights%29+%2B+%5Calpha+%2A+latency%28architecture+candidate%29%5E%7B%5Cbeta%7D&bg=ffffff&fg=000&s=0&c=20201002

poYBAGNE0ZWAfpN4AAZjlhzwduA410.png

圖 2. NVIDIA NAS AI 代理端到端工作流

AI 代理使用客戶端 – 服務(wù)器分布式訓(xùn)練控制器來跨多個網(wǎng)絡(luò)架構(gòu)同時執(zhí)行 NAS 。 AI 代理在一個服務(wù)器節(jié)點上運行,提出并訓(xùn)練在集群上多個客戶端節(jié)點上運行的網(wǎng)絡(luò)候選。

根據(jù)結(jié)果,只有滿足目標硬件的準確度和延遲目標的有前途的網(wǎng)絡(luò)體系結(jié)構(gòu)候選者得到排名,從而產(chǎn)生了一些性能最佳的 GPUNET ,可以使用 TensorRT 部署在 NVIDIA GPU 上。

GPUNet 模型體系結(jié)構(gòu)

GPUNet 模型架構(gòu)是一個八級架構(gòu),使用 EfficientNet-V2 作為基線架構(gòu)。

搜索空間定義包括搜索以下變量:

操作類型

跨步數(shù)

內(nèi)核大小

層數(shù)

激活函數(shù)

IRB 擴展比

輸出通道濾波器

擠壓激勵( SE )

表 1 顯示了搜索空間中每個變量的值范圍。

pYYBAGNE0cyAb-dPAABepAmXNoQ430.png

前兩個階段使用卷積搜索磁頭配置。受 EfficientNet-V2 的啟發(fā),第二級和第三級使用融合 IRB 。然而,融合的 IRB 會導(dǎo)致更高的延遲,因此在第 4 至 7 階段,這些被 IRB 取代。

專欄層顯示階段中的層范圍。例如,階段 4 中的[1 , 10]表示該階段可以具有 1 到 10 個 IRB 。專欄過濾器顯示階段中各層的輸出通道濾波器范圍。該搜索空間還調(diào)整 IRB /融合 IRB 內(nèi)部的擴展比( ER )、激活類型、內(nèi)核大小和壓縮激勵( SE )層。

最后,在步驟 32 ,從 224 到 512 搜索輸入圖像的尺寸。

來自搜索空間的每個 GPUNet 候選構(gòu)建被編碼為 41 寬的整數(shù)向量(表 2 )。

poYBAGNE0d6AeAogAABY43CPSkc651.png

在 NAS 搜索結(jié)束時,返回的排序候選是這些性能最佳的編碼的列表,這些編碼又是性能最佳的 GPUNET 。

總結(jié)

鼓勵所有 ML 從業(yè)人員閱讀 CVPR 2022 GPUNet 研究報告 ,并在 NVIDIA /深度學(xué)習(xí)示例 GitHub repo ,并在 協(xié)作實例 在可用云上 GPU 。 GPUNet 推理也可在 PyTorch hub colab 運行實例使用 NGC 集線器上托管的 GPUNet 檢查點。這些檢查點具有不同的準確性和延遲折衷,可以根據(jù)目標應(yīng)用程序的要求應(yīng)用。

關(guān)于作者

Satish Salian 是 NVIDIA 的首席系統(tǒng)軟件工程師,為開發(fā)人員利用 NVIDIA GPU 的能力構(gòu)建端到端技術(shù)和解決方案。他目前專注于神經(jīng)架構(gòu)搜索( NAS )方法,為 NVIDIA GPU 搜索高性能神經(jīng)架構(gòu)。

Carl (Izzy) Putterman 最近加入 NVIDIA ,擔任深度學(xué)習(xí)算法工程師。他畢業(yè)于加利福尼亞大學(xué),伯克利在應(yīng)用數(shù)學(xué)和計算機科學(xué)學(xué)士學(xué)位。在 NVIDIA ,他目前致力于時間序列建模和圖形神經(jīng)網(wǎng)絡(luò),重點是推理。

Linnan Wang 是 NVIDIA 的高級深度學(xué)習(xí)工程師。 2021 ,他在布朗大學(xué)獲得博士學(xué)位。他的研究主題是神經(jīng)架構(gòu)搜索,他的 NAS 相關(guān)著作已在 ICML 、 NeurIPS 、 ICLR 、 CVPR 、 TPMAI 和 AAAI 上發(fā)表。在 NVIDIA , Lin Nan 繼續(xù)進行 NAS 的研發(fā),并將 NAS 優(yōu)化模型交付給 NVIDIA 核心產(chǎn)品。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103636
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106421
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4948

    瀏覽量

    131252
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    英特爾FPGA 助力Microsoft Azure機器學(xué)習(xí)提供AI推理性能

    Machine Learning SDK 相集成以供預(yù)覽??蛻艨梢允褂?Azure 大規(guī)模部署的英特爾? FPGA(現(xiàn)場可編程邏輯門陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能。
    的頭像 發(fā)表于 05-16 17:25 ?6631次閱讀

    NVIDIA擴大AI推理性能領(lǐng)先優(yōu)勢,首次Arm服務(wù)器取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發(fā)表于 09-23 14:18 ?2748次閱讀
    <b class='flag-5'>NVIDIA</b>擴大AI<b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢,首次<b class='flag-5'>在</b>Arm服務(wù)器<b class='flag-5'>上</b>取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了MLPerf基準測試中的領(lǐng)先優(yōu)勢,實現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。
    發(fā)表于 10-22 14:07 ?924次閱讀

    NVIDIA 首個AI推理基準測試中大放異彩

    首個獨立AI推理基準測試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場中最大、同時也是最具競爭力的領(lǐng)域,業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測試指標。
    發(fā)表于 11-08 19:44

    Ubuntu使用Nvidia GPU訓(xùn)練模型

    問題最近在Ubuntu使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU
    發(fā)表于 01-03 08:24

    充分利用Arm NN進行GPU推理

    的是要知道它提供的選項來提高推理性能。作為開發(fā)人員,您會尋找可以壓縮的每一毫秒,尤其是需要實現(xiàn)實時推理時。讓我們看一下Arm NN中可用的優(yōu)化選項之一,并通過一些實際示例評估它可能產(chǎn)生
    發(fā)表于 04-11 17:33

    求助,為什么將不同的權(quán)重應(yīng)用于模型會影響推理性能?

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權(quán)重是否會影響 Myriad X 推理性能?
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能?

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無法確定如何獲得更好的推理性能
    發(fā)表于 08-15 06:58

    利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

    你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進一步加快你的模型的運行速度? 進入 NVIDIA
    的頭像 發(fā)表于 10-21 19:01 ?879次閱讀

    NVIDIA A100 GPU推理性能237倍碾壓CPU

    )的12個提交者增加了近一倍。 結(jié)果顯示,今年5月NVIDIANvidia)發(fā)布的安培(Ampere)架構(gòu)A100 Tensor Core GPU云端
    的頭像 發(fā)表于 10-23 17:40 ?4734次閱讀
    <b class='flag-5'>NVIDIA</b> A100 <b class='flag-5'>GPU</b><b class='flag-5'>推理性能</b>237倍碾壓CPU

    NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

    ,其中的模型數(shù)量達數(shù)千個,日均調(diào)用服務(wù)達到千億級別。無量推薦系統(tǒng),模型訓(xùn)練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。 傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點: 訓(xùn)練是
    的頭像 發(fā)表于 08-23 17:09 ?5078次閱讀

    NGC 玩轉(zhuǎn)新一代推理部署工具 FastDeploy,幾行代碼搞定 AI 部署

    模型,并提供開箱即用的云邊端部署體驗,實現(xiàn) AI 模型端到端的推理性能優(yōu)化。 歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器, NVIDIA
    的頭像 發(fā)表于 12-13 19:50 ?1626次閱讀

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進
    的頭像 發(fā)表于 10-23 16:10 ?986次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?874次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?723次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>