一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么?不用GPU也能加速你的YOLOv3深度學(xué)習(xí)模型

新機(jī)器視覺 ? 來源:量子位 ? 作者:量子位 ? 2021-06-10 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你還在為神經(jīng)網(wǎng)絡(luò)模型里的冗余信息煩惱嗎?

或者手上只有CPU,對一些只能用昂貴的GPU建立的深度學(xué)習(xí)模型“望眼欲穿”嗎?

最近,創(chuàng)業(yè)公司Neural Magic帶來了一種名叫新的稀疏化方法,可以幫你解決煩惱,讓你的深度學(xué)習(xí)模型效率“一節(jié)更比七節(jié)強(qiáng)”!

Neural Magic是專門研究深度學(xué)習(xí)的稀疏方法的公司,這次他們發(fā)布了教程:用recipe稀疏化YOLOv3。

聽起來有點(diǎn)意思啊,讓我們來看看是怎么實(shí)現(xiàn)的~

稀疏化的YOLOv3

稀疏化的YOLOv3使用剪枝(prune)和量化(quantize)等算法,可以刪除神經(jīng)網(wǎng)絡(luò)中的冗余信息。

這種稀疏化方法的好處可不少。

它的推斷速度更快,文件更小。

但是因?yàn)檫^程太復(fù)雜,涉及的超參數(shù)又太多,很多人都不太關(guān)心這種方法。

Neural Magic的ML團(tuán)隊(duì)針對必要的超參數(shù)和指令,創(chuàng)建了可以自主編碼的recipe。

各種不同條件下的recipe構(gòu)成了一種可以滿足客戶各類需求的框架。

這樣就可以建立高度精確的pruned或pruned quantized的YOLOv3模型,從而簡化流程。

那這種稀疏化方法的靈感來源是什么呢?

其實(shí),Neural Magic 的 Deep Sparse(深度稀疏)架構(gòu)的主要靈感,是在產(chǎn)品硬件上模仿大腦的計(jì)算方式。

它通過利用 CPU 的大型快速緩存和大型內(nèi)存,將神經(jīng)網(wǎng)絡(luò)稀疏性與通信局部性相結(jié)合,實(shí)現(xiàn)效率提升。

教程概況

本教程目錄主要包括三大模塊:

創(chuàng)建一個(gè)預(yù)訓(xùn)練的模型

應(yīng)用Recipe

導(dǎo)出推理教程的這些recipe可以幫助用戶在Ultralytics強(qiáng)大的訓(xùn)練平臺上,使用稀疏深度學(xué)習(xí)的recipe驅(qū)動的方法插入數(shù)據(jù)。

教程中列出的示例均在VOC數(shù)據(jù)集上執(zhí)行,所有結(jié)果也可通過“權(quán)重和偏差”項(xiàng)目公開獲得(地址見參考鏈接4)。

調(diào)試結(jié)果展示

研究團(tuán)隊(duì)給出了稀疏YOLOv3目標(biāo)檢測模型在Deep Sparse引擎和PyTorch上的運(yùn)行情況。

這段視頻以波士頓著名地標(biāo)為特色,在Neural Magic的誕生地——MIT的校園取景。

同樣的條件下,在Deep Sparse引擎上比PyTorch上效率會更高。

遇到的常見問題

如果用戶的硬件不支持量化網(wǎng)絡(luò)來推理加速,或者對完全恢復(fù)的要求非常高,官方建議使用pruned或pruned short 的recipe。

如果用戶的硬件可以支持量化網(wǎng)絡(luò),如CPU 上的 VNNI 指令集,官方建議使用pruned quantized或pruned quantized short的recipe。

所以使用哪一種recipe,取決于用戶愿意花多長時(shí)間訓(xùn)練數(shù)據(jù),以及對完全恢復(fù)的要求。

具體要比較這幾種recipe的話,可以參考下表。

ce8f673a-c9b7-11eb-9e57-12bb97331649.png

網(wǎng)友:這個(gè)框架會比傳統(tǒng)的機(jī)器學(xué)習(xí)框架pytorch好嗎?

既然給出了和pytorch的比較視頻,就有網(wǎng)友發(fā)問了:

Neural Magic也使用python嗎?為什么一個(gè)比另一個(gè)快10倍以上?我不相信像pytorch這樣傳統(tǒng)的機(jī)器學(xué)習(xí)框架不會得到優(yōu)化。兩種模型的實(shí)現(xiàn)是否相同?

公司官方人員也下場解釋了:

我們擁有專利技術(shù),可以通過減少計(jì)算和內(nèi)存移動來使稀疏網(wǎng)絡(luò)在CPU上更高效的運(yùn)行。

雖然傳統(tǒng)的ML框架也能很好地實(shí)現(xiàn)簡單而高效的訓(xùn)練過程。

但是,多加入一些優(yōu)化的推理,可以實(shí)現(xiàn)更多的性能,尤其是在CPU上更明顯。

看來,有了以上強(qiáng)大的YOLOv3 模型工具和教程,用戶就可以在CPU上,以最小化的占用空間和GPU的速度來運(yùn)行深度學(xué)習(xí)模型。

這樣有用的教程,你還在等什么?

希望教程能對大家有所幫助,歡迎在評論區(qū)分享交流訓(xùn)練模型經(jīng)驗(yàn)~

最后介紹一下Neural Magic,有興趣的朋友可以去了解一下。

Neural Magic是一家什么樣的公司?

Neural Magic成立在馬薩諸塞州的劍橋。

創(chuàng)始人Nir Shavit和Alexander Matveev在MIT繪制大腦中的神經(jīng)連接圖時(shí),一直覺得GPU有許多限制。

因此他們停下來問自己兩個(gè)簡單的問題:

為什么深度學(xué)習(xí)需要GPU等專用硬件?

有什么更好的方法嗎?

畢竟,人腦可以通過廣泛使用稀疏性來減少神經(jīng)網(wǎng)絡(luò),而不是添加FLOPS來匹配神經(jīng)網(wǎng)絡(luò),從而滿足神經(jīng)網(wǎng)絡(luò)的計(jì)算需求。

基于這種觀察和多年的多核計(jì)算經(jīng)驗(yàn),他們采用了稀疏和量化深度學(xué)習(xí)網(wǎng)絡(luò)的技術(shù),并使其能夠以GPU的速度或更高的速度在商用CPU上運(yùn)行。

這樣,數(shù)據(jù)科學(xué)家在模型設(shè)計(jì)和輸入大小上就不需要再做妥協(xié),也沒必要用稀缺且昂貴的GPU資源。

Brian Stevens

Neural Magic的CEO,Red Hat和Google Cloud的前CTO。

Nir Shavit

Neural Magic聯(lián)合創(chuàng)始人。

麻省理工學(xué)院教授,他目前的研究涉及為多處理器設(shè)計(jì)可伸縮軟件的技術(shù),尤其是多核計(jì)算機(jī)的并發(fā)數(shù)據(jù)結(jié)構(gòu)。

Alexander Matveev

Neural Magic首席技術(shù)官兼聯(lián)合創(chuàng)始人。

麻省理工學(xué)院前研究科學(xué)家,專門研究AI多核算法和系統(tǒng)。

參考鏈接:

[1]https://github.com/neuralmagic/sparseml/blob/main/integrations/ultralytics-yolov3/t2.utorials/sparsifying_yolov3_using_recipes.md

[2]https://neuralmagic.com/blog/sparsifying-yolov3-using-recipes-tutorial/

[3]https://arxiv.org/pdf/1804.02767.pdf

[4]https://wandb.ai/neuralmagic/yolov3-spp-lrelu-voc

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11083

    瀏覽量

    217195
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4949

    瀏覽量

    131326
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25463
  • voc
    voc
    +關(guān)注

    關(guān)注

    0

    文章

    108

    瀏覽量

    15925

原文標(biāo)題:不用GPU,稀疏化也能加速你的YOLOv3深度學(xué)習(xí)模型

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,如乘法、加法等; (2)根據(jù)各層計(jì)算操作的類型和復(fù)雜度,確定每層所需的計(jì)算量; (3)將各層計(jì)算量相加,得到模型總的計(jì)算量。 基于硬件加速的算力估計(jì) 隨著硬件加速技術(shù)的發(fā)展,許多
    發(fā)表于 07-03 19:43

    為什么在Ubuntu20.04上使用YOLOv3比Yocto操作系統(tǒng)上的推理快?

    使用 2021.4 OpenVINO?中的 GPU 插件運(yùn)行帶有 YOLOv3 模型的 對象檢測 C++ 演示 。 使用 英特爾? 酷睿? i5-1145G7E、英特爾? 酷睿
    發(fā)表于 03-05 06:48

    【ELF 2學(xué)習(xí)板試用】ELF2開發(fā)板(飛凌嵌入式)搭建深度學(xué)習(xí)環(huán)境部署(RKNN環(huán)境部署)

    是 Rockchip 為其輕量級神經(jīng)網(wǎng)絡(luò)處理單元(NPU)提供的一款工具包。它專注于簡化和加速深度學(xué)習(xí)模型在 Rockchip 硬件平臺上的部署和推理過程。與 RKNN-Toolki
    發(fā)表于 02-04 14:15

    采用華為云 Flexus 云服務(wù)器 X 實(shí)例部署 YOLOv3 算法完成目標(biāo)檢測

    一、前言 1.1 開發(fā)需求 這篇文章講解:?采用華為云最新推出的 Flexus 云服務(wù)器 X 實(shí)例部署 YOLOv3 算法,完成圖像分析、目標(biāo)檢測。 隨著計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 01-02 12:00 ?545次閱讀
    采用華為云 Flexus 云服務(wù)器 X 實(shí)例部署 <b class='flag-5'>YOLOv3</b> 算法完成目標(biāo)檢測

    Flexus X 實(shí)例 ultralytics 模型 yolov10 深度學(xué)習(xí) AI 部署與應(yīng)用

    前言: ???深度學(xué)習(xí)新紀(jì)元,828 B2B 企業(yè)節(jié) Flexus X 實(shí)例特惠!想要高效訓(xùn)練 YOLOv10 模型,實(shí)現(xiàn)精準(zhǔn)圖像識別?Flexus X 以卓越算力,助您輕松駕馭大規(guī)模
    的頭像 發(fā)表于 12-24 12:24 ?798次閱讀
    Flexus X 實(shí)例 ultralytics <b class='flag-5'>模型</b> <b class='flag-5'>yolov</b>10 <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b> AI 部署與應(yīng)用

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    許可證模型加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互式模擬:通過加速對話框
    發(fā)表于 12-16 14:25

    深度學(xué)習(xí)工作負(fù)載中GPU與LPU的主要差異

    當(dāng)前,生成式AI模型的參數(shù)規(guī)模已躍升至數(shù)十億乃至數(shù)萬億之巨,遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU的處理范疇。在此背景下,GPU憑借其出色的并行處理能力,已成為人工智能加速領(lǐng)域的中流砥柱。然而,就在GPU
    的頭像 發(fā)表于 12-09 11:01 ?3373次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>工作負(fù)載中<b class='flag-5'>GPU</b>與LPU的主要差異

    GPU深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)在深度學(xué)習(xí)中扮演著至關(guān)重要的角色,
    的頭像 發(fā)表于 11-19 10:55 ?1641次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的
    的頭像 發(fā)表于 11-05 17:43 ?1419次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是
    的頭像 發(fā)表于 10-27 11:13 ?1393次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速
    的頭像 發(fā)表于 10-25 09:22 ?1250次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    AI大模型深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大
    的頭像 發(fā)表于 10-23 15:25 ?2911次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?626次閱讀

    FPGA做深度學(xué)習(xí)走多遠(yuǎn)?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA做深度學(xué)習(xí)走多遠(yuǎn)?現(xiàn)在用FPGA做深度學(xué)習(xí)
    發(fā)表于 09-27 20:53

    基于迅為RK3588【RKNPU2項(xiàng)目實(shí)戰(zhàn)1】:YOLOV5實(shí)時(shí)目標(biāo)分類

    [/url] 【RKNPU2 人工智能開發(fā)】 【AI深度學(xué)習(xí)推理加速器】——RKNPU2 從入門到實(shí)踐(基于RK3588和RK3568) 【RKNPU2項(xiàng)目實(shí)戰(zhàn)1】:YOLOV5實(shí)時(shí)目
    發(fā)表于 08-15 10:51