一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實踐經(jīng)驗:在深度學(xué)習(xí)中喂飽GPU

DPVg_AI_era ? 來源:lq ? 2019-09-13 17:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習(xí)模型訓(xùn)練是不是大力出奇跡,顯卡越多越好?非也,沒有512張顯卡,也可以通過一些小技巧優(yōu)化模型訓(xùn)練。本文作者分析了他的實踐經(jīng)驗。

前段時間訓(xùn)練了不少模型,發(fā)現(xiàn)并不是大力出奇跡,顯卡越多越好,有時候 1 張 v100 和 2 張 v100 可能沒有什么區(qū)別,后來發(fā)現(xiàn)瓶頸在其他地方,寫篇文章來總結(jié)一下自己用過的一些小 trick,最后的效果就是在 cifar 上面跑 vgg 的時間從一天縮到了一個小時,imagenet 上跑 mobilenet 模型只需要 2 分鐘每個 epoch。(文章末尾有代碼啦)

先說下跑 cifar 的時候,如果只是用 torchvision 的 dataloader (用最常見的 padding/crop/flip 做數(shù)據(jù)增強(qiáng)) 會很慢,大概速度是下面這種,600 個 epoch 差不多要一天多才能跑完,并且速度時快時慢很不穩(wěn)定。

我最初以為是 IO 的原因,于是掛載了一塊內(nèi)存盤,改了一下路徑接著用 torchvision 的 dataloader 來跑,速度基本沒啥變化。。。

然后打開資源使用率看了下發(fā)現(xiàn) cpu 使用率幾乎已經(jīng)滿了(只能申請 2cpu 和一張 v100...),但是 gpu 的使用率非常低,這基本可以確定瓶頸是在 cpu 的處理速度上了。

后來查了一些資料發(fā)現(xiàn) nvidia 有一個庫叫 dali 可以用 gpu 來做圖像的前處理,從輸入,解碼到 transform 的一整套 pipeline,看了下常見的操作比如 pad/crop 之類的還挺全的,并且支持 pytorch/caffe/mxnet 等各種框架。

可惜在官方文檔中沒找到 cifar 的 pipeline,于是自己照著 imagenet 的版本寫了個,最初踩了一些坑(為了省事找了個 cifar 的 jpeg 版本來解碼,發(fā)現(xiàn)精度掉得很多還找不到原因,還得從 cifar 的二進(jìn)制文件來讀?。?,最后總歸是達(dá)到了同樣的精度,再來看一看速度和資源使用率,總時間直接從一天縮短為一小時,并且 gpu 使用率高了很多。

再說下 imagenet 的訓(xùn)練加速,最初也是把整個數(shù)據(jù)集拷到了掛載的內(nèi)存盤里面(160g 大概夠用了,從拷貝到解壓完成大概 10 分鐘不到),發(fā)現(xiàn)同樣用 torchvision 的 dataloader 訓(xùn)練很不穩(wěn)定,于是直接照搬了 dali 官方的 dataloader 過來,速度也是同樣起飛 hhhh(找不到當(dāng)時訓(xùn)練的圖片了),然后再配合 apex 的混合精度和分布式訓(xùn)練,申請 4 塊 v100,gpu 使用率可以穩(wěn)定在 95 以上,8 塊 v100 可以穩(wěn)定在 90 以上,最后直接上到 16 張 v100 和 32cpu,大概也能穩(wěn)定在 85 左右(看資源使用率發(fā)現(xiàn) cpu 到頂了,不然估計 gpu 也能到 95 以上),16 塊 v100 在 ImageNet 上跑 mobilenet 只需要 2 分鐘每個 epoch。

寫的 dataloader 放到了 github 上,我測試的精度跟 torchvision 的版本差不多,不過速度上會比 torchvision 快很多,后面有空也會寫一些其他常用 dataloader 的 dali 版本放上去。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4944

    瀏覽量

    131217
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25445
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122792

原文標(biāo)題:在深度學(xué)習(xí)中喂飽GPU

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GPS時鐘的精準(zhǔn)之道:技術(shù)原理與長期穩(wěn)定運(yùn)行的實踐經(jīng)驗

    現(xiàn)代時間同步領(lǐng)域,GPS時鐘以其高精度和可靠性成為關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分。它的核心功能是通過接收衛(wèi)星信號校準(zhǔn)本地時間,確保毫秒級甚至微秒級的同步精度。然而,實際應(yīng)用,許多因素可能影響其性能。本文將從技術(shù)原理與工程實踐角度
    的頭像 發(fā)表于 06-30 14:54 ?140次閱讀
    GPS時鐘的精準(zhǔn)之道:技術(shù)原理與長期穩(wěn)定運(yùn)行的<b class='flag-5'>實踐經(jīng)驗</b>

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計算機(jī)不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計算引擎,廣泛應(yīng)用于人工智能
    的頭像 發(fā)表于 05-30 10:36 ?370次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)<b class='flag-5'>深度</b>解析

    安世半導(dǎo)體全球化發(fā)展實踐經(jīng)驗與前瞻思考

    此前,4月4日至6日,第28屆哈佛大學(xué)中國論壇成功舉辦。聞泰科技半導(dǎo)體業(yè)務(wù)(安世半導(dǎo)體)董事長兼CEO張學(xué)政受邀出席,并在“智能時代的變革與未來”分論壇上發(fā)表精彩觀點,與行業(yè)領(lǐng)袖共同探討全球化、技術(shù)迭代與社會責(zé)任等議題,分享百年半導(dǎo)體公司全球化發(fā)展
    的頭像 發(fā)表于 04-12 14:52 ?747次閱讀

    軍事應(yīng)用深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    ,并廣泛介紹了深度學(xué)習(xí)兩個主要軍事應(yīng)用領(lǐng)域的應(yīng)用:情報行動和自主平臺。最后,討論了相關(guān)的威脅、機(jī)遇、技術(shù)和實際困難。主要發(fā)現(xiàn)是,人工智能技術(shù)并非無所不能,需要謹(jǐn)慎應(yīng)用,同時考慮到其局限性、網(wǎng)絡(luò)安全威脅以及
    的頭像 發(fā)表于 02-14 11:15 ?536次閱讀

    電子工程師的電源設(shè)計經(jīng)驗分享

    作為一名電子工程師,電源設(shè)計一直是我在工作重點關(guān)注的領(lǐng)域。電源設(shè)計不僅需要扎實的理論基礎(chǔ),還需要豐富的實踐經(jīng)驗。以下是我多年工作總結(jié)的一些經(jīng)驗: 一、電源設(shè)計的核心理念 電源設(shè)計的
    的頭像 發(fā)表于 01-21 15:53 ?520次閱讀

    AI自動化生產(chǎn):深度學(xué)習(xí)質(zhì)量控制的應(yīng)用

    生產(chǎn)效率、保證產(chǎn)品質(zhì)量方面展現(xiàn)出非凡的能力。阿丘科技「AI干貨補(bǔ)給站」推出《AI自動化生產(chǎn):深度學(xué)習(xí)質(zhì)量控制的應(yīng)用》文章,探討深度
    的頭像 發(fā)表于 01-17 16:35 ?692次閱讀
    AI自動化生產(chǎn):<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>在</b>質(zhì)量控制<b class='flag-5'>中</b>的應(yīng)用

    深度學(xué)習(xí)工作負(fù)載GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務(wù)的順序性問題,是構(gòu)建AI應(yīng)用不可或缺的一環(huán)。 本文旨在探討深度學(xué)習(xí)工作負(fù)載
    的頭像 發(fā)表于 12-09 11:01 ?3362次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>工作負(fù)載<b class='flag-5'>中</b><b class='flag-5'>GPU</b>與LPU的主要差異

    繼電器測試的培訓(xùn)和學(xué)習(xí)資源有哪些推薦?

    按照自己的進(jìn)度學(xué)習(xí),并且可以隨時回顧和復(fù)習(xí)課程內(nèi)容。 培訓(xùn)機(jī)構(gòu):一些專門的培訓(xùn)機(jī)構(gòu)也提供繼電器測試的培訓(xùn)課程。這些機(jī)構(gòu)通常有豐富的教學(xué)資源和實踐經(jīng)驗,能夠提供系統(tǒng)全面的培訓(xùn)。選擇培訓(xùn)機(jī)構(gòu)時,可以考慮
    發(fā)表于 12-04 16:35

    GPU深度學(xué)習(xí)的應(yīng)用 GPUs圖形設(shè)計的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)深度
    的頭像 發(fā)表于 11-19 10:55 ?1618次閱讀

    NPU深度學(xué)習(xí)的應(yīng)用

    設(shè)計的硬件加速器,它在深度學(xué)習(xí)的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學(xué)習(xí)算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和
    的頭像 發(fā)表于 11-14 15:17 ?1903次閱讀

    pcie深度學(xué)習(xí)的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計算能力來訓(xùn)練。傳統(tǒng)的CPU計算資源有限,難以滿足深度學(xué)習(xí)的需求。因此,GPU(圖形處理單元)和TPU
    的頭像 發(fā)表于 11-13 10:39 ?1343次閱讀

    AI干貨補(bǔ)給站 | 深度學(xué)習(xí)與機(jī)器視覺的融合探索

    智能制造的浪潮,阿丘科技作為業(yè)界領(lǐng)先的工業(yè)AI視覺平臺及解決方案提供商,始終致力于推動AI+機(jī)器視覺技術(shù)的革新與應(yīng)用。為此,我們特別開設(shè)了「AI干貨補(bǔ)給站」專欄,分享此領(lǐng)域的基礎(chǔ)知識及實踐經(jīng)驗
    的頭像 發(fā)表于 10-29 08:04 ?575次閱讀
    AI干貨補(bǔ)給站 | <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>與機(jī)器視覺的融合探索

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU深度學(xué)習(xí)的應(yīng)用廣泛且重要,以下是一些GPU深度
    的頭像 發(fā)表于 10-27 11:13 ?1353次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?608次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的發(fā)展前景較為廣闊,但也面臨一些挑戰(zhàn)。以下是一些關(guān)于 FPGA 深度學(xué)習(xí)應(yīng)用前景的觀點,僅供參考: ? 優(yōu)勢方面: ? 高度定制化的計算架構(gòu):FPGA 可以根據(jù)
    發(fā)表于 09-27 20:53