一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

微軟和谷歌分別開源分布式深度學習框架對比

工程師鄧生 ? 來源:大數(shù)據(jù)文摘微信公眾號 ? 作者:Miggy ? 2020-11-01 10:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟和谷歌一直在積極研究用于訓練深度神經(jīng)網(wǎng)絡的新框架,并且在最近將各自的成果開源——微軟的 PipeDream 和谷歌的 GPipe。

原則上看,他們都遵循了類似的原則來訓練深度學習模型。這兩個項目已在各自的研究論文(PipeDream,GPipe)中進行了詳細介紹,這篇文章將對此進行總結。

先放上 GitHub 開源地址:

微軟:

https://github.com/msr-fiddle/pipedream

谷歌:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

眾所周知,在實驗過程中,雖然訓練基本模型比較瑣碎,但復雜度卻隨模型的質(zhì)量和大小線性增加。例如,2014 年 ImageNet 視覺識別挑戰(zhàn)賽的冠軍是 GoogleNet,它通過 400 萬個參數(shù)獲得了 74.8% 的 top1 準確性,而僅僅三年之后,2017 年 ImageNet 挑戰(zhàn)賽的冠軍就使用 1.458 億個參數(shù)(多了 36 倍)的最新神經(jīng)網(wǎng)絡實現(xiàn)了 top1 準確率——82.7%。但是,在同一時期,GPU 內(nèi)存僅增加了約 3 倍。

隨著模型縮放以達到更高的準確性,對這些模型的訓練變得越來越具有挑戰(zhàn)性。前面的樣本也顯示了,依靠 GPU 基礎結構的改進來實現(xiàn)更好的訓練是不可持續(xù)的。我們需要分布式計算方法,這些方法可以并行化跨不同節(jié)點的訓練工作量,以擴展訓練規(guī)模。分布式訓練的概念聽起來很瑣碎,但實際上卻極其復雜。

谷歌的 GPipe GPipe

專注于擴展深度學習計劃的訓練工作量。從基礎架構的角度來看,訓練過程的復雜性是深度學習模型經(jīng)常被忽視的一個方面。訓練數(shù)據(jù)集越來越大,越來越復雜。例如,在醫(yī)療保健領域,需要使用數(shù)百萬個高分辨率圖像進行訓練的模型并不罕見。結果,訓練過程通常要花費很長時間才能完成,并且內(nèi)存和 CPU 消耗非常大。

思考深度學習模型的分布式的有效方法是將其劃分為數(shù)據(jù)分布式和模型分布式。數(shù)據(jù)分布式方法采用大型機器集群,將輸入數(shù)據(jù)拆分到它們之間。模型分布式嘗試將模型移至具有特定硬件的加速器,例如 GPU 或 TPU,以加速模型訓練。

概念上看,幾乎所有訓練數(shù)據(jù)集都可以按照一定的邏輯進行分布式訓練,但是關于模型的說法卻不盡相同。例如,一些深度學習模型由可以獨立訓練的并行分支組成。在那種情況下,經(jīng)典策略是將計算劃分為多個分區(qū),并將不同的分區(qū)分配給不同的分支。但是,這種策略在按順序堆疊各層的深度學習模型中是不足的。

GPipe 通過利用一種稱為流水線的技術將數(shù)據(jù)和模型分布式結合在一起。從概念上講,GPipe 是一個分布式機器學習庫,它使用同步隨機梯度下降和流水線分布式進行訓練,適用于由多個連續(xù)層組成的任何 DNN。

GPipe 在不同的加速器之間劃分模型,并自動將一小批訓練樣本拆分為較小的微批。該模型允許 GPipe 的加速器并行運行,從而最大限度地提高了訓練過程的可擴展性。

下圖說明了具有連續(xù)層的神經(jīng)網(wǎng)絡的 GPipe 模型在四個加速器之間分配。Fk 是第 k 個分區(qū)的復合正向計算函數(shù)。Bk 是相應的反向傳播函數(shù)。Bk 取決于上層的 Bk + 1 和 Fk 的中間激活。在頂級模型中,我們可以看到網(wǎng)絡的順序性質(zhì)如何導致資源利用不足。下圖顯示了 GPipe 方法,其中將輸入的迷你批處理分為較小的宏批處理,這些宏批處理可由加速器同時處理。

圖片來源:

https://arxiv.org/pdf/1811.06965.pdf

微軟的 PipeDream

幾個月前,微軟研究院宣布創(chuàng)建 Project Fiddle,這是一系列旨在簡化分布式深度學習的研究項目。PipeDreams 是 Fiddle 項目首次發(fā)布的版本之一,專注于深度學習模型訓練的并行化。

PipeDream 采用與其他方法不同的方法來利用稱為管道分布式的技術來擴展深度學習模型的訓練。這種方法試圖解決數(shù)據(jù)和模型并行技術的一些挑戰(zhàn),例如 GPipe 中使用的技術。

通常,在云基礎架構上進行訓練時,數(shù)據(jù)并行方法在規(guī)模上會承受較高的通信成本,并且隨著時間的推移會提高 GPU 計算速度。類似地,模型分布式技術通常在利用硬件資源上更加效率低下,程序員需要決定如何在給定硬件部署的情況下拆分其特定模型,給他們帶來了不必要的負擔。

圖片來源:

http://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

PipeDream 嘗試通過使用稱為管道分布式的技術來克服數(shù)據(jù)模型分布式方法的一些挑戰(zhàn)。

從概念上講,管道分布計算涉及將 DNN 模型的各層劃分為多個階段,其中每個階段均由模型中的一組連續(xù)層組成。每個階段都映射到一個單獨的 GPU,該 GPU 對該階段中的所有層執(zhí)行正向傳遞(和反向傳遞)。

給定一個特定的深度神經(jīng)網(wǎng)絡,PipeDream 會基于在單個 GPU 上執(zhí)行的簡短概要分析,自動確定如何對 DNN 的運算符進行分區(qū),在不同階段之間平衡計算負載,同時最大程度地減少與目標平臺的通信。即使存在模型多樣性(計算和通信)和平臺多樣性(互連拓撲和分層帶寬),PipeDream 也會有效地實現(xiàn)負載平衡。PipeDream 訓練分布式的方法的原理比數(shù)據(jù)模型分布式方法具有多個優(yōu)點。

對于初學者而言,PipeDream 需要在工作程序節(jié)點之間進行較少的通信,因為管道執(zhí)行中的每個工作程序僅需要將漸變的子集和輸出激活信息傳達給單個其他工作程序。

圖片來源:

https://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

訓練分布式是構建更大、更準確的深度學習模型的關鍵挑戰(zhàn)之一。分布式訓練方法是深度學習社區(qū)中一個活躍的研究領域,需要將有效的并發(fā)編程技術與深度學習模型的本質(zhì)相結合。盡管仍處于早期階段,但 Google 的 GPipe 和 Microsoft 的 PipeDream 本身已經(jīng)是很優(yōu)秀的產(chǎn)品,它是深度學習開發(fā)人員可用的兩種最具創(chuàng)造性的分布式訓練方法。
責任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6685

    瀏覽量

    105752
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108128
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4814

    瀏覽量

    103601
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Ceph分布式存儲系統(tǒng)解析

    在當今數(shù)據(jù)爆炸的時代,企業(yè)對存儲系統(tǒng)的需求日益增長,傳統(tǒng)的集中式存儲已經(jīng)無法滿足大規(guī)模數(shù)據(jù)處理的要求。分布式存儲系統(tǒng)應運而生,而Ceph作為開源分布式存儲系統(tǒng)的佼佼者,以其高可用性、高擴展性和統(tǒng)一存儲架構贏得了眾多企業(yè)的青睞。
    的頭像 發(fā)表于 07-14 11:15 ?163次閱讀

    潤和軟件StackRUNS異構分布式推理框架的應用案例

    江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發(fā)的StackRUNS異構分布式推理框架已在實際場景中取得顯著成效,成功應用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運行,有效推動了大模型技術的快速落地。
    的頭像 發(fā)表于 06-13 09:11 ?488次閱讀
    潤和軟件StackRUNS異構<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的應用案例

    潤和軟件發(fā)布StackRUNS異構分布式推理框架

    當下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應用場景日益復雜,企業(yè)正面臨異構算力資源碎片化帶來的嚴峻挑戰(zhàn)。為應對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構分布式推理框架,高效融合異構算力,精細化配置算力資源,釋放算力效能。
    的頭像 發(fā)表于 06-13 09:10 ?498次閱讀
    潤和軟件發(fā)布StackRUNS異構<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    曙光存儲領跑中國分布式存儲市場

    近日,賽迪顧問發(fā)布《中國分布式存儲市場研究報告(2025)》,指出2024 年中國分布式存儲市場首次超過集中式存儲,規(guī)模達 198.2 億元,增速 43.7%。
    的頭像 發(fā)表于 05-19 16:50 ?484次閱讀

    使用VirtualLab Fusion中分布式計算的AR波導測試圖像模擬

    總計算時間超過31小時。通過使用一個由8個多核PC組成的網(wǎng)絡,提供35個客戶端分布式計算,將模擬時間減少到1小時5分鐘?;灸M任務基本任務集合:FOV使用分布式計算的集合模擬概述模擬時間節(jié)省96%的計算時間?。。?
    發(fā)表于 04-10 08:48

    分布式云化數(shù)據(jù)庫有哪些類型

    分布式云化數(shù)據(jù)庫有哪些類型?分布式云化數(shù)據(jù)庫主要類型包括:關系型分布式數(shù)據(jù)庫、非關系型分布式數(shù)據(jù)庫、新SQL分布式數(shù)據(jù)庫、以列方式存儲數(shù)據(jù)、
    的頭像 發(fā)表于 01-15 09:43 ?480次閱讀

    基于ptp的分布式系統(tǒng)設計

    在現(xiàn)代分布式系統(tǒng)中,精確的時間同步對于確保數(shù)據(jù)一致性、系統(tǒng)穩(wěn)定性和性能至關重要。PTP(Precision Time Protocol)是一種網(wǎng)絡協(xié)議,用于在分布式系統(tǒng)中實現(xiàn)高精度的時間同步
    的頭像 發(fā)表于 12-29 10:09 ?565次閱讀

    HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權限與基礎數(shù)據(jù)

    使用分布式數(shù)據(jù)對象遷移數(shù)據(jù),當需要遷移的數(shù)據(jù)較大(100KB以上)或需要遷移文件時,可以使用分布式數(shù)據(jù)對象。原理與接口說明詳見分布式數(shù)據(jù)對象跨設備數(shù)據(jù)同步。 說明:自API 12起,由于直接使用跨
    發(fā)表于 12-24 09:40

    分布式通信的原理和實現(xiàn)高效分布式通信背后的技術NVLink的演進

    大型模型的大小已經(jīng)超出了單個 GPU 的范圍。所以就需要實現(xiàn)跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分布式通信和 NVLink。 當談及分布式通信和 NVLink 時,我們進入了一個引人入勝且不斷演進的技術領域,下面我們將簡單介紹
    的頭像 發(fā)表于 11-18 09:39 ?1291次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的技術NVLink的演進

    分布式光纖測溫解決方案

    分布式光纖測溫解決方案
    的頭像 發(fā)表于 11-12 01:02 ?564次閱讀
    <b class='flag-5'>分布式</b>光纖測溫解決方案

    淺談屋頂分布式光伏發(fā)電技術的設計與應用

    【摘要】為了緩解城市用電緊張袁降低人們的用電成本,可以在工業(yè)園區(qū)、辦公樓屋頂?shù)葓鏊鶓梦蓓?b class='flag-5'>分布式光伏發(fā)電技術進行就近轉(zhuǎn)換、并網(wǎng)發(fā)電袁充分利用建筑物屋頂?shù)奶栙Y源。概述屋頂分布式光伏發(fā)電技術,分析屋頂
    的頭像 發(fā)表于 11-11 15:10 ?1849次閱讀
    淺談屋頂<b class='flag-5'>分布式</b>光伏發(fā)電技術的設計與應用

    分布式光纖測溫是什么?應用領域是?

    分布式光纖測溫是一種先進的溫度測量技術,它利用光纖的拉曼散射原理進行溫度監(jiān)測。以下是對分布式光纖測溫的詳細介紹: 一、基本原理 分布式光纖測溫的原理基于光纖的拉曼散射效應。當光纖某處的溫度發(fā)生變化
    的頭像 發(fā)表于 10-24 15:30 ?1259次閱讀
    <b class='flag-5'>分布式</b>光纖測溫是什么?應用領域是?

    分布式光纖聲波傳感技術的工作原理

    分布式光纖聲波傳感技術(Distributed Acoustic Sensing,DAS)是一種利用光纖作為傳感元件,實現(xiàn)對沿光纖路徑上的環(huán)境參數(shù)進行連續(xù)分布式測量的技術。
    的頭像 發(fā)表于 10-18 14:50 ?2929次閱讀
    <b class='flag-5'>分布式</b>光纖聲波傳感技術的工作原理

    分布式輸電線路故障定位中的分布式是指什么

    所謂分布式指的是產(chǎn)品的部署方式,是相對于集中式而言的。 一、部署方式 分散安裝:分布式輸電線路故障定位系統(tǒng)中的采集裝置需要安裝在輸電線路的多個位置,通常是每隔一定距離設置一個監(jiān)測點,以確保對整條線路
    的頭像 發(fā)表于 10-16 11:39 ?688次閱讀
    <b class='flag-5'>分布式</b>輸電線路故障定位中的<b class='flag-5'>分布式</b>是指什么

    NVIDIA推出全新深度學習框架fVDB

    在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?1145次閱讀