一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實踐

華為數(shù)據(jù)通信 ? 來源:華為數(shù)據(jù)通信 ? 作者:華為數(shù)據(jù)通信 ? 2022-08-03 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2022年7月,在山東濟(jì)南舉行的2022中國算力大會上,紫金山實驗室研究員高新平作了“基于無損數(shù)據(jù)中心AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實踐”的主題演講。

紫金山實驗室是江蘇省和南京市共同推進(jìn)建設(shè)的重大科技創(chuàng)新平臺。紫金山實驗室面向網(wǎng)絡(luò)通信與安全領(lǐng)域國家重大戰(zhàn)略需求,以引領(lǐng)全球信息科技發(fā)展方向、解決行業(yè)重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎(chǔ)性研究,力圖突破關(guān)鍵核心技術(shù),開展重大示范應(yīng)用,促進(jìn)成果在國家經(jīng)濟(jì)建設(shè)中落地。紫金山實驗室力圖成為國家科技創(chuàng)新的重要力量,建成具有世界一流水平的戰(zhàn)略科技創(chuàng)新基地。

紫金山實驗室與華為依托紫金山實驗室無損數(shù)據(jù)中心展開面向AI訓(xùn)練場景的網(wǎng)絡(luò)均衡技術(shù)的聯(lián)合創(chuàng)新,解決AI集群中網(wǎng)絡(luò)負(fù)載不均而導(dǎo)致的AI訓(xùn)練任務(wù)性能下降的問題。

高新平研究員指出AI訓(xùn)練使用的集合通信算法,當(dāng)前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運(yùn)行時通信流量都呈現(xiàn)出了共同的特征:周期性、流數(shù)量少、長連接,并行任務(wù)間有強(qiáng)實時同步性要求,通信效率取決于最慢的節(jié)點。同時,AI訓(xùn)練時,各節(jié)點之間傳輸?shù)臄?shù)據(jù)量大。以上這些流量特性使計算集群網(wǎng)絡(luò)容易出現(xiàn)負(fù)載不均導(dǎo)致AI訓(xùn)練任務(wù)性能下降的問題。

現(xiàn)有網(wǎng)絡(luò)均衡的主流技術(shù)大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負(fù)載分擔(dān)均衡。逐流ECMP均衡技術(shù),是當(dāng)前最為常用的負(fù)載均衡算法,適用于流鏈接較多場景,它優(yōu)勢在于無亂序,劣勢在于流數(shù)量較少時,例如AI訓(xùn)練場景下,存在HASH沖突問題,網(wǎng)絡(luò)均衡效果不佳?;谧恿鱢lowlet均衡技術(shù),它依賴于子流之間的時間間隔GAP值的正確配置來實現(xiàn)均衡,但全局路徑級時延信息不可知、無法配置,且存在接收端側(cè)亂序的問題。逐包的負(fù)載分擔(dān)均衡技術(shù),理論均衡度最好,但實際在接收端側(cè)存在大量報文亂序問題,現(xiàn)實中幾乎無使用案例。

發(fā)表“基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實踐”主題演講

在紫金山實驗室無損數(shù)據(jù)中心AI訓(xùn)練集群中驗證了華為創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB(Network Service Load Balance)?;谌A為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉(zhuǎn)發(fā)路徑,避免負(fù)載不均,提升AI訓(xùn)練效率。

Ring算法場景,運(yùn)行單個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實現(xiàn)100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓(xùn)練集性能最高提升113.41%;

Ring算法場景,同時運(yùn)行兩個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實現(xiàn)100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓(xùn)練集性能最高提升57.29%;

Tree算法場景下,運(yùn)行單個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實現(xiàn)100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓(xùn)練集性能最高提升6.50%;

Tree算法場景下,運(yùn)行兩個計算任務(wù)下,使用NSLB技術(shù)對比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實現(xiàn)100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓(xùn)練集性能最高提升15.81%。

未來,紫金山實驗將與華為在無損數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域就網(wǎng)絡(luò)新拓?fù)洹?a target="_blank">DCN高性能互聯(lián)等方向展開持續(xù)的聯(lián)合創(chuàng)新,推動無損數(shù)據(jù)中心網(wǎng)絡(luò)在低時延、高吞吐等方向進(jìn)一步的發(fā)展,為高算力提供強(qiáng)有力的底座。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5228

    瀏覽量

    73513
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35136

    瀏覽量

    279728
  • 網(wǎng)絡(luò)通信
    +關(guān)注

    關(guān)注

    4

    文章

    825

    瀏覽量

    31056

原文標(biāo)題:2022中國算力大會 | 基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實踐

文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智能路徑調(diào)度:AI驅(qū)動負(fù)載均衡的異常路徑治理實踐

    AI驅(qū)動的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境中,傳統(tǒng)的“盡力而為”和“無差別均分”負(fù)載均衡策略已力不從心?;诼窂骄C合質(zhì)量的動態(tài)WCMP機(jī)制,通過實時感知路徑狀態(tài)、果斷剔除異常、智能調(diào)度“健康”資源,
    的頭像 發(fā)表于 07-03 16:26 ?757次閱讀
    智能路徑調(diào)度:<b class='flag-5'>AI</b>驅(qū)動負(fù)載<b class='flag-5'>均衡</b>的異常路徑治理<b class='flag-5'>實踐</b>

    中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案

    同步模塊等。 2. 高校/科研機(jī)構(gòu)智能計算中心 應(yīng)用背景: 服務(wù)于AI訓(xùn)練、大數(shù)據(jù)建模與圖像處理的科研計算平臺,要求高速網(wǎng)絡(luò)與大容量
    發(fā)表于 07-01 16:33

    數(shù)據(jù)中心和通信網(wǎng)絡(luò)有什么區(qū)別

    數(shù)據(jù)中心和通信網(wǎng)絡(luò)在功能定位、技術(shù)架構(gòu)、應(yīng)用場景等方面存在顯著區(qū)別,以下是詳細(xì)對比: 一、功能定位 數(shù)據(jù)中心 核心功能:作為存儲、處理和管理海量數(shù)據(jù)
    的頭像 發(fā)表于 06-12 09:57 ?218次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>和通信<b class='flag-5'>網(wǎng)絡(luò)</b>有什么區(qū)別

    華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會2025亞太站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的分論壇上,華為面向亞太地區(qū)發(fā)布全新升級的星河
    的頭像 發(fā)表于 06-11 11:11 ?534次閱讀

    華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    近日,在華為數(shù)據(jù)通信創(chuàng)新峰會2025中東中亞站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的分論壇上,華為面向中東中亞地區(qū)發(fā)布全
    的頭像 發(fā)表于 05-21 15:49 ?308次閱讀

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器以驗證和優(yōu)化網(wǎng)絡(luò)架構(gòu)和主機(jī)設(shè)計

    : KEYS )推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實工作負(fù)載來評估新算法、組件和協(xié)議對AI訓(xùn)練性能的影響。KAI
    的頭像 發(fā)表于 04-10 08:50 ?272次閱讀

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實工作負(fù)載來評估新算法、組件和協(xié)議對AI訓(xùn)練性能的影響。KAI
    的頭像 發(fā)表于 04-07 11:06 ?500次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡(luò)

    隨著人工智能(AI技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計算和網(wǎng)絡(luò)壓力。從大語言模型(LLM)訓(xùn)練到生成式
    發(fā)表于 03-25 17:35

    華為攜手中控技術(shù)打造全國數(shù)據(jù)中心網(wǎng)絡(luò)創(chuàng)新示范項目

    華為中國合作伙伴大會2025期間,華為與中控技術(shù)股份有限公司(以下簡稱“中控技術(shù)”)聯(lián)合發(fā)布星河AI數(shù)據(jù)中心網(wǎng)絡(luò)優(yōu)秀
    的頭像 發(fā)表于 03-24 14:51 ?515次閱讀

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)
    的頭像 發(fā)表于 03-24 14:46 ?471次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    隨著技術(shù)的飛速發(fā)展,數(shù)據(jù)中心正在從100G和400G演進(jìn)到800G時代,對高速數(shù)據(jù)傳輸?shù)男枨笈c日俱增。因此,選擇高效且可靠的布線解決方案對于800G數(shù)據(jù)中心至關(guān)重要。本文將深入探討80
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設(shè)計

    ,當(dāng)今新型數(shù)據(jù)中心AI 工廠)的建設(shè)正面臨著如何處理其巨大的功耗和散熱問題的嚴(yán)峻挑戰(zhàn),數(shù)字孿生技術(shù)在這場變革中扮演著至關(guān)重要的角色。
    的頭像 發(fā)表于 03-21 15:43 ?451次閱讀

    NIDA發(fā)布《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》

    Alliance,以下簡稱 “NIDA”)攜手中國信息通信研究院等9家組織成員共同發(fā)布了《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》(以下簡稱 “技術(shù)要求”)。該
    的頭像 發(fā)表于 12-04 11:13 ?841次閱讀

    Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創(chuàng)新。在當(dāng)今世界,越來越多的數(shù)據(jù)中心基礎(chǔ)設(shè)施致力于支持新興的AI技術(shù),開放硬件在協(xié)助分解方面發(fā)揮著重要作用。通過將傳統(tǒng)數(shù)據(jù)中心
    的頭像 發(fā)表于 11-25 10:05 ?1375次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>網(wǎng)絡(luò)</b>用了哪家的芯片

    簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽?b class='flag-5'>AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?832次閱讀