一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek MoE架構(gòu)下的網(wǎng)絡(luò)負(fù)載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)利用率的關(guān)鍵策略

星融元Asterfusion ? 2025-04-28 12:04 ? 次閱讀

人工智能技術(shù)快速發(fā)展的浪潮下,現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)正面臨著前所未有的挑戰(zhàn)。GPT大模型的參數(shù)量已突破萬億級別,自動駕駛訓(xùn)練需要處理PB級的場景數(shù)據(jù),這些都使得AI計(jì)算集群規(guī)模呈指數(shù)級增長。

根據(jù)OpenAI披露的數(shù)據(jù),GPT-4訓(xùn)練使用的GPU數(shù)量已超過25,000個,這種大規(guī)模并行計(jì)算架構(gòu)對網(wǎng)絡(luò)性能提出了嚴(yán)苛要求:網(wǎng)絡(luò)傳輸時延需要控制在微秒級,帶寬利用率必須達(dá)到80%以上,任何網(wǎng)絡(luò)抖動都會直接導(dǎo)致算力資源的閑置浪費(fèi)。

統(tǒng)計(jì)數(shù)據(jù)顯示,傳統(tǒng)以太網(wǎng)的平均利用率長期徘徊在35%-40%,這意味著超過60%的網(wǎng)絡(luò)帶寬資源處于閑置狀態(tài)。這種低效不僅造成巨額硬件投資浪費(fèi),更成為制約AI訓(xùn)練效率的關(guān)鍵瓶頸。

傳統(tǒng)以太網(wǎng)的困境

網(wǎng)絡(luò)利用率作為衡量實(shí)際傳輸流量與理論帶寬比值的核心指標(biāo),在AI計(jì)算場景中直接決定模型訓(xùn)練周期。這種效率瓶頸源于多重技術(shù)桎梏:

  • 流量復(fù)雜度倍增:現(xiàn)代數(shù)據(jù)中心混合承載著AI訓(xùn)練的長流(Long Flow)、推理服務(wù)的短流(Short Flow)、存儲復(fù)制的大包(Jumbo Frame)以及管理信令的小包(Mouse Flow)。這種流量形態(tài)的多樣性導(dǎo)致網(wǎng)絡(luò)必須按"峰值突發(fā)量×安全冗余"的超配模式建設(shè),造成非峰值期大量帶寬閑置。
  • 架構(gòu)性阻塞難題:經(jīng)典的接入-匯聚-核心三級架構(gòu)存在天然的收斂比限制。以典型4:1收斂比設(shè)計(jì)為例,當(dāng)接入層40G鏈路滿載時,匯聚層100G鏈路的理論利用率僅能達(dá)到80%,若考慮流量潮汐效應(yīng),實(shí)際利用率常低于50%。
  • 丟包引發(fā)的鏈?zhǔn)椒磻?yīng):傳統(tǒng)QoS機(jī)制采用尾丟棄(Tail Drop)或WRED隨機(jī)丟棄策略應(yīng)對擁塞,這種"先污染后治理"的方式觸發(fā)TCP超時重傳,導(dǎo)致有效帶寬被重傳數(shù)據(jù)重復(fù)占用。實(shí)測表明,1%的丟包率即可造成吞吐量下降40%。
  • 流控機(jī)制鈍化:基于ECN的擁塞通知僅能傳遞1bit信息,終端設(shè)備需通過"探測-降速-恢復(fù)"的試探性調(diào)節(jié)適應(yīng)帶寬變化。這種開環(huán)控制方式在應(yīng)對AI訓(xùn)練中的All-Reduce等集合通信時,調(diào)節(jié)延遲常超過100ms,造成帶寬利用的階段性塌陷。
  • 路徑調(diào)度失衡:依賴五元組哈希的ECMP算法,在面對AI訓(xùn)練中持續(xù)時間長達(dá)數(shù)小時、帶寬需求穩(wěn)定的"大象流"時,極易引發(fā)路徑選擇的極化現(xiàn)象。某知名云廠商的故障案例顯示,40%的等價鏈路處于空載狀態(tài)時,剩余60%鏈路卻持續(xù)過載丟包。

超級以太網(wǎng)的技術(shù)突圍

wKgZO2gO_XWATJP1AABv0CZrekE018.png

為突破85%網(wǎng)絡(luò)利用率的目標(biāo),超級以太網(wǎng)聯(lián)盟(UEC)提出系統(tǒng)性解決方案:

1、專用通道隔離:利用AI流量可預(yù)測特性構(gòu)建物理隔離的RoCEv2專用網(wǎng)絡(luò)。某頭部AI實(shí)驗(yàn)室的實(shí)踐表明,通過分離訓(xùn)練流量與存儲流量,網(wǎng)絡(luò)有效利用率提升27%,GPU空閑等待時間減少41%。

2、無阻塞拓?fù)洌何覀冃枰O(shè)計(jì)無阻塞的網(wǎng)絡(luò)結(jié)構(gòu),如CLOS、Dragonfly, Torus, MegaFly, SlimFly等。目前,CLOS是最流行的網(wǎng)絡(luò)結(jié)構(gòu) [3],在這個網(wǎng)絡(luò)結(jié)構(gòu)中,總接入帶寬與總匯聚帶寬相等,并容易在縱向和橫向上擴(kuò)展,在宏觀上實(shí)現(xiàn)了無阻塞。然而由于流量不均衡和微突發(fā)現(xiàn)象的存在,在局部鏈路上,擁塞仍然會存在。

3、精準(zhǔn)擁塞控制升級:當(dāng)In-Cast擁塞產(chǎn)生后,目前主要通過端到端的流控機(jī)制來緩解這一問題。例如,基于ECN的DCQCN/DCTCP技術(shù)通過調(diào)節(jié)源端的發(fā)送流量速率,適應(yīng)網(wǎng)絡(luò)的可用帶寬。由于ECN攜帶的信息只有1個bit,這種調(diào)節(jié)方式不夠精確。為了解決這一問題,UEC傳輸層(UET,Ultra Ethernet Transport Layer)提出了以下改進(jìn)措施:

  • 加速調(diào)整過程:UET通過測量端到端延遲來調(diào)節(jié)發(fā)送速率,并根據(jù)接收方的能力通知發(fā)送方調(diào)整速率,快速達(dá)到線速。
  • 基于遙測:來自網(wǎng)絡(luò)的擁塞信息可以通告擁塞的位置和原因,縮短擁塞信令路徑并向終端節(jié)點(diǎn)提供更多信息,從而實(shí)現(xiàn)更快的擁塞響應(yīng)。

4、包噴灑:突破傳統(tǒng)流級調(diào)度的"包噴灑"技術(shù),通過動態(tài)路徑選擇算法將數(shù)據(jù)包離散分布在多條路徑,從而更充分地利用網(wǎng)絡(luò)帶寬。由于這種方式會導(dǎo)致目的地接收到的報(bào)文亂序,因此需要修改傳輸協(xié)議,允許包亂序到達(dá),并在目的地重新組裝為完整的消息。然而,重組過程帶來了額外的開銷,增加了整個流的延遲,且目的端需要等待該流的所有包傳輸完畢后才能處理整個消息,無法實(shí)現(xiàn)流水線操作。

實(shí)踐突破

作為UEC核心成員,星融元通過三大技術(shù)創(chuàng)新將網(wǎng)絡(luò)利用率推升至90%:

Flowlet

前面提到,基于流的ECMP容易造成負(fù)載不均衡,而包噴灑技術(shù)又帶來了額外的延遲。有沒有兩全其美的技術(shù)?flowlet應(yīng)運(yùn)而生。Flowlet是根據(jù)流中的“空閑”時間間隔將一個流劃分為若干片段。在一個flowlet內(nèi),數(shù)據(jù)包在時間上緊密連續(xù);而兩個flowlet之間,存在較大的時間間隔。這一間隔遠(yuǎn)大于同一流分片內(nèi)數(shù)據(jù)包之間的時間間隔,足以使兩個流分片通過不同的網(wǎng)絡(luò)路徑傳輸而不發(fā)生亂序。

wKgZPGgO_bOANnCmAAB-f0iX4RA085.png

并行計(jì)算過程中,計(jì)算和通信是交替進(jìn)行的。因而AI并行訓(xùn)練和推理產(chǎn)生的流量是典型的flowlet。

當(dāng)網(wǎng)絡(luò)發(fā)生擁塞時,可將flowlet調(diào)度到較空閑的鏈路上以緩解壓力。在AI訓(xùn)練和推理網(wǎng)絡(luò)中,RDMA流通常較持久,訓(xùn)練流可能持續(xù)數(shù)分鐘至數(shù)小時,推理流多為數(shù)秒至數(shù)分鐘,而flowlet則以微秒到毫秒級的短暫突發(fā)為主。這種基于flowlet的精細(xì)調(diào)度能有效優(yōu)化流量分配,顯著降低網(wǎng)絡(luò)擁塞,從而提高網(wǎng)絡(luò)利用率。

基于遙測的路由

將傳統(tǒng)OSPF的靜態(tài)度量升級為時延、丟包、利用率等多維度動態(tài)權(quán)重。通過部署在Spine層的分布式?jīng)Q策單元,實(shí)現(xiàn)10ms級別的全網(wǎng)狀態(tài)同步與路徑重計(jì)算。某自動駕駛公司的實(shí)測表明,突發(fā)流量下的路徑切換延遲從秒級降至毫秒級。

基于遙測的路由(Int-based Routing)技術(shù)結(jié)合OSPF、BGP和在網(wǎng)遙測(INT)技術(shù),為網(wǎng)絡(luò)中任意一對節(jié)點(diǎn)之間計(jì)算多條路徑,每個路徑的開銷是動態(tài)測量的延遲,從而能夠根據(jù)實(shí)時的網(wǎng)絡(luò)負(fù)載進(jìn)行路由,從而充分利用每個路徑的帶寬。

WCMP

ECMP技術(shù)將包、flowlet或整個流均勻的分布到多個路徑上,忽略了不同路徑上的實(shí)際負(fù)載。為了進(jìn)一步提升網(wǎng)絡(luò)利用率。星融元采用加權(quán)代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調(diào)度更多的流量,在時延更高的路徑上調(diào)度更少的流量,從而實(shí)現(xiàn)所有路徑的公平利用。在理想情況下,流量經(jīng)過不同路徑的總時延是相等的,可充分利用所有可用帶寬。

隨著AI大模型參數(shù)規(guī)模突破10萬億,超級以太網(wǎng)正從技術(shù)概念演變?yōu)樗懔A(chǔ)設(shè)施的關(guān)鍵支柱。通過架構(gòu)革新與協(xié)議棧重構(gòu),網(wǎng)絡(luò)利用率突破90%已具備工程可行性。這不僅意味著數(shù)據(jù)中心OPEX的大幅降低,更將推動AI訓(xùn)練效率進(jìn)入新的數(shù)量級,加速通用人工智能時代的到來。

【參考文獻(xiàn)】
[1] Ultra Ethernet Consortium, “Ultra Ethernet Introduction” 15th October 2024.
[2] Asterfusion, “Unveiling AI Data Center Network Traffic” https://cloudswit.ch/blogs/ai-data-center-network-traffic/.
[3] Asterfusion, “What is Leaf-Spine Architecture and How to Build it?” https://cloudswit.ch/blogs/what-is-leaf-spine-architecture-and-how-to-build-it/.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7713

    瀏覽量

    90140
  • 負(fù)載均衡
    +關(guān)注

    關(guān)注

    0

    文章

    116

    瀏覽量

    12495
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    755

    瀏覽量

    1050
收藏 人收藏

    評論

    相關(guān)推薦

    DeepSeek推動AI算力需求:800G光模塊的關(guān)鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心和AI集群架構(gòu)優(yōu)化的重點(diǎn)。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計(jì)算任務(wù)提供了必要的帶寬保障。 800G光模塊如何解決DeepSeek大規(guī)模算力
    發(fā)表于 03-25 12:00

    MPLS網(wǎng)絡(luò)性能優(yōu)化技巧

    MPLS(多協(xié)議標(biāo)簽交換)網(wǎng)絡(luò)性能優(yōu)化是一個復(fù)雜的過程,涉及多個方面的技術(shù)和策略。以下是一些關(guān)鍵的MPLS網(wǎng)絡(luò)性能
    的頭像 發(fā)表于 02-14 17:09 ?729次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應(yīng)用選擇

    場景 針對邏輯推理、符號操作、數(shù)學(xué)解題的深度優(yōu)化 2. 關(guān)鍵能力對比 能力維度 DeepSeek-V3 DeepSeek-R1 數(shù)學(xué)推理 基礎(chǔ)數(shù)學(xué)問題處理 顯著強(qiáng)化(復(fù)雜方程、幾何證明
    發(fā)表于 02-14 02:08

    DeepSeek對芯片算力的影響

    DeepSeek模型,尤其是其基于MOE(混合專家)架構(gòu)DeepSeek-V3,對芯片算力的要求產(chǎn)生了深遠(yuǎn)影響。為了更好地理解這一影響,我們可以從幾個方面進(jìn)行分析。一.
    的頭像 發(fā)表于 02-07 10:02 ?887次閱讀
    <b class='flag-5'>DeepSeek</b>對芯片算力的影響

    解析DeepSeek MoE并行計(jì)算優(yōu)化策略

    本期Kiwi Talks將從集群Scale Up互聯(lián)的需求出發(fā),解析DeepSeek在張量并行及MoE專家并行方面采用的優(yōu)化策略。DeepSeek
    的頭像 發(fā)表于 02-07 09:20 ?1258次閱讀
    解析<b class='flag-5'>DeepSeek</b> <b class='flag-5'>MoE</b>并行計(jì)算<b class='flag-5'>優(yōu)化</b><b class='flag-5'>策略</b>

    華納云:什么是負(fù)載均衡?優(yōu)化資源利用率策略

    負(fù)載均衡是現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)架構(gòu)中不可或缺的一部分,它通過智能分配請求和任務(wù),確保系統(tǒng)資源的高效利用。本文將探討負(fù)載均衡的概念、工作原理、
    的頭像 發(fā)表于 10-28 16:07 ?469次閱讀

    交換機(jī)內(nèi)存利用率過高會是什么問題

    在現(xiàn)代網(wǎng)絡(luò)架構(gòu)中,交換機(jī)扮演著至關(guān)重要的角色,負(fù)責(zé)在網(wǎng)絡(luò)設(shè)備之間高效地轉(zhuǎn)發(fā)數(shù)據(jù)包。然而,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和數(shù)據(jù)流量的增加,交換機(jī)的內(nèi)存資源可能會變得緊張,導(dǎo)致內(nèi)存
    的頭像 發(fā)表于 10-18 09:53 ?1676次閱讀

    HTTP海外訪問優(yōu)化:提升跨國網(wǎng)絡(luò)性能的秘訣

    HTTP海外訪問優(yōu)化是提升跨國網(wǎng)絡(luò)性能的關(guān)鍵,涉及多個方面的技術(shù)和策略。
    的頭像 發(fā)表于 10-15 08:04 ?568次閱讀

    代理IP的使用率和使用時長,主要被什么影響?

    代理IP的使用率和使用時長受多種因素影響,用戶需要根據(jù)自己的實(shí)際需求和場景選擇合適的代理類型和策略。同時,注意監(jiān)控代理IP的使用情況,及時調(diào)整和優(yōu)化使用策略,以提高代理IP的
    的頭像 發(fā)表于 09-18 08:14 ?433次閱讀
    代理IP的使<b class='flag-5'>用率</b>和使用時長,主要被什么影響?

    如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡(luò)中的負(fù)載均衡

    網(wǎng)絡(luò)管理和故障排除中,了解數(shù)據(jù)包的路徑和識別負(fù)載均衡節(jié)點(diǎn)是非常重要的。traceroute 命令是一個用于跟蹤數(shù)據(jù)包在網(wǎng)絡(luò)中經(jīng)過的路由路徑的工具。本文將詳細(xì)介紹如何利用 tracer
    的頭像 發(fā)表于 08-07 15:13 ?764次閱讀
    如何<b class='flag-5'>利用</b>traceroute命令發(fā)現(xiàn)<b class='flag-5'>網(wǎng)絡(luò)</b>中的<b class='flag-5'>負(fù)載</b>均衡

    PerfXCloud順利接入MOE大模型DeepSeek-V2

    今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平臺再度實(shí)現(xiàn)重大升級!目前,已順利接入被譽(yù)為全球最強(qiáng)的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官網(wǎng)的體驗(yàn)中心對平臺用戶免費(fèi)開放體驗(yàn)。
    的頭像 發(fā)表于 07-27 10:08 ?1054次閱讀
    PerfXCloud順利接入<b class='flag-5'>MOE</b>大模型<b class='flag-5'>DeepSeek</b>-V2

    深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)解析與優(yōu)化策略

    堆疊多個隱藏層,逐步提取和轉(zhuǎn)化輸入數(shù)據(jù)的特征,最終實(shí)現(xiàn)復(fù)雜的預(yù)測和分類任務(wù)。本文將對DNN的架構(gòu)進(jìn)行詳細(xì)解析,并探討其優(yōu)化策略,以期為相關(guān)研究和應(yīng)用提供參考。
    的頭像 發(fā)表于 07-09 11:00 ?3218次閱讀

    電機(jī)控制系統(tǒng)的神經(jīng)網(wǎng)絡(luò)優(yōu)化策略

    電機(jī)控制系統(tǒng)作為現(xiàn)代工業(yè)自動化的核心組成部分,其性能直接影響到整個生產(chǎn)線的效率和穩(wěn)定性。隨著人工智能技術(shù)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)在電機(jī)控制系統(tǒng)中的應(yīng)用越來越廣泛。神經(jīng)網(wǎng)絡(luò)優(yōu)化策略通過模擬人
    的頭像 發(fā)表于 06-25 11:46 ?1073次閱讀

    DC/AC電源模塊:提升光伏發(fā)電系統(tǒng)的能源利用率

    BOSHIDA DC/AC電源模塊:提升光伏發(fā)電系統(tǒng)的能源利用率 隨著環(huán)境保護(hù)意識的提高和能源需求的增加,光伏發(fā)電系統(tǒng)作為一種清潔能源的代表,受到了越來越多的關(guān)注。然而,光伏發(fā)電系統(tǒng)在實(shí)際應(yīng)用中還
    的頭像 發(fā)表于 06-17 13:53 ?538次閱讀
    DC/AC電源模塊:提升光伏發(fā)電系統(tǒng)的能源<b class='flag-5'>利用率</b>

    恒訊科技全面解析:如何有效降低服務(wù)器CPU利用率?

    降低服務(wù)器CPU利用率是一個涉及監(jiān)控、診斷和優(yōu)化的全面過程。以下是一些有效的方法: 1、監(jiān)控CPU使用率: 使用工具如top, htop, vmstat, 或 iostat實(shí)時監(jiān)控CPU使用情況
    的頭像 發(fā)表于 05-10 17:24 ?970次閱讀