一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

解決AIGC大模型對網(wǎng)絡的5大需求

芯啟源 ? 來源:芯啟源 ? 2024-03-22 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從Transformer問世至2023年ChatGPT爆火到2024年Sora吸睛,人們逐漸意識到隨著模型參數(shù)規(guī)模增加,模型的效果越來越好,且兩者之間符合Scalinglaw規(guī)律,且當模型的參數(shù)規(guī)模超過數(shù)百億后,AI大模型的語言理解能力、邏輯推理能力以及問題分析能力迅速提升。同時,隨著模型參數(shù)規(guī)模與性能提升后,AI大模型訓練對于網(wǎng)絡的需求相比于傳統(tǒng)模型也隨之產(chǎn)生變化。

為滿足大規(guī)模訓練集群高效的分布式計算,AI大模型訓練流程中通常會包含數(shù)據(jù)并行、流水線并行及張量并行等多種并行計算模式,不同并行模式下均需要多個計算設備間進行集合通信操作。另外,訓練過程中通常采用同步模式,需多機多卡間完成集合通信操作后才可進行訓練的下一輪迭代或計算。

因此,在AI大模型的大規(guī)模訓練集群中,如何設計高效的集群組網(wǎng)方案,滿足低時延、高吞吐的機間通信,從而降低多機多卡間數(shù)據(jù)同步的通信耗時,提升GPU有效計算時間占比(GPU計算時間/整體訓練時間),對于AI分布式訓練集群的效率提升至關重要。以下將從規(guī)模、帶寬、時延、穩(wěn)定性及網(wǎng)絡部署角度分析AI大模型對于網(wǎng)絡的需求。

1

超大規(guī)模組網(wǎng)需求

AI 應用計算量呈幾何級數(shù)增長,算法模型向巨量化發(fā)展,人工智能模型參數(shù)在過去十年增長了十萬倍,當前AI超大模型的參數(shù)目前已經(jīng)達到了千億~萬億的級別。訓練這樣的模型,毫無疑問需要超高算力。此外,超大模型對于顯存的需求也很高。以1T參數(shù)模型為例,使用16bit精度存儲,首先需要消耗2TB的存儲空間。

除此之外,在訓練過程中,前向計算產(chǎn)生的激活值、反向計算產(chǎn)生的梯度、參數(shù)更新需要的優(yōu)化器狀態(tài)等中間變量均需要存儲,且中間變量在單次迭代中也會不斷增加。一個使用Adam優(yōu)化器的訓練過程,峰值會產(chǎn)生7倍于模型參數(shù)量的中間變量。如此高的顯存消耗,意味著需要幾十上百個GPU才能完整存儲一個模型的訓練過程。

可是,僅僅有了大量GPU,仍然無法訓練出有效的大模型。合適的并行方式才是提升訓練效率的關鍵。目前超大模型主要有三種并行方式:數(shù)據(jù)并行、流水線并行、張量并行。在千億~萬億級別的大模型訓練時,以上三種并行都會存在。訓練超大模型需要數(shù)千GPU組成的集群。表面上看,這和云數(shù)據(jù)中心當前已經(jīng)達到數(shù)萬服務器的互聯(lián)規(guī)模相比,還處于下風。但實際上,幾千節(jié)點的GPU互聯(lián),比數(shù)萬服務器的互聯(lián)更具有挑戰(zhàn),因為網(wǎng)絡能力和計算能力需要高度匹配。

云數(shù)據(jù)中心使用CPU計算,網(wǎng)絡需求一般在10Gbps~100Gbps,并且使用傳統(tǒng)TCP/IP傳輸層協(xié)議。但AI超大模型訓練使用GPU訓練,算力比CPU高好幾個數(shù)量級,互聯(lián)網(wǎng)絡需求在100Gbps~400Gbps,此外使用了RDMA協(xié)議來減少傳輸時延,提升網(wǎng)絡吞吐。

具體來說,數(shù)千GPU的高性能組網(wǎng),在網(wǎng)絡規(guī)模上有以下問題需要考慮

·大規(guī)模RDMA網(wǎng)絡遇到的問題,例如鏈路頭阻、PFC死鎖風暴

·網(wǎng)絡性能優(yōu)化,包括更高效的擁塞控制、負載均衡技術

·網(wǎng)卡連接性能問題,單主機受到硬件性能限制,如何構建數(shù)千RDMA的QP連接

·網(wǎng)絡拓撲選擇,是傳統(tǒng)Fat Tree結構更好,還是可以參考高性能計算的Torus,Dragonfly等組網(wǎng)

2

超高帶寬需求

在AI大模型訓練場景下,機內(nèi)與機外的集合通信操作將產(chǎn)生大量的通信數(shù)據(jù)量。從機內(nèi)GPU通信角度看,以千億參數(shù)規(guī)模的AI模型為例,模型并行產(chǎn)生的AllReduce集合通信數(shù)據(jù)量將達到百GB級別,因此機內(nèi)GPU間的通信帶寬及方式對于流完成時間十分重要。服務器內(nèi)GPU應支持高速互聯(lián)協(xié)議,且其進一步避免了GPU通信過程中依靠CPU內(nèi)存緩存數(shù)據(jù)的多次拷貝操作。

從機間GPU通信角度看,流水線并行、數(shù)據(jù)并行及張量并行模式需要不同的通信操作,部分集合通信數(shù)據(jù)將達到百GB級別,且復雜的集合通信模式將在同一時刻產(chǎn)生多對一與一對多的通信。因此機間GPU的高速互聯(lián)對于網(wǎng)絡的單端口帶寬、節(jié)點間的可用鏈路數(shù)量及網(wǎng)絡總帶寬提出了高要求。另外,GPU與網(wǎng)卡間通常通過PCIe總線互聯(lián),PCIe總線的通信帶寬決定網(wǎng)卡單端口帶寬能否完全發(fā)揮。以PCIe3.0總線(16lane對應單向16GB/秒帶寬)為例,當機間通信配備200Gbps的單端口帶寬時,機間的網(wǎng)絡性能將無法完全被使用。

3

超低時延及抖動需求

在數(shù)據(jù)通信傳輸過程中產(chǎn)生的網(wǎng)絡時延由靜態(tài)時延和動態(tài)時延兩個部分構成。靜態(tài)時延包含數(shù)據(jù)串行時延、設備轉(zhuǎn)發(fā)時延和光電傳輸時延,靜態(tài)時延由轉(zhuǎn)發(fā)芯片的能力和傳輸?shù)木嚯x決定,當網(wǎng)絡拓撲與通信數(shù)據(jù)量確定時,此部分時延通常為固定值,而真正對網(wǎng)絡性能影響比較大的是動態(tài)時延。動態(tài)時延包含了交換機內(nèi)部排隊時延和丟包重傳時延,通常由網(wǎng)絡擁塞和丟包引起。

以1750億參數(shù)規(guī)模的GPT-3模型訓練為例,從理論估算模型分析,當動態(tài)時延從10us提升至1000us時,GPU有效計算時間占比將降低接近10%,當網(wǎng)絡丟包率為千分之一時,GPU 有效計算時間占比將下降13%,當網(wǎng)絡丟包率達到1%時,GPU有效計算時間占比將低于5%。如何降低計算通信時延、提升網(wǎng)絡吞吐是AI大模型智算中心能夠充分釋放算力的核心問題。

除時延外,網(wǎng)絡變化因素引入的時延抖動也對訓練效率產(chǎn)生影響。訓練過程中計算節(jié)點的集合通信過程一般可以拆解成多個節(jié)點間并行執(zhí)行P2P通信,例如N個節(jié)點間Ring AllReduce 集合通信包含2*(N-1)次的數(shù)據(jù)通信子流程,每個子流程中所有節(jié)點均完成P2P通信(并行執(zhí)行)才可結束這個子流程。當網(wǎng)絡出現(xiàn)波動時,某兩個節(jié)點間的P2P的流完成時間(FCT)將明顯變長。因網(wǎng)絡抖動引入的P2P通信時間變化可理解為木桶效率的最弱一環(huán),將會導致其所屬的子流程的完成時間也隨之變長。因此,網(wǎng)絡抖動導致集合通信的效率變低,從而影響到AI大模型的訓練效率。

4

超高穩(wěn)定性需求

Transformer 誕生以后,開啟了大模型快速演進的序章。過去5年時間,模型從61M,增長到540B,翻了近1萬倍!集群算力決定了AI模型訓練速度的快慢,單塊V100訓練GTP-3 需要335年,10000張V100的集群,集群系統(tǒng)完美線性擴展需要12天左右時間。

網(wǎng)絡系統(tǒng)的可用性是作為基礎來決定整個集群的計算穩(wěn)定性。一方面,網(wǎng)絡故障域大,集群中一個網(wǎng)絡節(jié)點的故障可能會影響數(shù)十個甚至更多的計算節(jié)點的連通性,降低系統(tǒng)算力的完整性;另一方面,網(wǎng)絡性能波動影響大,網(wǎng)絡作為集群共享資源相較于單個計算節(jié)點不容易被隔離,性能波動會導致所有計算資源的利用率都受影響。因此在AI大模型訓練任務周期中,維持網(wǎng)絡的穩(wěn)定高效是極其重要的目標,對網(wǎng)絡運維帶來了新的挑戰(zhàn)。

在訓練任務期間一旦發(fā)生故障,可能需要容錯替換或者彈性擴縮容的方式來處理故障節(jié)點。一旦參與計算的節(jié)點位置發(fā)生了變化,導致當前的通信模式或許就不是最優(yōu)的,需要通過作業(yè)重新排布和調(diào)度,以此來提升整體訓練的效率。另外,一些網(wǎng)絡故障(例如靜默丟包)的發(fā)生是不可被預期的,一旦發(fā)生不僅會導致集合通信效率降低,同時還會引發(fā)通信庫超時,造成訓練業(yè)務長時間卡死,很大程度上影響訓練效率。因此需要通過獲取細粒度的業(yè)務流吞吐、丟包等信息,可避障自愈的耗時控制在秒級別內(nèi)。

5

網(wǎng)絡自動化部署需求

智能無損網(wǎng)絡的構建往往基于RDMA協(xié)議及擁塞控制機制,但與之相伴隨的是一系列復雜多樣化的配置。其中任一個參數(shù)配置錯誤都可能會影響到業(yè)務的性能,還有可能會引出些許不符合預期的問題。據(jù)統(tǒng)計,超過90%的高性能網(wǎng)絡故障是由配置錯誤導致的問題,出現(xiàn)這一問題的主要原因是網(wǎng)卡配置參數(shù)多,其中參數(shù)量取決于架構版本、業(yè)務類型和網(wǎng)卡類型。由于AI大模型訓練中集群規(guī)模大,進一步增大配置的復雜度。因此,高效或自動化部署配置能夠有效的提升大模型集群系統(tǒng)的可靠性和效率。自動化部署配置需要能夠做到多臺并行部署配置的能力,自動選擇擁塞控制機制相關參數(shù)以及根據(jù)網(wǎng)卡類型和業(yè)務類型選擇相關配置。

同樣的,在復雜的架構和配置條件下,在業(yè)務運行過程中可快速準確地故障定位,能夠有效保障整體業(yè)務效率。自動化的故障檢測一方面可以快速定界問題,精準推送問題至管理人員,另一方面可以減少問題定位成本,快速定位問題根因并給出解決方案。

芯啟源不但在各大開源社區(qū)持續(xù)貢獻,參與和引領行業(yè)發(fā)展,在國內(nèi)率先支持RDMA、GPU Direct等技術,成為旁路CPU和主機內(nèi)存的最佳AI/HPC解決方案。每個GPU可配置一個DPU進行高速互聯(lián),解決傳輸瓶頸。進一步地,芯啟源下一代DPU采用Chiplet方式進行GPU和DPU的互聯(lián)將帶來更高靈活性。

芯啟源DPU從芯片、硬件到軟件都實現(xiàn)了國產(chǎn)自主可控,并率先在國內(nèi)取得大量商業(yè)訂單,其中在一些運營商的省級規(guī)模部署場景實現(xiàn)了上線超兩年、且穩(wěn)定運行無任何異常。從傳統(tǒng)業(yè)務場景到AI/HPC場景,芯啟源DPU均提供可靠穩(wěn)定的解決方案,幫助客戶實現(xiàn)業(yè)務平滑升級和AI/HPC等新業(yè)務的快速部署。

DPU是AIGC大模型算力網(wǎng)絡的關鍵設施,芯啟源作為國產(chǎn)DPU的領跑者,將持續(xù)推進“人工智能+”行動,賦能中國千行百業(yè)的數(shù)智化革新,助力新質(zhì)生產(chǎn)力。

本文轉(zhuǎn)載自微信公眾號“牛逼的IT”,小編略作修改



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • PFC
    PFC
    +關注

    關注

    47

    文章

    1020

    瀏覽量

    108168
  • 數(shù)據(jù)通信

    關注

    2

    文章

    470

    瀏覽量

    34449
  • RDMA
    +關注

    關注

    0

    文章

    83

    瀏覽量

    9287
  • GPU芯片
    +關注

    關注

    1

    文章

    305

    瀏覽量

    6192
  • AI大模型
    +關注

    關注

    0

    文章

    373

    瀏覽量

    602

原文標題:芯啟源DPU | 解決AIGC大模型對網(wǎng)絡的5大需求

文章出處:【微信號:corigine,微信公眾號:芯啟源】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RAKsmart服務器如何提升AIGC平臺的運行效率

    AIGC(人工智能生成內(nèi)容)領域,高效運行意味著更快的模型訓練、更低的推理延遲和更流暢的用戶體驗。RAKsmart服務器憑借其硬件配置、網(wǎng)絡優(yōu)化和生態(tài)支持,為AIGC平臺提供了從底層
    的頭像 發(fā)表于 04-01 10:40 ?292次閱讀
    RAKsmart服務器如何提升<b class='flag-5'>AIGC</b>平臺的運行效率

    AIGC軟件免費嗎

    當今,AIGC軟件以其高效、便捷的特點,為人們的創(chuàng)作和工作帶來了極大的便利。那么,AIGC軟件是否免費呢?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 03-07 09:42 ?288次閱讀

    足下科技全面支持DeepSeek系列大模型

    模型基礎能力越來越高,各行各業(yè)都希望運用AIGC降本增收,卻面臨如何結合自身業(yè)務場景優(yōu)化的難題。為了幫助客戶快速打造符合其業(yè)務需求AIGC應用,足下科技自主研發(fā)了LLM基礎設施,統(tǒng)
    的頭像 發(fā)表于 02-26 16:57 ?708次閱讀

    AIGC和AI有什么區(qū)別

    AIGC是AI在內(nèi)容生成領域的一個特定應用方向,AI的技術發(fā)展為AIGC提供了基礎和支撐。那么,AIGC和AI有什么區(qū)別呢?下面,AI部落小編帶您詳細了解。
    的頭像 發(fā)表于 02-20 10:33 ?821次閱讀

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術自動生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心技術包括自然語言處理(NLP)、計算機視覺、生成對抗網(wǎng)絡(GAN)等
    發(fā)表于 01-13 10:46

    AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術自動生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心技術包括自然語言處理(NLP)、計算機視覺、生成對抗網(wǎng)絡(GAN)等
    發(fā)表于 01-13 10:32

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    多個因素以確保所選模型能夠滿足企業(yè)的具體需求和目標。首先,企業(yè)需要明確自己的客服需求和目標。例如,是否需要24小時在線客服服務?是否需要處理復雜問題的能力?是否需要個性化服務?明確這些需求
    發(fā)表于 12-17 16:53

    AIGC系統(tǒng)中多個模型的切換調(diào)用方案探索

    作者:京東科技 賈玉龍 1 背景 1.1 現(xiàn)狀 AIGC系統(tǒng)中多個模型的切換調(diào)用通常指的是在同一個AIGC系統(tǒng)或應用中,可以根據(jù)不同的輸入條件或任務需求,動態(tài)地選擇并調(diào)用不同的機器學習
    的頭像 發(fā)表于 11-27 11:43 ?499次閱讀
    <b class='flag-5'>AIGC</b>系統(tǒng)中多個<b class='flag-5'>模型</b>的切換調(diào)用方案探索

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢和挑戰(zhàn)

    AIGC(Artificial Intelligence Generated Content,生成內(nèi)容)與傳統(tǒng)內(nèi)容生成在多個方面存在顯著區(qū)別,同時AIGC也展現(xiàn)出其獨特的優(yōu)勢和面臨的挑戰(zhàn)。 一
    的頭像 發(fā)表于 11-22 16:04 ?1416次閱讀

    AIGC是什么及其應用 AIGC的定義和工作原理

    的發(fā)展得益于深度學習的進步,特別是神經(jīng)網(wǎng)絡模型,如生成對抗網(wǎng)絡(GANs)、變分自編碼器(VAEs)和自回歸模型等。 AIGC的工作原理
    的頭像 發(fā)表于 11-22 16:00 ?4285次閱讀

    云知聲榮登2024全球AIGC先鋒者系列榜單

    近日,由PEC China、至頂科技、軟積木主辦的“2024 AI創(chuàng)新者大會暨PEC提示工程峰會”在北京舉行,會上發(fā)布“2024全球AIGC先鋒者系列榜單”,云知聲入選“2024全球AIGC先鋒50強”“2024全球AIGC
    的頭像 發(fā)表于 11-21 14:14 ?598次閱讀

    云知聲入選創(chuàng)業(yè)邦《2024 AIGC創(chuàng)新應用洞察報告》

    近日,創(chuàng)業(yè)邦研究中心發(fā)布《2024 AIGC 創(chuàng)新應用洞察報告》,分析AIGC行業(yè)發(fā)展趨勢,洞察產(chǎn)業(yè)創(chuàng)新機會。云知聲成功入選《報告》,并憑借在大模型領域的持續(xù)深耕與實踐成為AIGC應用
    的頭像 發(fā)表于 10-25 16:38 ?821次閱讀

    如何評估AIGC內(nèi)容的質(zhì)量和效果

    : 準確性 : 事實核查 :確保AIGC生成的內(nèi)容與已知的事實和數(shù)據(jù)相符。 引用來源 :檢查內(nèi)容是否引用了可靠的來源,并且這些引用是否正確無誤。 相關性 : 目標受眾分析 :評估內(nèi)容是否符合目標受眾的興趣和需求。 上下文適應性 :內(nèi)容是否能夠
    的頭像 發(fā)表于 10-25 16:02 ?2969次閱讀

    AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)

    人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術自動生成文本、圖像、音頻和視頻等內(nèi)容的過程。隨著深度學習、自然語言
    的頭像 發(fā)表于 10-25 15:36 ?1762次閱讀

    模型時代的算力需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的算力,以及相關的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04