日韩无码四五六区,黄片完整版在线观看,粉嫩一区二区三区粉嫩91

本期Kiwi Talks將從集群Scale Up互聯(lián)的需求出發(fā)，解析DeepSeek在張量并行及MoE專家并行方面采用的優(yōu)化策略。DeepSeek大模型的工程優(yōu)化以及國產(chǎn)AI 產(chǎn)業(yè)鏈的開源與快速部署預(yù)示著國產(chǎn)AI網(wǎng)絡(luò)自主自控將大有可為。

DeepSeekMoE架構(gòu)融合了專家混合系統(tǒng)(MoE)、多頭注意力機制(Multi-Head Latent Attention, MLA)和RMSNorm三個核心組件。通過專家共享機制、動態(tài)路由算法等緩存技術(shù)，該模型在保持性能水平的同時，實現(xiàn)了相較傳統(tǒng)MoE模型40%的計算開銷降低。該技術(shù)在模型規(guī)模與計算效率之間找到了新的平衡點，其在降低計算成本的同時保持了領(lǐng)先的性能水平，為大規(guī)模AI系統(tǒng)的可持續(xù)發(fā)展提供了新的思路。

(來源：DeepSeek-V3 Technical Report) Scale Up互聯(lián)源頭：張量并行與專家并行

Scale Up互聯(lián)需求源頭：張量并行與專家并行

在大規(guī)模 AI 訓練中，GPU 通常使用各種并行技術(shù)協(xié)同工作。其中張量并行是指將大型張量分散到多個 GPU 上進行計算，這種技術(shù)對互聯(lián)帶寬和時延特別敏感。

(來源：Semi analysis) 簡單來說，張量是人工智能模型中用來表示輸入、權(quán)重和中間計算的基本數(shù)據(jù)結(jié)構(gòu)。在訓練大型 AI 模型時，這些張量可能會變得非常龐大，以至于無法放入單個 GPU 的內(nèi)存中。為了解決這個問題，張量被拆分到多個 GPU 上，每個 GPU 處理一部分張量。這種劃分允許模型跨多個 GPU 擴展，從而能夠訓練比原本更大的模型。然而，分割張量需要 GPU 之間頻繁通信以同步計算并共享結(jié)果。這時互聯(lián)速度就變得至關(guān)重要。

(來源：Deepgram.com)

另一方面，MoE模型本身適合大規(guī)模、復(fù)雜任務(wù)、計算效率要求高且訓練復(fù)雜程度高。DeepSeek MoE多模態(tài)模型涉及專家并行，它將復(fù)雜的模型分解為多個專家模型，并在這些專家模型之間進行并行計算。在專家并行中，不同GPU負責不同的專家模型，同時Attention模塊在每個GPU上復(fù)制，由于每個專家模型需要單獨加載數(shù)據(jù)，因此對每個token施加了額外的內(nèi)存帶寬需求。此外專家并行需要網(wǎng)絡(luò)支持高并發(fā)、有效的負載均衡機制以及故障容錯性等一系列復(fù)雜需求。

因此在Scale-up網(wǎng)絡(luò)中，張量并行和專家并行的策略對于大模型訓推的效率至關(guān)重要，也是AI網(wǎng)絡(luò)互聯(lián)網(wǎng)絡(luò)帶寬(TB級)和極低時延需求的源頭。

H800 中 NVLink 帶寬的降低會減慢此階段 GPU 之間的通信速度，從而導致延遲增加并降低整體訓練效率。在涉及具有數(shù)十億個參數(shù)的大型模型的場景中，這種瓶頸變得更加明顯，因為 GPU 之間需要頻繁通信來同步張量并行和專家并行。

在并行策略上，DeepSeek-V3使用64路的專家并行，16路的流水線并行，以及數(shù)據(jù)并行(ZeRO1)。其中，專家并行會引入all-to-all通信，由于每個token會激活8個專家，這導致跨節(jié)點的all-to-all通信開銷成為主要的系統(tǒng)瓶頸。

那么DeepSeek是如何通過算法工程優(yōu)化來解決這些瓶頸并提升大模型訓推效率?

DeepSeek V3集群互聯(lián)框架概述

從DeepSeek公開的論文中數(shù)據(jù)來看: Scale Inside單個芯片使用英偉達H800，共計2048張計算卡。集群組網(wǎng)使用Infiniband網(wǎng)絡(luò)，Scale Up每個節(jié)點內(nèi)通過NVLink互聯(lián)。GPU之間的帶寬是160GB，節(jié)點之間的帶寬是50GB。Scale Out網(wǎng)絡(luò)據(jù)推測，每個節(jié)點包含8個400Gb/s的智能網(wǎng)卡(H100/H800 上后向網(wǎng)絡(luò)通常都會采用 400 Gb/s網(wǎng)卡)。

路由優(yōu)化策略降低TP開銷

在其公布的V3技術(shù)論文中所提及網(wǎng)絡(luò)集群中路由的優(yōu)化策略：跨節(jié)點 GPU 與 IB 完全互連，節(jié)點內(nèi)通信通過 NVLink 處理。NVLink 提供 160 GB/s 帶寬，大約是 IB(50 GB/s)的 3.2倍。為了有效利用IB和NVlink的帶寬差異，DeepSeek限制每個token最多分派到4個GPU節(jié)點，從而限制IB網(wǎng)絡(luò)的傳輸流量。當網(wǎng)絡(luò)路由決策確定后，它將首先通過IB傳輸?shù)侥繕斯?jié)點上具有相同節(jié)點內(nèi)索引的GPU。一旦到達目標節(jié)點，努力確保它通過NVLink瞬時轉(zhuǎn)發(fā)到托管其目標專家的特定GPU，而不被隨后到達的token阻塞。這樣，通過IB和NVLink的通信完全重疊，每個token可以高效地在每個節(jié)點上選擇平均3.2個專家，而不會產(chǎn)生來自NVLink的額外開銷。這意味著，盡管DeepSeek-V3在實際中只選擇8個路由專家，但它可以將其數(shù)量擴大到最多13個專家(4個節(jié)點×每個節(jié)點3.2個專家)，同時保持相同的通信成本。

(來源：公眾號AI閑談)

這樣做是因為高性能 GPU 訓練集群往往會采用軌道優(yōu)化，同號 GPU 在一個 Leaf Switch 下，如上圖所示，因此可以利用高速的 NVLink 來代替從 Leaf Switch 到 Spine Switch 的流量，從而降低 IB 通信時延，并且減少 Leaf Switch 和 Spine Switch 之間的流量。總體而言，在這種通信策略下，僅20個SM就足以充分利用IB和NVLink的帶寬，這種路由的優(yōu)化策略達到了減少張量并行通信開銷的目的。

FP8與冗余專家技術(shù)減少MoE內(nèi)存與通信開銷

(來源：DeepSeek-V3 Technical Report)

為了進一步減少MoE訓練中的內(nèi)存和通信開銷，DeepSeek在FP8中緩存和分發(fā)激活值，同時以BF16存儲低精度優(yōu)化器狀態(tài)。在兩個與DeepSeek-V2-Lite和DeepSeek-V2相似規(guī)模的模型上驗證了提出的FP8混合精度框架，訓練了大約1萬億個Token。這一設(shè)計理論上使計算速度較原 BF16 方法提升一倍。此外，F(xiàn)P8 Wgrad GEMM 允許激活值以 FP8 存儲，供 Backward 使用，從而顯著降低內(nèi)存消耗。

(來源：DeepSeek-V3 Technical Report)

為了在MoE部分的不同專家間實現(xiàn)負載均衡，需要確保每個GPU處理大概相同數(shù)量的Token。DeepSeek MoE引入了冗余專家部署策略，對高負載專家并行進行復(fù)制并冗余部署。根據(jù)在線服務(wù)中的專家負載統(tǒng)計信息，在一定間隔內(nèi)定期確定冗余專家集，通過探索解碼階段的動態(tài)冗余策略優(yōu)化各GPU負載，減少all-to-all通信開銷。在實際處理大規(guī)模文本生成任務(wù)時，DeepSeek MoE可以通過動態(tài)分配專家資源，實現(xiàn)高效的文本生成，而不需要像傳統(tǒng)模型那樣進行大規(guī)模的全模型計算。

DeepSeek MLA KV Cache壓縮優(yōu)化

Multi-Head Latent Attention (MLA) 是 DeepSeek-V3 模型中用于高效推理的核心注意力機制。MLA 通過低秩聯(lián)合壓縮技術(shù)，減少了推理時的鍵值(KV)緩存，從而在保持性能的同時顯著降低了內(nèi)存占用。這類創(chuàng)新技術(shù)一方面減少了KV緩存的需求，加快了數(shù)據(jù)訪問速度，從而全面提升了模型的推理速度。

KV緩存技術(shù)注解：

大語言模型通常是通常自回歸的方式產(chǎn)生輸出序列，后序生成的詞塊依賴與前序的所有詞塊，這些詞塊包括輸入的詞塊以及前面已經(jīng)生成的詞塊。因此隨著輸出序列的增長，推理過程的開銷顯著增大。為了解決上述問題，KV Cache的技術(shù)被提出，該技術(shù)通過存儲和復(fù)用前序Token產(chǎn)生的Key值和Value值，極大減少了計算上的冗余，用存儲開銷換取顯著的加速效果，但同時增加的存儲開銷和帶寬需求也對AI Data Center的設(shè)計提出了挑戰(zhàn)。

國產(chǎn)AI網(wǎng)絡(luò)自主自控未來可期

DeepSeek 模型的成功預(yù)示著AI大模型系統(tǒng)驗證了新的Scaling Law，AI能力邊界將引來新一輪的擴張。在全球地緣政治日趨復(fù)雜的背景下，構(gòu)建國產(chǎn)算力閉環(huán)系統(tǒng)已成為當務(wù)之急。然而，算力芯片始終是大模型系統(tǒng)算力的堅實基石。 DeepSeek憑借其開源和低成本的優(yōu)勢，將顯著提升國產(chǎn)GPU在推理任務(wù)中的性價比和ROI。近期，眾多GPU廠商和云服務(wù)提供商紛紛宣布已完成與DeepSeek的適配部署，為國產(chǎn)AI產(chǎn)業(yè)的蓬勃發(fā)展注入了強勁動力。

目前，Scale Up網(wǎng)絡(luò)受限于PCIe總線的速率，僅支持傳統(tǒng)的八卡GPU互聯(lián)。而基于私有協(xié)議的GPU超帶寬域，由于缺乏成熟的生態(tài)產(chǎn)業(yè)鏈支持，難以實現(xiàn)大規(guī)模集群的高性能互聯(lián)。DeepSeek模型的出現(xiàn)，預(yù)示著國產(chǎn)芯片將在其引領(lǐng)的AI大模型新紀元中迎來廣泛機遇。

在這一背景下，作為助力國產(chǎn)GPU 實現(xiàn)自主自控的參與者，奇異摩爾自研的網(wǎng)絡(luò)加速芯粒GPU Link Chiplet——NDSA-G2G，以其極高的靈活性和可擴展性為Scale-up互聯(lián)生態(tài)提供了強有力的支撐。NDSA -G2G以IO Chiplet芯粒形式集成在GPU加速卡內(nèi)，并利用UCIe D2D接口與GPU互聯(lián)，NDSA-G2G能夠?qū)崿F(xiàn)高性能的數(shù)據(jù)流，從而全面加速分布式計算網(wǎng)絡(luò)，最終實現(xiàn)TB級別的GPU互聯(lián)。

奇異摩爾作為國產(chǎn)AI網(wǎng)絡(luò)生態(tài)鏈的一份子，將持續(xù)與大模型廠商、運營商/云廠商及國產(chǎn)GPU廠商共同探索AI系統(tǒng)的優(yōu)化潛力，持續(xù)推動生態(tài)適配工作，為國產(chǎn)AI早日實現(xiàn)算力閉環(huán)、邁向自主自控新紀元貢獻堅實力量。

關(guān)于我們

AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾，成立于2021年初，是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術(shù)，創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric，專為超大規(guī)模AI計算平臺量身打造，以滿足其對高性能互聯(lián)的嚴苛需求。我們的產(chǎn)品線豐富而全面，涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品，如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案，為AI計算提供了堅實的支撐。

奇異摩爾的核心團隊匯聚了來自全球半導體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英，他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗，致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團隊擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項目的經(jīng)驗，為公司的產(chǎn)品和服務(wù)提供了強有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界，愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力，技術(shù)探索新場景，生態(tài)構(gòu)建新的半導體格局，為高性能AI計算奠定穩(wěn)固的基石。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

并行計算

并行計算

+關(guān)注

關(guān)注
0

文章
29

瀏覽量
9614
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3141

瀏覽量
4065
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
797

瀏覽量
1744

原文標題：Kiwi Talks | 解析DeepSeek MoE并行計算優(yōu)化策略國產(chǎn)AI網(wǎng)絡(luò)自主自控大有可為

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

解析DeepSeek MoE并行計算優(yōu)化策略

評論