一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

壁仞科技Birentech ? 來(lái)源:壁仞科技Birentech ? 2025-03-04 14:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek在開源周開源了部分關(guān)鍵模塊的代碼及推理系統(tǒng)參考架構(gòu),再次引發(fā)行業(yè)震動(dòng),但目前尚未開源DeepSeek-V3 滿血版完整訓(xùn)練代碼。壁仞科技憑借八大自主創(chuàng)新技術(shù),實(shí)現(xiàn)DeepSeek-V3滿血版在國(guó)產(chǎn)GPU平臺(tái)的高效全棧式訓(xùn)練與推理,實(shí)現(xiàn)國(guó)產(chǎn)大模型與國(guó)產(chǎn)GPU的深度融合優(yōu)化,開啟國(guó)產(chǎn)算力新篇章。

01.首個(gè)國(guó)產(chǎn)化Megatron-LM

深度適配方案

DeepSeek業(yè)界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性,但并未開放訓(xùn)練代碼,且Megatron-LM初期也未支持DeepSeek-V3。壁仞科技充分利用自研的Megatron-LM-BR插件、訓(xùn)練框架BR-PyTorch以及高性能加速庫(kù)suDNN、suBLAS、suCCL等,在Megatron-LM框架上率先支持了這些新特性。針對(duì)DeepSeek-V3預(yù)訓(xùn)練,壁仞支持四大并行策略(TP/EP/PP/DP)靈活組合,較原生方案(TP1PP16EP64DP2)更容易適應(yīng)不同規(guī)模節(jié)點(diǎn)的靈活擴(kuò)展。實(shí)現(xiàn)"Attention-MoE異構(gòu)TP"技術(shù),大幅降低了Attention顯存需求。

02.突破海外GPU高度依賴,

實(shí)現(xiàn)關(guān)鍵技術(shù)國(guó)產(chǎn)替代

DeepSeek基于海外GPU做了大量算法和軟硬件協(xié)同優(yōu)化,其實(shí)現(xiàn)高度依賴海外GPU微架構(gòu)、NVLink互連、IB交換機(jī)等?;谧匝蠦IREN大算力TCore、高速互連BLink等技術(shù),壁仞科技在DeepSeek開源周之前就已經(jīng)實(shí)現(xiàn)了FlashMLA、DeepGEMM、DeepEP等核心模塊類似功能和優(yōu)化技術(shù),并進(jìn)行了軟硬協(xié)同深度優(yōu)化,端到端打通了訓(xùn)練全流程,實(shí)現(xiàn)了關(guān)鍵技術(shù)的國(guó)產(chǎn)自主可控。

03.業(yè)界首創(chuàng)顯存優(yōu)化雙擎技術(shù),

實(shí)現(xiàn)滿血版高效訓(xùn)練

DeepSeek-V3滿血版有671B參數(shù),官方推薦方案至少需要1024個(gè)H800(TP1PP16EP64DP1)才能進(jìn)行全參訓(xùn)練。為了應(yīng)對(duì)顯存挑戰(zhàn),壁仞科技自主創(chuàng)新Async Offload、GPU-based Chunk Optimizer等精度無(wú)損的顯存優(yōu)化技術(shù),將大量激活值及優(yōu)化器狀態(tài)異步卸載至CPU內(nèi)存,實(shí)現(xiàn)僅需4096GB顯存(8-16臺(tái)單機(jī)8卡GPU機(jī)器)即可支持DeepSeek-V3全參高效訓(xùn)練。與此同時(shí),通過(guò)巧妙地重疊計(jì)算與通信,上述顯存優(yōu)化技術(shù)幾乎沒(méi)有帶來(lái)訓(xùn)練性能的損失。另外支持智能重計(jì)算策略,自動(dòng)識(shí)別顯存瓶頸層,實(shí)現(xiàn)"算力換空間"智能決策。通過(guò)Async Offload和重計(jì)算顯存優(yōu)化雙擎技術(shù),實(shí)現(xiàn)算力開銷和顯存節(jié)約的最佳均衡。

04.業(yè)界首創(chuàng)"虛擬層+動(dòng)態(tài)重排"技術(shù),

大幅降低流水線氣泡

DeepSeek的DualPipe技術(shù)能掩蓋部分傳輸開銷及大幅降低流水線氣泡,但DualPipe需要GPU微架構(gòu)層面對(duì)計(jì)算單元進(jìn)行精確控制才能實(shí)現(xiàn)計(jì)算和通信的高效并發(fā),相比1F1B,DualPipe需要增加1倍的模型權(quán)重及部分激活值顯存消耗。相比1F1B,Interleave with Virtual Pipeline技術(shù)可以在不增加顯存消耗的情況下大幅降低流水線氣泡,但是要求每個(gè)PP Stage的layer數(shù)是均衡的。DeepSeek-V3有61個(gè)Layer,PP8/PP16都無(wú)法均衡切分Layer導(dǎo)致無(wú)法使能Virtual Pipeline,壁仞科技業(yè)界首創(chuàng)"虛擬層+動(dòng)態(tài)重排"技術(shù),通過(guò)插入3個(gè)虛擬層實(shí)現(xiàn)64層均勻切分,重排部分層實(shí)現(xiàn)負(fù)載均衡,避免流水線等待,最終實(shí)現(xiàn)高效PP并行。

05.融合算子加速體系,

釋放國(guó)產(chǎn)GPU性能潛力

針對(duì)DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等關(guān)鍵耗時(shí)算子,壁仞科技基于其GPU架構(gòu)特點(diǎn)做了極致的圖算/通算融合優(yōu)化,從多計(jì)算操作極致的片上融合,張量處理器與矢量處理器極致異步融合,多級(jí)緩存的流水融合,到計(jì)算與通信融合,并進(jìn)一步引入自動(dòng)化的Kernel Selection技術(shù),基于硬件計(jì)算/通信/訪存建模的CostModel針對(duì)不同工作負(fù)載自適應(yīng)選擇最優(yōu)內(nèi)核實(shí)現(xiàn),將芯片綜合能效發(fā)揮到極致。

06.整合關(guān)鍵技術(shù)模塊,實(shí)現(xiàn)DeepSeek-

V3滿血版端到端高效預(yù)訓(xùn)練

壁仞科技壁礪TM系列產(chǎn)品如壁礪TM106M、106B等產(chǎn)品具備高算力、高能效、高通用性等優(yōu)勢(shì),訓(xùn)推一體,已在多個(gè)行業(yè)完成大規(guī)模商業(yè)化落地,其中在中國(guó)電信落地了國(guó)內(nèi)少有的真正實(shí)現(xiàn)市場(chǎng)化建設(shè)和運(yùn)營(yíng)的國(guó)產(chǎn)千卡集群,連續(xù)訓(xùn)練30天不中斷,斷點(diǎn)續(xù)訓(xùn)小于5分鐘,支持客戶完成大模型訓(xùn)練,穩(wěn)定性、性能、精度各項(xiàng)指標(biāo)達(dá)到客戶要求。此次基于壁礪TM106系列產(chǎn)品,壁仞科技快速高效完成了DeepSeek-V3各項(xiàng)關(guān)鍵技術(shù)落地,基于RedPajama-Data-1T-Sample主流開源數(shù)據(jù)集實(shí)現(xiàn)了端到端高效預(yù)訓(xùn)練,Loss收斂正常。

07.實(shí)現(xiàn)W4A16細(xì)粒度量化技術(shù),支持

DeepSeek-V3/R1滿血版高效推理

壁仞科技在此前已經(jīng)支持了BF16、INT8等版本的DeepSeek-V3/R1滿血版推理,此次新提出W4A16等細(xì)粒度混合量化技術(shù),進(jìn)一步降低了處理延時(shí),提升了總吞吐。另外針對(duì)DeepSeek官方最新發(fā)布的推理系統(tǒng)參考架構(gòu),壁仞科技已初步實(shí)現(xiàn)了分布式EP以及PD分離架構(gòu),將進(jìn)一步提供更高性價(jià)比的推理集群解決方案。

08.One More Thing

業(yè)界首創(chuàng)大模型彈性訓(xùn)推一體架構(gòu),

實(shí)現(xiàn)集群最佳利用效率

DeepSeek 開放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系統(tǒng)參考方案,為行業(yè)展示了如何實(shí)現(xiàn)高性能、低成本的分布式推理集群。其提到“由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此我們實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來(lái)做研究和訓(xùn)練”,在計(jì)算推理成本時(shí),其將釋放給訓(xùn)練使用的資源排除在外,因此降低了推理成本(大概20%= 100% - 226節(jié)點(diǎn)/278節(jié)點(diǎn))。但如何實(shí)現(xiàn)訓(xùn)練和推理任務(wù)高效共享資源呢?

此前在落地千卡集群時(shí),壁仞科技已業(yè)界首創(chuàng)了大模型3D并行訓(xùn)練任務(wù)自動(dòng)彈性伸縮機(jī)制,可以在大模型訓(xùn)練任務(wù)不中斷的情況下,根據(jù)集群的資源情況自動(dòng)進(jìn)行在線擴(kuò)縮容。根據(jù)業(yè)務(wù)流量情況自動(dòng)進(jìn)行削峰填谷,對(duì)大模型推理服務(wù)進(jìn)行實(shí)例縮容、擴(kuò)容,相應(yīng)的訓(xùn)練任務(wù)則自動(dòng)進(jìn)行擴(kuò)容、縮容。通過(guò)這套彈性訓(xùn)推一體架構(gòu),可以將集群資源的使用率保持在近100%,大幅降低資源空閑浪費(fèi)成本。

壁仞科技打造了軟硬一體、全棧優(yōu)化、異構(gòu)協(xié)同、開源開放的大規(guī)模智算集群全棧解決方案,憑借其技術(shù)創(chuàng)新能力和商業(yè)化落地成果,先后獲得環(huán)球時(shí)報(bào)新質(zhì)生產(chǎn)力產(chǎn)業(yè)實(shí)踐“人工智能”示范標(biāo)桿等多個(gè)權(quán)威技術(shù)獎(jiǎng)項(xiàng),技術(shù)方案和產(chǎn)品已在運(yùn)營(yíng)商、智算中心、行業(yè)AI、金融、電力等多個(gè)行業(yè)規(guī)模落地。此次通過(guò)八大核心技術(shù)賦能DeepSeek-V3滿血版全棧式訓(xùn)練推理,進(jìn)一步提升壁仞科技軟硬一體、開箱即用的產(chǎn)品實(shí)力,支持客戶利用好DeepSeek的新質(zhì)生產(chǎn)力實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新落地!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131183
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3673

    瀏覽量

    43797
  • 壁仞科技
    +關(guān)注

    關(guān)注

    1

    文章

    67

    瀏覽量

    3165
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    796

    瀏覽量

    1709

原文標(biāo)題:【智算新突破】壁仞科技八大核心技術(shù)賦能DeepSeek-V3滿血版全棧式訓(xùn)練和推理

文章出處:【微信號(hào):Birentech,微信公眾號(hào):壁仞科技Birentech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【書籍評(píng)測(cè)活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    DeepSeek-V3 的發(fā)布幾乎沒(méi)有預(yù)熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎(chǔ)上構(gòu)建的推理模型,它在后
    發(fā)表于 06-09 14:38

    科技完成Qwen3旗艦?zāi)P瓦m配

    近日,在高效適配Qwen3系列模型推理后,科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練
    的頭像 發(fā)表于 05-16 16:23 ?399次閱讀

    科技完成阿里巴巴通義千問(wèn)Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問(wèn)發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡(jiǎn)稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時(shí)內(nèi),
    的頭像 發(fā)表于 04-30 15:19 ?727次閱讀

    科大訊飛深度解析DeepSeek-V3/R1推理系統(tǒng)成本

    本篇分析來(lái)自科大訊飛技術(shù)團(tuán)隊(duì),深度解析了DeepSeek-V3 / R1 推理系統(tǒng)成本,旨在助力開發(fā)者實(shí)現(xiàn)高性價(jià)比的MoE集群部署方案。感謝訊飛研究院副院長(zhǎng)&AI工程院常務(wù)副院長(zhǎng)龍明康、AI工程院AI云平臺(tái)研發(fā)部總監(jiān)李珍松、訊飛星辰MaaS團(tuán)隊(duì)的研究對(duì)本文的貢獻(xiàn)。
    的頭像 發(fā)表于 04-15 13:46 ?2643次閱讀
    科大訊飛深度解析<b class='flag-5'>DeepSeek-V3</b>/R1<b class='flag-5'>推理</b>系統(tǒng)成本

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    近日,DeepSeek正式發(fā)布了其大語(yǔ)言模型的全新小版本迭代——DeepSeek-V3-0324,這一版本在推理能力、代碼生成、中文寫作以及搜索能力等多個(gè)維度實(shí)現(xiàn)了顯著提升。憑借其先進(jìn)的MUSA
    的頭像 發(fā)表于 03-31 11:34 ?596次閱讀
    摩爾線程GPU成功適配<b class='flag-5'>Deepseek-V3</b>-0324大模型

    科技推出阿里QWQ-32B大模型一體機(jī)

    3月6日,國(guó)產(chǎn)大模型領(lǐng)域再次迎來(lái)重大突破:阿里正式發(fā)布 32B 推理模型 QwQ-32B,根據(jù)Qwen公布的基準(zhǔn)測(cè)試數(shù)據(jù),QwQ-32B性能可媲美DeepSeek-R1,在數(shù)學(xué)推理、編
    的頭像 發(fā)表于 03-10 09:05 ?1207次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技推出阿里QWQ-32B大模型一體機(jī)

    實(shí)戰(zhàn)教程 用滿血DeepSeek-V3 671B自動(dòng)編寫俄羅斯方塊游戲

    。 本文將從零開始詳細(xì)介紹使用滿血版的DeepSeek-V3 671B模型 + 官方推薦的Roo Code插件為您打造AI編程智能體的全過(guò)程。 一,開發(fā)環(huán)境準(zhǔn)備 本文的軟硬件環(huán)境如下: 操作系統(tǒng)
    的頭像 發(fā)表于 02-19 16:23 ?2175次閱讀
    實(shí)戰(zhàn)教程 用<b class='flag-5'>滿血</b>版<b class='flag-5'>DeepSeek-V3</b> 671B自動(dòng)編寫俄羅斯方塊游戲

    DeepSeek V3昇思MindSpore版本上線開源社區(qū)

    近日,基于昇騰AI硬件與昇思MindSpore AI框架版本的DeepSeek-V3完成開發(fā)支持并上線昇思開源社區(qū),面向開發(fā)者提供開箱即用的預(yù)訓(xùn)練推理能力,并已成功在大規(guī)模集群上預(yù)
    的頭像 發(fā)表于 02-18 10:12 ?1165次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>V3</b>昇思MindSpore版本上線開源社區(qū)

    了解DeepSeek-V3DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    ) 擴(kuò)展上下文+結(jié)構(gòu)化推理支持更長(zhǎng)復(fù)雜輸入) 響應(yīng)控制 通用流暢性優(yōu)先 強(qiáng)化分步解釋與中間過(guò)程可解釋性 3. 技術(shù)架構(gòu)差異 技術(shù)點(diǎn) DeepSeek-V3
    發(fā)表于 02-14 02:08

    訊飛開放平臺(tái)支持DeepSeek

    今天,DeepSeek全系大模型正式上線訊飛開放平臺(tái)(包括DeepSeek-V3DeepSeek-R1),支持公有云API調(diào)用、一鍵部署專屬模型!
    的頭像 發(fā)表于 02-11 09:27 ?1303次閱讀

    科技順利部署DeepSeek R1千問(wèn)蒸餾模型

    DeepSeek 的國(guó)內(nèi)算力支持隊(duì)伍進(jìn)一步壯大:來(lái)自上海的科技順利部署DeepSeek-R1-Distill千問(wèn)蒸餾模型(1.5B/7B
    的頭像 發(fā)表于 02-08 16:56 ?1812次閱讀

    昆侖芯率先完成Deepseek訓(xùn)練推理全版本適配

    本文是昆侖芯適配DeepSeek系列推文第一篇,將于近期分別推出在昆侖芯P800上進(jìn)行DeepSeek-V3/R1推理、訓(xùn)練的深度文章,干貨滿滿、持續(xù)關(guān)注!
    的頭像 發(fā)表于 02-06 15:13 ?1440次閱讀
    昆侖芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>推理</b>全版本適配

    AMD將DeepSeek-V3模型集成至Instinct MI300X GPU

    AMD近日宣布了一項(xiàng)重要進(jìn)展,成功將全新的DeepSeek-V3模型集成到其Instinct MI300X GPU上。這一舉措標(biāo)志著AMD在AI推理優(yōu)化方面邁出了重要一步。 據(jù)了解
    的頭像 發(fā)表于 02-06 09:41 ?551次閱讀

    AMD集成DeepSeek-V3模型至Instinct MI300X GPU

    AMD近日宣布了一項(xiàng)重要的技術(shù)進(jìn)展,即將全新的DeepSeek-V3模型成功集成到其旗艦級(jí)GPU產(chǎn)品——Instinct MI300X上。這一舉措標(biāo)志著AMD在人工智能推理領(lǐng)域邁出了堅(jiān)實(shí)的一步
    的頭像 發(fā)表于 02-05 13:58 ?514次閱讀

    談?wù)?b class='flag-5'>DeepSeek-v3提到的基礎(chǔ)設(shè)施演進(jìn)

    DeepSeek-v3的感受是, 算法和Infra的非常緊密結(jié)合. 其實(shí)很多大模型團(tuán)隊(duì)的算法和Infra是非常割裂的, 完全同時(shí)懂算法和Infra的人并不多, DeepSeek這個(gè)團(tuán)隊(duì)就是其中之一
    的頭像 發(fā)表于 01-02 10:04 ?960次閱讀
    談?wù)?b class='flag-5'>DeepSeek-v3</b>提到的基礎(chǔ)設(shè)施演進(jìn)