一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

壁仞科技完成Qwen3旗艦?zāi)P瓦m配

壁仞科技Birentech ? 來(lái)源:壁仞科技Birentech ? 2025-05-16 16:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練適配和優(yōu)化。由此,壁仞科技已實(shí)現(xiàn)Qwen3系列模型在國(guó)產(chǎn)GPU平臺(tái)的高效全棧式訓(xùn)練與推理支持。

近日,阿里巴巴通義千問(wèn)正式發(fā)布并開(kāi)源8款新版Qwen3系列“混合推理模型”。從官方披露的數(shù)據(jù)來(lái)看,旗艦?zāi)P蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與DeepSeek-R1等頂級(jí)模型相比,表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。

壁仞科技在Qwen3發(fā)布后數(shù)小時(shí)內(nèi)完成了全系列模型的推理支持。受益于前期適配DeepSeek-V3滿血版訓(xùn)練的關(guān)鍵技術(shù)和成功經(jīng)驗(yàn),壁仞科技進(jìn)一步升級(jí)快速實(shí)現(xiàn)Qwen3-235B-A22B旗艦版最大參數(shù)量模型的訓(xùn)練適配與優(yōu)化支持?;诒谪鹂萍甲匝蠱egatron-LM-BR訓(xùn)練插件,用戶可實(shí)現(xiàn)大模型零代碼修改下無(wú)縫運(yùn)行,開(kāi)箱即用。

值得關(guān)注的是,Megatron-LM-BR融合了壁仞科技自主知識(shí)產(chǎn)權(quán)的三大核心技術(shù):虛擬層+動(dòng)態(tài)重排、Async Offload、多維算子融合,實(shí)現(xiàn)了適配通用性與訓(xùn)練性能的雙重保障。

01業(yè)界首創(chuàng)"虛擬層+動(dòng)態(tài)重排"技術(shù)

顯著降低流水線氣泡

阿里開(kāi)源的Pai-Megatron-Patch發(fā)布了Qwen3 MoE 模型的最佳實(shí)踐,但Qwen3-235B-A22B模型包含94個(gè)Transformer Layer,其默認(rèn)的策略如PP8無(wú)法均衡切分Layer導(dǎo)致無(wú)法使用Interleave with Virtual Pipeline高效流水線機(jī)制,因此造成流水線等待問(wèn)題。壁仞科技基于Megatron-LM-BR自主研發(fā)了"虛擬層+動(dòng)態(tài)重排"技術(shù):通過(guò)插入兩個(gè)虛擬層將總層數(shù)擴(kuò)展至96層,實(shí)現(xiàn)均勻切分以支持Interleave with Virtual Pipeline機(jī)制;同時(shí)對(duì)部分Layer進(jìn)行動(dòng)態(tài)重排,使流水線計(jì)算通信負(fù)載均衡,從而顯著降低流水線氣泡率。

02業(yè)界首創(chuàng)Async Offload技術(shù)

實(shí)現(xiàn)精度無(wú)損極速預(yù)訓(xùn)練

為發(fā)揮算力優(yōu)勢(shì)和提升顯存效率,壁仞科技自主研發(fā)Async Offload(異步卸載)機(jī)制:將大量激活張量和優(yōu)化器狀態(tài)異步遷移至CPU內(nèi)存,僅使用64張GPU卡即可支持Qwen3-235B-A22B精度無(wú)損的全參模型高效預(yù)訓(xùn)練;而業(yè)界其他已發(fā)布案例至少需要256卡,另外其他方案如FP8可以降低顯存消耗,但容易對(duì)精度產(chǎn)生影響。壁仞科技同時(shí)還支持智能重計(jì)算策略,動(dòng)態(tài)識(shí)別顯存瓶頸層,實(shí)現(xiàn)"算力換空間"智能決策。通過(guò)Async Offload和重計(jì)算顯存優(yōu)化雙擎技術(shù),壁仞科技實(shí)現(xiàn)了算力開(kāi)銷和顯存節(jié)約的最佳均衡。

03融合算子多維加速體系

充分釋放算力潛能

針對(duì)GroupedMLP、Permutation、Unpermutation等關(guān)鍵耗時(shí)算子,壁仞科技基于其GPU架構(gòu)特點(diǎn)實(shí)現(xiàn)了泛化的圖算/通算融合優(yōu)化。支持多計(jì)算操作極致的片上融合、張量處理器與矢量處理器極致異步融合、多級(jí)緩存的流水融合、以及計(jì)算與通信融合,并進(jìn)一步引入自動(dòng)化的Kernel Selection技術(shù),基于硬件計(jì)算/通信/訪存建模的Cost Model針對(duì)不同工作負(fù)載自適應(yīng)選擇最優(yōu)內(nèi)核實(shí)現(xiàn),將芯片綜合能效發(fā)揮到極致,同時(shí)也確保了通用的泛化能力。在保持精度無(wú)損的同時(shí),達(dá)成計(jì)算效率、硬件利用率與內(nèi)存帶寬的多維度協(xié)同優(yōu)化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4944

    瀏覽量

    131219
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3519

    瀏覽量

    50414
  • 壁仞科技
    +關(guān)注

    關(guān)注

    1

    文章

    67

    瀏覽量

    3173
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    797

    瀏覽量

    1735

原文標(biāo)題:憑借三大核心技術(shù),壁仞科技完成Qwen3旗艦?zāi)P陀?xùn)練適配與優(yōu)化

文章出處:【微信號(hào):Birentech,微信公眾號(hào):壁仞科技Birentech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣和通加速通義千問(wèn)Qwen3在端側(cè)全面落地

    6月,廣和通宣布:率先完成通義千問(wèn)Qwen3系列混合推理模型在高通QCS8550平臺(tái)端側(cè)的適配部署。廣和通通過(guò)定制化混合精度量化方案與創(chuàng)新硬件加速算法,成功突破
    的頭像 發(fā)表于 06-25 15:35 ?321次閱讀

    Arm CPU適配通義千問(wèn)Qwen3系列模型

    近日,阿里巴巴開(kāi)源了新一代通義千問(wèn)模型 Qwen3,Arm 率先成為首批成功適配模型的計(jì)算平臺(tái)廠商。與此同時(shí),Arm 面向人工智能 (AI) 框架開(kāi)發(fā)者的開(kāi)源計(jì)算內(nèi)核 Arm Kle
    的頭像 發(fā)表于 05-12 16:37 ?640次閱讀

    Intel OpenVINO? Day0 實(shí)現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(tái)(GPU, NPU)Qwen3 系列模型
    的頭像 發(fā)表于 05-11 11:36 ?846次閱讀
    Intel OpenVINO? Day0 實(shí)現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    NVIDIA RTX 5880 Ada與Qwen3系列模型實(shí)測(cè)報(bào)告

    近日,阿里巴巴通義千問(wèn)團(tuán)隊(duì)正式推出新一代開(kāi)源大語(yǔ)言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合專家模型,參數(shù)規(guī)模覆蓋 0.6B 至 235
    的頭像 發(fā)表于 05-09 15:05 ?951次閱讀
    NVIDIA RTX 5880 Ada與<b class='flag-5'>Qwen3</b>系列<b class='flag-5'>模型</b>實(shí)測(cè)報(bào)告

    NVIDIA使用Qwen3系列模型的最佳實(shí)踐

    阿里巴巴近期發(fā)布了其開(kāi)源的混合推理大語(yǔ)言模型 (LLM) 通義千問(wèn) Qwen3,此次 Qwen3 開(kāi)源模型系列包含兩款混合專家模型 (MoE
    的頭像 發(fā)表于 05-08 11:45 ?1236次閱讀
    NVIDIA使用<b class='flag-5'>Qwen3</b>系列<b class='flag-5'>模型</b>的最佳實(shí)踐

    MediaTek天璣9400率先完成阿里Qwen3模型部署

    通義大模型團(tuán)隊(duì)在天璣 9400 旗艦移動(dòng)平臺(tái)上率先完成 Qwen3(千問(wèn) 3)的端側(cè)部署。未來(lái),搭載天璣 9400 移動(dòng)平臺(tái)的設(shè)備可充分發(fā)揮
    的頭像 發(fā)表于 05-08 10:11 ?482次閱讀

    后摩智能NPU適配通義千問(wèn)Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開(kāi)源混合推理模型。用時(shí)不到1天,后摩智能自研NPU迅速實(shí)現(xiàn)Qwen3 系列模型Qwen3 0.6B-1
    的頭像 發(fā)表于 05-07 16:46 ?551次閱讀

    寒武紀(jì)率先支持Qwen3全系列模型

    近日,阿里Qwen團(tuán)隊(duì)一口氣上新8大模型,Qwen3正式發(fā)布并全部開(kāi)源。
    的頭像 發(fā)表于 05-07 15:51 ?401次閱讀

    摩爾線程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開(kāi)源混合推理模型。摩爾線程團(tuán)隊(duì)在模型發(fā)布當(dāng)天,率先完成Qwen3全系列
    的頭像 發(fā)表于 05-07 15:24 ?465次閱讀

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語(yǔ)言模型系列(Qwen3Qwen3-MoE),在模型規(guī)模與性能上實(shí)現(xiàn)多方面升級(jí)。openEuler社
    的頭像 發(fā)表于 05-07 14:44 ?646次閱讀
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開(kāi)源8款混合推理模型。作為Qwen系列中的最新一代大型語(yǔ)言模型,Qwen3在推理、指令遵循、工具調(diào)用、多語(yǔ)言能
    的頭像 發(fā)表于 05-06 15:17 ?543次閱讀

    幾B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開(kāi)源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無(wú)論云端大卡還是邊緣A
    的頭像 發(fā)表于 04-30 18:37 ?562次閱讀
    幾B都有!BM1684X一鍵<b class='flag-5'>適配</b>全系列<b class='flag-5'>Qwen3</b>

    上新:小米首個(gè)推理大模型開(kāi)源 馬斯克:下周推出Grok 3.5

    似乎國(guó)內(nèi)外AI競(jìng)爭(zhēng)日趨白熱化,就在阿里巴巴發(fā)布Qwen3(通義千問(wèn)3)之后,引發(fā)業(yè)界廣泛關(guān)注;很多大廠在跟進(jìn),大模型不斷上新: 阿里巴巴開(kāi)源新一代通義千問(wèn)模型
    的頭像 發(fā)表于 04-30 16:08 ?790次閱讀

    科技完成阿里巴巴通義千問(wèn)Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問(wèn)發(fā)布并開(kāi)源8款新版Qwen3系列“混合推理模型”(簡(jiǎn)稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時(shí)內(nèi),
    的頭像 發(fā)表于 04-30 15:19 ?744次閱讀

    科技推出阿里QWQ-32B大模型一體機(jī)

    能力等關(guān)鍵測(cè)試中展現(xiàn)出卓越性能。 作為國(guó)產(chǎn)AI算力重要推動(dòng)力量,科技不斷測(cè)試與更新適配最先進(jìn)大模型,聯(lián)合生態(tài)合作伙伴共同推出QWQ-32B大模型
    的頭像 發(fā)表于 03-10 09:05 ?1210次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技推出阿里QWQ-32B大<b class='flag-5'>模型</b>一體機(jī)