摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

自DeepSeek啟動“開源周”以來，已陸續(xù)開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計(jì)算架構(gòu)，可提供原生FP8計(jì)算能力，同時升級了高性能線性代數(shù)模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構(gòu)上優(yōu)化實(shí)現(xiàn)了FP8矩陣乘法，支持DeepGEMM的相應(yīng)功能，充分展示了摩爾線程MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的強(qiáng)大優(yōu)勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內(nèi)核開源倉庫，旨在加速M(fèi)LA機(jī)制的計(jì)算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓(xùn)練與推理提供強(qiáng)大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進(jìn)行開發(fā)。

摩爾線程基于新一代計(jì)算架構(gòu)MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計(jì)算引擎及數(shù)據(jù)搬運(yùn)引擎，能夠提供原生FP8計(jì)算能力。升級的MUTLASS高性能線性代數(shù)模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優(yōu)化參考實(shí)現(xiàn)，包括基于FlashAttention3思想實(shí)現(xiàn)的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓(xùn)練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。得益于全新的Tensor計(jì)算引擎，F(xiàn)P8計(jì)算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅(jiān)實(shí)基礎(chǔ)。

借助MUTLASS 0.2.0，摩爾線程發(fā)布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進(jìn)行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實(shí)現(xiàn)，充分汲取FlashAttention3的先進(jìn)算法思想，針對摩爾線程GPU設(shè)計(jì)了全新的計(jì)算流水線。這一設(shè)計(jì)能夠有效掩藏?cái)?shù)據(jù)搬運(yùn)的延遲和Softmax計(jì)算的開銷，充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計(jì)算效率。

作為國內(nèi)率先原生支持FP8計(jì)算精度的國產(chǎn)GPU企業(yè)，摩爾線程迅速響應(yīng)，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動開源生態(tài)的發(fā)展，通過技術(shù)開放與生態(tài)共建，加速國產(chǎn)全功能GPU在AI計(jì)算領(lǐng)域的規(guī)?；瘧?yīng)用，為更多用戶提供更智能、高效的解決方案。

關(guān)于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案，為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。

我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺。我們的愿景是為美好世界加速。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4948

瀏覽量
131271
開源

開源

+關(guān)注

關(guān)注
3

文章
3690

瀏覽量
43840
摩爾線程

摩爾線程

+關(guān)注

關(guān)注
2

文章
235

瀏覽量
5373
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
798

瀏覽量
1760

原文標(biāo)題：原生FP8計(jì)算 + MUTLASS｜摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

摩爾線程
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個人主頁

Hot 摩爾線程MTT S系列GPU與愛特云V2.0完成適配
Hot 摩爾線程攜手RealLink共同完成UE5在國產(chǎn)顯卡上的首次適配

New 摩爾線程亮相2025中國移動產(chǎn)業(yè)投資生態(tài)合作大會
New 摩爾線程亮相2025全球數(shù)字經(jīng)濟(jì)大會

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實(shí)

腦極體
1天前

665 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
1天前

650 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
1天前

582 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
1天前

523 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點(diǎn)

駿龍電子
1天前

644 閱讀

模擬電路故障診斷電子書_王希勤

914701371
19.5 MB

免費(fèi)

0下載

openharmony第三方組件適配移植的快速滾動列表控件

姚小熊27
1.01 MB

免費(fèi)

2下載

Tsuru開源PaaS平臺

李桂蘭
1.63 MB

免費(fèi)

0下載

rqbit Rust實(shí)現(xiàn)的BitTorrent客戶端

名士流
0.43 MB

2積分

1下載

XL7046 DC/DC降壓轉(zhuǎn)換器開源

bigbangboom
0.00 MB

2積分

2下載

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語言模型部署

左岸cpx
1天前

178 閱讀

【M-K1HSE開發(fā)板免費(fèi)體驗(yàn)】DevEco Studio應(yīng)用開發(fā)體驗(yàn)(物理機(jī)器運(yùn)行失敗)

jf_1137202360
1天前

135 閱讀

省錢+環(huán)保+個性：打造一臺永不“過時”的自定義電腦！

早知
2天前

698 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測及顯示

jinglixixi
2天前

829 閱讀

【RA-Eco-RA6M4開發(fā)板評測】+01+開箱測評+UART+PWM+LED

jf_18702540
3天前

808 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

評論

摩爾線程開源高性能線性代數(shù)模板庫MUTLASS

摩爾線程完成股改，籌備上市

摩爾線程與超圖軟件完成產(chǎn)品兼容認(rèn)證

摩爾線程與羽人科技完成大語言模型訓(xùn)練測試

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

摩爾線程攜手東華軟件完成AI大模型推理測試與適配