英偉達(dá)推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函數(shù)、偏差向量和批處理稀疏 GEMM 的性能。
NVIDIA CUSPASSELT 是一個(gè)高性能 CUDA 庫,專用于一般矩陣運(yùn)算,其中至少有一個(gè)操作數(shù)是稀疏矩陣:
在這個(gè)等式中, OP(A) 和 OP(B) 指的是原位操作,例如轉(zhuǎn)置和非轉(zhuǎn)置。
cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性(包括內(nèi)存布局、對齊和數(shù)據(jù)類型)方面提供了靈活性。
主要特征
NVIDIA Sparse MMA 張量核支持
混合精度計(jì)算支持:
FP16 I / O 、 FP32 張量核累加。
BFLOAT16 I / O , FP32 張量核累積。
INT8 I / O , INT32 張量核計(jì)算。
FP32 I / O , TF32 張量核心計(jì)算。
TF32 I / O , TF32 張量核心計(jì)算。
矩陣修剪和壓縮功能
自動(dòng)調(diào)諧功能
關(guān)于作者
Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗(yàn)證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學(xué)位。計(jì)算機(jī)工程學(xué)位,專注于 GPU 的算法優(yōu)化。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106422
發(fā)布評論請先 登錄
使用NVIDIA Cosmos模型提高未來智能汽車安全性
NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
LABVIEW 激活工具怎么失效了
函數(shù)指針的六個(gè)常見應(yīng)用場景

Arm KleidiCV 0.2.0和0.3.0的新增功能

S32DS-PA v2.1激活失敗的原因?
NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析
NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對比
NVIDIA NeMo Guardrails引入三項(xiàng)全新NIM微服務(wù)
NVIDIA推出可分析視頻的AI智能體藍(lán)圖
NVIDIA DRIVE Hyperion平臺(tái)通過汽車功能安全和網(wǎng)絡(luò)安全認(rèn)證
初創(chuàng)公司借助NVIDIA Metropolis和Jetson提高生產(chǎn)線效率
NVIDIA Parabricks v4.3.1版本的新功能

評論