NVIDIA cuSPARSELt v0.2.0提高激活函數(shù)

英偉達(dá)推出 cuSPARSELt，版本0 .2.0 ，它提高了激活函數(shù)、偏差向量和批處理稀疏 GEMM 的性能。

NVIDIA CUSPASSELT 是一個(gè)高性能 CUDA 庫，專用于一般矩陣運(yùn)算，其中至少有一個(gè)操作數(shù)是稀疏矩陣：

$D=\alpha op(A)*op(B)+\beta op(C)$

在這個(gè)等式中， OP（A）和 OP（B）指的是原位操作，例如轉(zhuǎn)置和非轉(zhuǎn)置。

cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性（包括內(nèi)存布局、對齊和數(shù)據(jù)類型）方面提供了靈活性。

主要特征

NVIDIA Sparse MMA 張量核支持

混合精度計(jì)算支持：

FP16 I / O 、 FP32 張量核累加。

BFLOAT16 I / O ， FP32 張量核累積。

INT8 I / O ， INT32 張量核計(jì)算。

FP32 I / O ， TF32 張量核心計(jì)算。

TF32 I / O ， TF32 張量核心計(jì)算。

矩陣修剪和壓縮功能

自動(dòng)調(diào)諧功能

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ，之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里，他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ，他曾在聯(lián)邦部門工作，協(xié)助 CUDA 的開發(fā)和優(yōu)化，以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗(yàn)證，最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年，他獲得了博士學(xué)位。計(jì)算機(jī)工程學(xué)位，專注于 GPU 的算法優(yōu)化。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5309

瀏覽量
106422

星星科技指導(dǎo)員
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 使用microchip參考設(shè)計(jì)開發(fā)您的下一個(gè)基于USB-C PD的充電器
Hot 所有IC中半導(dǎo)體噪聲的特性如何估算基準(zhǔn)電壓源的噪聲

New 微電網(wǎng)系統(tǒng)控制方法和原理
New 飛輪儲(chǔ)能系統(tǒng)的核心及優(yōu)勢分析

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實(shí)

腦極體
22小時(shí)前

489 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
10小時(shí)前

378 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
10小時(shí)前

378 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
11小時(shí)前

329 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點(diǎn)

駿龍電子
11小時(shí)前

392 閱讀

流體系結(jié)構(gòu)技術(shù)發(fā)展探討

nana
1.22 MB

免費(fèi)

51下載

安防監(jiān)控顯示終端選型指南

yezi888
5.53 MB

免費(fèi)

137下載

Snyk漏洞查找修復(fù)

陳博
60.93 MB

2積分

1下載

G-Cloud IaaS及PaaS系統(tǒng)

fanB
1.71 MB

免費(fèi)

0下載

4通道IO-Link 主評估板CCE4510-EVAL-V3數(shù)據(jù)手冊

2.20 MB

免費(fèi)

0下載

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語言模型部署

左岸cpx
20小時(shí)前

57 閱讀

【M-K1HSE開發(fā)板免費(fèi)體驗(yàn)】DevEco Studio應(yīng)用開發(fā)體驗(yàn)(物理機(jī)器運(yùn)行失敗)

jf_1137202360
20小時(shí)前

41 閱讀

【RA-Eco-RA6M4開發(fā)板評測】開箱、Hello World（串口+OLED）

jf_57061047
20小時(shí)前

65 閱讀

省錢+環(huán)保+個(gè)性：打造一臺(tái)永不“過時(shí)”的自定義電腦！

早知
1天前

458 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測及顯示

jinglixixi
1天前

642 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVIDIA cuSPARSELt v0.2.0提高激活函數(shù)

評論