一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過(guò)稀疏支持和Transformer優(yōu)化增強(qiáng)AI推理以最小化延遲

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Saumitra Jagdale ? 2022-07-04 09:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由于各行業(yè)對(duì)實(shí)時(shí)人工智能應(yīng)用的需求不斷增加,人工智能模型近來(lái)變得更加復(fù)雜。這需要以最佳方式部署高性能、尖端的推理系統(tǒng)。TensorRT 的最新版本通過(guò)引入額外的功能來(lái)解決這些問(wèn)題,從而為其客戶(hù)提供更增強(qiáng)和響應(yīng)更靈敏的對(duì)話(huà)式 AI 應(yīng)用程序。

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個(gè)高性能推理平臺(tái),對(duì)于利用 NVIDIA Tensor Core GPU 的強(qiáng)大功能至關(guān)重要。TensorRT 8 是一個(gè)軟件開(kāi)發(fā)套件,其增強(qiáng)功能旨在提高性能和準(zhǔn)確性,以應(yīng)對(duì)在邊緣和嵌入式設(shè)備中發(fā)生的越來(lái)越多的 AI 推理。它允許對(duì) TensorFlow 和 PyTorch 神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計(jì)算推理。

與純 CPU 平臺(tái)相比,TensorRT 可提供高達(dá) 40 倍的吞吐量,同時(shí)最大限度地減少延遲。它允許您從任何框架開(kāi)始,并在生產(chǎn)中快速優(yōu)化、驗(yàn)證和部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對(duì)網(wǎng)絡(luò)整體計(jì)算沒(méi)有貢獻(xiàn)的弱連接。此外,TensorRT 8 支持變壓器優(yōu)化和 BERT-Large。Transformer 優(yōu)化提高了性能,而量化感知訓(xùn)練提高了準(zhǔn)確性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是從訓(xùn)練階段盡可能多地保留準(zhǔn)確性。訓(xùn)練后的模型可以在硬件設(shè)備上運(yùn)行,以獲得客戶(hù)最低的響應(yīng)時(shí)間和最大的吞吐量。但是,盡可能精確的必要性有時(shí)可能會(huì)與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準(zhǔn)確的模型可能運(yùn)行速度太慢。

因此,TensorRT 版本 8 結(jié)合了深度學(xué)習(xí)推理應(yīng)用或經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的最新進(jìn)展,以了解數(shù)據(jù)如何影響響??應(yīng)。它使用兩個(gè)主要功能將語(yǔ)言查詢(xún)推理時(shí)間減少一半:

NVIDIA 安培架構(gòu)的稀疏性

深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)各種任務(wù),例如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計(jì)算能力增加,有效的建模和計(jì)算變得越來(lái)越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構(gòu)的 GPU 的新性能方法,可通過(guò)減少計(jì)算過(guò)程來(lái)提高開(kāi)發(fā)人員的效率。深度學(xué)習(xí)模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經(jīng)網(wǎng)絡(luò)不需要對(duì)特定的權(quán)重或參數(shù)進(jìn)行計(jì)算。因此,NVIDIA 可以通過(guò)使用稀疏性將模型的權(quán)重減少近一半來(lái)提高性能、吞吐量和延遲。

通過(guò)變壓器優(yōu)化減少推理計(jì)算

在 TensorRT 8 中,性能增強(qiáng)是通過(guò)變壓器優(yōu)化實(shí)現(xiàn)的。量化開(kāi)發(fā)人員可以利用經(jīng)過(guò)訓(xùn)練的模型通過(guò) 8 位計(jì)算 (INT8) 執(zhí)行推理。這大大減少了 Tensor 核心中的推理計(jì)算和存儲(chǔ)。INT8 越來(lái)越多地用于優(yōu)化機(jī)器學(xué)習(xí)框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內(nèi)存和計(jì)算需求。因此,NVIDIA 可以在保持準(zhǔn)確性的同時(shí)在 Tensor RT 8 上提供非常高的性能。

例如,量化感知訓(xùn)練 (QAT) 有可能使準(zhǔn)確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。

ensorRT 部署在眾多行業(yè)中

TensorRT 更好的性能和準(zhǔn)確性使其成為醫(yī)療保健、汽車(chē)、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和零售等行業(yè)的熱門(mén)選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統(tǒng)供電。這家數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描儀上加速自動(dòng)心臟視圖檢測(cè)。通過(guò)使用改進(jìn)的視圖檢測(cè)算法,心臟病專(zhuān)家可以在早期階段做出更準(zhǔn)確的診斷和檢測(cè)疾病。此外,TensorRT 還被 Verizon、福特、美國(guó)郵政服務(wù)、美國(guó)運(yùn)通等知名公司使用。

隨著 Tensor RT 8 的發(fā)布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機(jī)器學(xué)習(xí)技術(shù),用于預(yù)訓(xùn)練自然語(yǔ)言處理。BERT-Large 模型的分析時(shí)間僅為 1.2 毫秒,可以實(shí)時(shí)響應(yīng)自然語(yǔ)言查詢(xún)。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準(zhǔn)確性。

許多推理服務(wù)在幕后使用諸如 BERT-Large 之類(lèi)的語(yǔ)言模型。另一方面,基于語(yǔ)言的應(yīng)用程序通常無(wú)法識(shí)別細(xì)微差別或情感,從而導(dǎo)致整體體驗(yàn)不佳?,F(xiàn)在,公司可以使用 TensorRT 8 在幾毫秒內(nèi)部署整個(gè)工作流程。這些突破可以為新一代對(duì)話(huà)式 AI 應(yīng)用程序鋪平道路,為用戶(hù)提供更智能和低延遲的體驗(yàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138073
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249585
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134635
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲(chǔ),看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲(chǔ)HBM不再是唯一熱門(mén),更多存儲(chǔ)芯片與AI推理芯片結(jié)合,擁有了市場(chǎng)機(jī)會(huì)。 ? 已經(jīng)有不少AI
    的頭像 發(fā)表于 03-03 08:51 ?1693次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過(guò)對(duì)私有網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能
    發(fā)表于 07-16 15:29

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    數(shù)據(jù)中心依賴(lài)數(shù)千甚至上萬(wàn)個(gè)GPU集群進(jìn)行高性能計(jì)算,對(duì)帶寬、延遲和數(shù)據(jù)交換效率提出極高要求。 AI云:生成式AI為核心的云平臺(tái),為多租戶(hù)環(huán)境提供
    發(fā)表于 03-25 17:35

    摩爾線(xiàn)程Round Attention優(yōu)化AI對(duì)話(huà)

    摩爾線(xiàn)程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:輪次塊稀疏性開(kāi)辟多輪對(duì)話(huà)優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention
    的頭像 發(fā)表于 03-06 09:39 ?559次閱讀
    摩爾線(xiàn)程Round Attention<b class='flag-5'>優(yōu)化</b><b class='flag-5'>AI</b>對(duì)話(huà)

    OpenVINO? Toolkit中如何保持模型稀疏性?

    OpenVINO? Toolkit 中支持優(yōu)化方法,保持模型稀疏性。
    發(fā)表于 03-06 06:47

    FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......

    ASIC、GPU)與FPGA的協(xié)同工作模式,例如通過(guò)芯片合封或系統(tǒng)集成,實(shí)現(xiàn)高性能的AI推理。 3.利用FPGA的獨(dú)特優(yōu)勢(shì)? 實(shí)時(shí)性與低延遲:在需要高實(shí)時(shí)性和低
    發(fā)表于 03-03 11:21

    VirtualLab Fusion應(yīng)用:參數(shù)優(yōu)化文檔介紹

    (相關(guān)性或優(yōu)先級(jí)) → 公共價(jià)值函數(shù)值=目標(biāo)函數(shù)值,定義為所有約束的加權(quán)和。 權(quán)重與貢獻(xiàn) **優(yōu)化方法的選擇 ** 所有提供的優(yōu)化都旨在使目標(biāo)函數(shù)值最小化。 1.選擇優(yōu)化策略(局部或
    發(fā)表于 02-28 08:44

    當(dāng)我問(wèn)DeepSeek AI爆發(fā)時(shí)代的FPGA是否重要?答案是......

    ,減少數(shù)據(jù)傳輸?shù)皆贫说男枨?,降?b class='flag-5'>延遲和帶寬消耗。FPGA在邊緣計(jì)算中表現(xiàn)優(yōu)異,能夠?yàn)榍度胧皆O(shè)備提供高效的AI推理能力。 ? 實(shí)時(shí)應(yīng)用:在自動(dòng)駕駛、工業(yè)自動(dòng)
    發(fā)表于 02-19 13:55

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    ) 擴(kuò)展上下文+結(jié)構(gòu)推理支持更長(zhǎng)復(fù)雜輸入) 響應(yīng)控制 通用流暢性?xún)?yōu)先 強(qiáng)化分步解釋與中間過(guò)程可解釋性 3. 技術(shù)架構(gòu)差異 技術(shù)點(diǎn) DeepSeek-V3 DeepSeek-R1 訓(xùn)練數(shù)據(jù) 通用語(yǔ)料+部分
    發(fā)表于 02-14 02:08

    字節(jié)豆包大模型團(tuán)隊(duì)推出UltraMem稀疏架構(gòu)

    的應(yīng)用提供了有力支持。 據(jù)介紹,UltraMem架構(gòu)針對(duì)MoE(Mixture of Experts,專(zhuān)家混合)模型推理時(shí)存在的高額訪(fǎng)存問(wèn)題進(jìn)行了優(yōu)化。傳統(tǒng)MoE模型在推理時(shí),由于需要
    的頭像 發(fā)表于 02-13 11:17 ?720次閱讀

    為什么最小化光纖電纜中的DB損耗很重要

    在現(xiàn)代通信系統(tǒng)中,光纖電纜因其高速、高帶寬和抗干擾能力強(qiáng)等優(yōu)勢(shì),已成為數(shù)據(jù)傳輸?shù)闹饕浇?。然而,光纖電纜在傳輸光信號(hào)時(shí),由于多種因素會(huì)導(dǎo)致信號(hào)的衰減,這種衰減通常用分貝(dB)來(lái)表示,即DB損耗。最小化光纖電纜中的DB損耗對(duì)于確保通信系統(tǒng)的性能至關(guān)重要,以下是詳細(xì)探討其重要性的幾個(gè)方面。
    的頭像 發(fā)表于 11-28 10:18 ?677次閱讀

    如何通過(guò)等效串聯(lián)電阻(ESR)和等效串聯(lián)電感(ESL)來(lái)優(yōu)化熱回路布局設(shè)計(jì)

    對(duì)于功率轉(zhuǎn)換器,寄生參數(shù)最小的熱回路PCB布局能夠改善能效比,降低電壓振鈴,并減少電磁干擾(EMI)。本文討論如何通過(guò)最小化PCB的等效串聯(lián)電阻(ESR)和等效串聯(lián)電感(ESL)來(lái)優(yōu)化
    的頭像 發(fā)表于 11-25 10:36 ?1828次閱讀

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專(zhuān)門(mén)做推理的ASIC,像Groq的LPU,專(zhuān)門(mén)針對(duì)大語(yǔ)言模型的推理做了
    的頭像 發(fā)表于 10-29 14:12 ?2035次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    最小化啟動(dòng)期間的輸出紋波

    電子發(fā)燒友網(wǎng)站提供《最小化啟動(dòng)期間的輸出紋波.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 11:44 ?0次下載
    <b class='flag-5'>最小化</b>啟動(dòng)期間的輸出紋波

    摩爾線(xiàn)程攜手東華軟件完成AI大模型推理測(cè)試與適配

    近日,摩爾線(xiàn)程與東華軟件云筑AI創(chuàng)新中心宣布,雙方已完成大模型推理測(cè)試與適配。依托摩爾線(xiàn)程的全功能GPU國(guó)產(chǎn)算力,東華軟件打造安全可信的基于私有大模型的“智多型(A.I.Cogniflex)”
    的頭像 發(fā)表于 07-31 10:51 ?1968次閱讀