中日韩免费手机视频观看在线,日韩无码爽快的特级黄色电影

由于各行業(yè)對(duì)實(shí)時(shí)人工智能應(yīng)用的需求不斷增加，人工智能模型近來(lái)變得更加復(fù)雜。這需要以最佳方式部署高性能、尖端的推理系統(tǒng)。TensorRT 的最新版本通過(guò)引入額外的功能來(lái)解決這些問(wèn)題，從而為其客戶(hù)提供更增強(qiáng)和響應(yīng)更靈敏的對(duì)話(huà)式 AI 應(yīng)用程序。

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個(gè)高性能推理平臺(tái)，對(duì)于利用 NVIDIA Tensor Core GPU 的強(qiáng)大功能至關(guān)重要。TensorRT 8 是一個(gè)軟件開(kāi)發(fā)套件，其增強(qiáng)功能旨在提高性能和準(zhǔn)確性，以應(yīng)對(duì)在邊緣和嵌入式設(shè)備中發(fā)生的越來(lái)越多的 AI 推理。它允許對(duì) TensorFlow 和 PyTorch 神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計(jì)算推理。

與純 CPU 平臺(tái)相比，TensorRT 可提供高達(dá) 40 倍的吞吐量，同時(shí)最大限度地減少延遲。它允許您從任何框架開(kāi)始，并在生產(chǎn)中快速優(yōu)化、驗(yàn)證和部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性，可以修剪對(duì)網(wǎng)絡(luò)整體計(jì)算沒(méi)有貢獻(xiàn)的弱連接。此外，TensorRT 8 支持變壓器優(yōu)化和 BERT-Large。Transformer 優(yōu)化提高了性能，而量化感知訓(xùn)練提高了準(zhǔn)確性。

NVIDIA 的 TensorRT 8 有哪些新功能？

推理的目的是從訓(xùn)練階段盡可能多地保留準(zhǔn)確性。訓(xùn)練后的模型可以在硬件設(shè)備上運(yùn)行，以獲得客戶(hù)最低的響應(yīng)時(shí)間和最大的吞吐量。但是，盡可能精確的必要性有時(shí)可能會(huì)與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準(zhǔn)確的模型可能運(yùn)行速度太慢。

因此，TensorRT 版本 8 結(jié)合了深度學(xué)習(xí)推理應(yīng)用或經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的最新進(jìn)展，以了解數(shù)據(jù)如何影響響??應(yīng)。它使用兩個(gè)主要功能將語(yǔ)言查詢(xún)推理時(shí)間減少一半：

NVIDIA 安培架構(gòu)的稀疏性

深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)各種任務(wù)，例如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計(jì)算能力增加，有效的建模和計(jì)算變得越來(lái)越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構(gòu)的 GPU 的新性能方法，可通過(guò)減少計(jì)算過(guò)程來(lái)提高開(kāi)發(fā)人員的效率。深度學(xué)習(xí)模型的其他方面不如其他方面重要，有些甚至可以為零。因此，神經(jīng)網(wǎng)絡(luò)不需要對(duì)特定的權(quán)重或參數(shù)進(jìn)行計(jì)算。因此，NVIDIA 可以通過(guò)使用稀疏性將模型的權(quán)重減少近一半來(lái)提高性能、吞吐量和延遲。

通過(guò)變壓器優(yōu)化減少推理計(jì)算

在 TensorRT 8 中，性能增強(qiáng)是通過(guò)變壓器優(yōu)化實(shí)現(xiàn)的。量化開(kāi)發(fā)人員可以利用經(jīng)過(guò)訓(xùn)練的模型通過(guò) 8 位計(jì)算（INT8）執(zhí)行推理。這大大減少了 Tensor 核心中的推理計(jì)算和存儲(chǔ)。INT8 越來(lái)越多地用于優(yōu)化機(jī)器學(xué)習(xí)框架，例如 TensorFlow 和 NVIDIA 的 TensorRT，以減少內(nèi)存和計(jì)算需求。因此，NVIDIA 可以在保持準(zhǔn)確性的同時(shí)在 Tensor RT 8 上提供非常高的性能。

例如，量化感知訓(xùn)練（QAT）有可能使準(zhǔn)確率翻倍。因此，與舊版本 TensorRT 7 相比，TensorRT 8 可以將許多模型的性能提高一倍。

ensorRT 部署在眾多行業(yè)中

TensorRT 更好的性能和準(zhǔn)確性使其成為醫(yī)療保健、汽車(chē)、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和零售等行業(yè)的熱門(mén)選擇。例如，Tensor RT 用于為 GE Healthcare 的心血管超聲系統(tǒng)供電。這家數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描儀上加速自動(dòng)心臟視圖檢測(cè)。通過(guò)使用改進(jìn)的視圖檢測(cè)算法，心臟病專(zhuān)家可以在早期階段做出更準(zhǔn)確的診斷和檢測(cè)疾病。此外，TensorRT 還被 Verizon、福特、美國(guó)郵政服務(wù)、美國(guó)運(yùn)通等知名公司使用。

隨著 Tensor RT 8 的發(fā)布，NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示（BERT）是一種基于 Transformer 的機(jī)器學(xué)習(xí)技術(shù)，用于預(yù)訓(xùn)練自然語(yǔ)言處理。BERT-Large 模型的分析時(shí)間僅為 1.2 毫秒，可以實(shí)時(shí)響應(yīng)自然語(yǔ)言查詢(xún)。這意味著公司可以將其模型的大小增加一倍或三倍，以獲得更高的準(zhǔn)確性。

許多推理服務(wù)在幕后使用諸如 BERT-Large 之類(lèi)的語(yǔ)言模型。另一方面，基于語(yǔ)言的應(yīng)用程序通常無(wú)法識(shí)別細(xì)微差別或情感，從而導(dǎo)致整體體驗(yàn)不佳?，F(xiàn)在，公司可以使用 TensorRT 8 在幾毫秒內(nèi)部署整個(gè)工作流程。這些突破可以為新一代對(duì)話(huà)式 AI 應(yīng)用程序鋪平道路，為用戶(hù)提供更智能和低延遲的體驗(yàn)。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3808

瀏覽量
138073
人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249585
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134635

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

通過(guò)稀疏支持和Transformer優(yōu)化增強(qiáng)AI推理以最小化延遲

評(píng)論