一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用NVIDIA TSPP和Triton推理服務(wù)器加速模型推理

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-04-10 17:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在這篇文章中,我們?cè)敿?xì)介紹了最近發(fā)布的 NVIDIA 時(shí)間序列預(yù)測(cè)平臺(tái)( TSPP ),這是一個(gè)設(shè)計(jì)用于輕松比較和實(shí)驗(yàn)預(yù)測(cè)模型、時(shí)間序列數(shù)據(jù)集和其他配置的任意組合的工具。 TSPP 還提供了探索超參數(shù)搜索空間的功能,使用分布式訓(xùn)練和自動(dòng)混合精度( AMP )運(yùn)行加速模型訓(xùn)練,并在NVIDIA Triton 推理服務(wù)器上加速和運(yùn)行加速模型格式的推理。

事實(shí)證明,在理解和管理復(fù)雜系統(tǒng)(包括但不限于電網(wǎng)、供應(yīng)鏈和金融市場(chǎng))時(shí),使用以前的值準(zhǔn)確預(yù)測(cè)未來(lái)的時(shí)間序列值至關(guān)重要。在這些預(yù)測(cè)應(yīng)用中,預(yù)測(cè)精度的單位百分比提高可能會(huì)產(chǎn)生巨大的財(cái)務(wù)、生態(tài)和社會(huì)影響。除了需要精確之外,預(yù)測(cè)模型還必須能夠在實(shí)時(shí)時(shí)間尺度上運(yùn)行。

圖 1 :典型滑動(dòng)窗口時(shí)間序列預(yù)測(cè)問(wèn)題的描述。每個(gè)滑動(dòng)窗口都由時(shí)間序列數(shù)據(jù)組成,這些數(shù)據(jù)分為過(guò)去和未來(lái)兩部分。

滑動(dòng)窗口預(yù)測(cè)問(wèn)題,如圖 1 所示,涉及使用先前的數(shù)據(jù)和未來(lái)值的知識(shí)來(lái)預(yù)測(cè)未來(lái)的目標(biāo)值。傳統(tǒng)的統(tǒng)計(jì)方法,如 ARIMA 及其變體,或 Holt-Winters 回歸,長(zhǎng)期以來(lái)一直用于執(zhí)行這些任務(wù)的回歸。然而,隨著數(shù)據(jù)量的增加和回歸所要解決的問(wèn)題變得越來(lái)越復(fù)雜, 深度學(xué)習(xí)方法已經(jīng)證明它們能夠有效地表示和理解這些問(wèn)題。

盡管出現(xiàn)了深度學(xué)習(xí)預(yù)測(cè)模型,但從歷史上看,還沒(méi)有一種方法可以有效地在任意一組數(shù)據(jù)集中試驗(yàn)和比較時(shí)間序列模型的性能和準(zhǔn)確性。為此,我們很高興公開(kāi)開(kāi)源 NVIDIA 時(shí)間序列預(yù)測(cè)平臺(tái) 。

什么是 TSPP ?

時(shí)間序列預(yù)測(cè)平臺(tái)是一個(gè)端到端的框架,使用戶(hù)能夠訓(xùn)練、調(diào)整和部署時(shí)間序列模型。其分層配置系統(tǒng)和豐富的功能規(guī)范 API 允許輕松集成和試驗(yàn)新模型、數(shù)據(jù)集、優(yōu)化器和指標(biāo)。 TSPP 設(shè)計(jì)用于香草 PyTorch 型號(hào),對(duì)云或本地平臺(tái)不可知。

圖 2 :NVIDIA 時(shí)間序列預(yù)測(cè)平臺(tái)的基本架構(gòu)。 CLI 向 TSPP 啟動(dòng)器提供輸入,后者實(shí)例化訓(xùn)練所需的對(duì)象(模型、數(shù)據(jù)集等),并運(yùn)行指定的實(shí)驗(yàn)以生成性能和準(zhǔn)確性結(jié)果。

TSPP 如圖 2 所示,以命令行控制的啟動(dòng)器為中心。根據(jù)用戶(hù)對(duì) CLI 的輸入,啟動(dòng)器可以實(shí)例化 hyperparameter 管理器,該管理器可以并行運(yùn)行一組訓(xùn)練實(shí)驗(yàn),也可以通過(guò)創(chuàng)建所描述的組件(如模型、數(shù)據(jù)集、度量等)來(lái)運(yùn)行單個(gè)實(shí)驗(yàn)。

支持的模型

TSPP 默認(rèn)支持 NVIDIA 優(yōu)化時(shí)間融合變壓器 ( TFT )。在 TSPP 中, TFT 訓(xùn)練可以使用多 GPU 訓(xùn)練、自動(dòng)混合精度和指數(shù)移動(dòng)權(quán)重平均來(lái)加速??梢允褂蒙鲜鐾评砗筒渴鸸艿啦渴鹉P汀?/p>

TFT 模型是一種混合架構(gòu),將 LSTM 編碼和可解釋 transformer 注意層結(jié)合在一起。預(yù)測(cè)基于三種類(lèi)型的變量:靜態(tài)(給定時(shí)間序列的常數(shù))、已知(整個(gè)歷史和未來(lái)提前知道)、觀(guān)察(僅歷史數(shù)據(jù)已知)。所有這些變量都有兩種類(lèi)型:分類(lèi)變量和連續(xù)變量。除了歷史數(shù)據(jù),我們還向模型提供時(shí)間序列本身的歷史值。

通過(guò)學(xué)習(xí)嵌入向量,將所有變量嵌入高維空間。范疇變量嵌入是在嵌入離散值的經(jīng)典意義上學(xué)習(xí)的。該模型為每個(gè)連續(xù)變量學(xué)習(xí)一個(gè)向量,然后根據(jù)該變量的值進(jìn)行縮放,以便進(jìn)一步處理。下一步是通過(guò)變量選擇網(wǎng)絡(luò)( VSN )過(guò)濾變量,該網(wǎng)絡(luò)根據(jù)輸入與預(yù)測(cè)的相關(guān)性為輸入分配權(quán)重。靜態(tài)變量用作其他變量的變量選擇上下文,以及 LSTM 編碼器的初始狀態(tài)。

編碼后,變量被傳遞給多頭注意層(解碼器),從而產(chǎn)生最終的預(yù)測(cè)。整個(gè)體系結(jié)構(gòu)與剩余連接交織在一起,門(mén)控機(jī)制允許體系結(jié)構(gòu)適應(yīng)各種問(wèn)題。

圖 3 : TFT 架構(gòu)圖: Bryan Lim 、 Sercan O.Arik 、 Nicolas Loeff 、 Tomas Pfister ,來(lái)自可解釋多地平線(xiàn)時(shí)間序列預(yù)測(cè)的時(shí)間融合轉(zhuǎn)換器, 2019 年。

加速訓(xùn)練

在使用深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)時(shí),訓(xùn)練加速可以極大地增加在給定時(shí)間內(nèi)可以進(jìn)行的實(shí)驗(yàn)迭代次數(shù)。時(shí)間序列預(yù)測(cè)平臺(tái)提供了通過(guò)自動(dòng)混合精度、多 GPU 訓(xùn)練和指數(shù)移動(dòng)權(quán)重平均的任意組合來(lái)加速訓(xùn)練的能力。

訓(xùn)練快速開(kāi)始

一旦進(jìn)入 TSPP 容器,運(yùn)行 TSPP 就很簡(jiǎn)單,只需結(jié)合數(shù)據(jù)集、模型和其他您想要使用的組件調(diào)用啟動(dòng)器。例如,要使用電力數(shù)據(jù)集訓(xùn)練 TFT ,我們只需調(diào)用:

Python launch_tspp.py dataset=electricity model=tft criterion=quantile

生成的日志、檢查點(diǎn)和初始配置將保存到輸出中。有關(guān)包含更復(fù)雜工作流的示例,請(qǐng)參考 repository 文檔。

自動(dòng)混合精度

自動(dòng)混合精度( AMP )是深度學(xué)習(xí)培訓(xùn)的一種執(zhí)行模式,適用的計(jì)算以 16 位精度而不是 32 位精度計(jì)算。 AMP 執(zhí)行可以極大地加快深度學(xué)習(xí)訓(xùn)練,而不會(huì)降低準(zhǔn)確性。 AMP 包含在 TSPP 中,只需在啟動(dòng)呼叫中添加一個(gè)標(biāo)志即可啟用。

多 GPU 訓(xùn)練

多 GPU 數(shù)據(jù)并行訓(xùn)練通過(guò)在所有可用 GPU 上并行運(yùn)行模型計(jì)算來(lái)增加全局批量大小,從而加速模型訓(xùn)練。這種方法可以在不損失模型精度的情況下大大縮短模型訓(xùn)練時(shí)間,尤其是在使用了許多 GPU 的情況下。它通過(guò) PyTorch DistributedDataParallel 包含在 TSPP 中,只需在啟動(dòng)調(diào)用中添加一個(gè)元素即可啟用。

指數(shù)移動(dòng)加權(quán)平均

指數(shù)移動(dòng)加權(quán)平均是一種技術(shù),它維護(hù)一個(gè)模型的兩個(gè)副本,一個(gè)通過(guò)反向傳播進(jìn)行訓(xùn)練,另一個(gè)模型是第一個(gè)模型權(quán)重的加權(quán)平均。在測(cè)試和推理時(shí),平均權(quán)重用于計(jì)算輸出。實(shí)踐證明,這種方法可以縮短收斂時(shí)間,提高收斂精度,但代價(jià)是模型 GPU 內(nèi)存需求翻倍。 EMWA 包含在 TSPP 中,只需在啟動(dòng)調(diào)用中添加一個(gè)標(biāo)志即可啟用。

沒(méi)有超參數(shù)

模型超參數(shù)調(diào)整是深度學(xué)習(xí)模型的模型開(kāi)發(fā)和實(shí)驗(yàn)過(guò)程中必不可少的一部分。為此, TSPP 包含與 Optuna 超參數(shù)搜索庫(kù)的豐富集成。用戶(hù)可以通過(guò)指定要搜索的超參數(shù)名稱(chēng)和分布來(lái)運(yùn)行廣泛的超參數(shù)搜索。一旦完成, TSPP 可以并行運(yùn)行多 GPU 或單 GPU 試驗(yàn),直到探索出所需數(shù)量的超參數(shù)選項(xiàng)。

搜索完成時(shí), TSPP 將返回最佳單次運(yùn)行的超參數(shù),以及所有運(yùn)行的日志文件。為了便于比較,日志文件是用NVIDIA DLLOGER 生成的,并且易于搜索,并且與張量板繪圖兼容。

可配置性

TSPP 中的可配置性由 Facebook 提供的開(kāi)源庫(kù) Hydra 驅(qū)動(dòng)。 Hydra 允許用戶(hù)使用運(yùn)行時(shí)組合的 YAML 文件定義分層配置系統(tǒng),使啟動(dòng)運(yùn)行簡(jiǎn)單到聲明“我想用這個(gè)數(shù)據(jù)集嘗試這個(gè)模型”。

特性規(guī)范

特征規(guī)范包含在配置的數(shù)據(jù)集部分,是時(shí)間序列數(shù)據(jù)集的標(biāo)準(zhǔn)描述語(yǔ)言。它對(duì)每個(gè)表格特征的屬性進(jìn)行編碼,其中包含關(guān)于未來(lái)是已知的、觀(guān)察到的還是靜態(tài)的、特征是分類(lèi)的還是連續(xù)的以及更多可選屬性的信息。這種描述語(yǔ)言為模型提供了一個(gè)框架,可以根據(jù)任意描述的輸入自動(dòng)配置自己。

組件集成

向 TSPP 添加一個(gè)新的數(shù)據(jù)集非常簡(jiǎn)單,只需為其創(chuàng)建一個(gè)功能規(guī)范并描述數(shù)據(jù)集本身。一旦定義了特征規(guī)范和其他一些關(guān)鍵值,與 TSPP 集成的模型將能夠根據(jù)新的數(shù)據(jù)集進(jìn)行配置。

將新模型添加到 TSPP 只需要模型期望特性規(guī)范提供的數(shù)據(jù)位于正確的通道中。如果模型正確地解釋了功能規(guī)范,那么模型應(yīng)該與集成到 TSPP 、過(guò)去和未來(lái)的所有數(shù)據(jù)集一起工作。

除了模型和數(shù)據(jù)集, TSPP 還支持任意組件的集成,例如標(biāo)準(zhǔn)、優(yōu)化器和目標(biāo)度量。通過(guò)使用 Hydra 使用 config 直接實(shí)例化對(duì)象,用戶(hù)可以集成他們自己的定制組件,并在 TSPP 發(fā)布時(shí)使用該規(guī)范。

推理和部署

推理是任何 Machine Learning 管道的關(guān)鍵組成部分。為此, TSPP 內(nèi)置了推理支持,可與平臺(tái)無(wú)縫集成。除了支持本機(jī)推理, TSPP 還支持將轉(zhuǎn)換后的模型單步部署到 NVIDIA Triton 推理服務(wù)器。

NVIDIA Triton 型號(hào)導(dǎo)航器

TSPP 為 NVIDIA Triton 型號(hào)導(dǎo)航器 。兼容的模型可以輕松轉(zhuǎn)換為優(yōu)化的格式,包括 TorchScript 、 ONNX 和 NVIDIA TensorRT 。在同一步驟中,這些轉(zhuǎn)換后的模型將部署到 NVIDIA Triton 推理服務(wù)器 。甚至可以選擇在單個(gè)步驟中對(duì)給定模型進(jìn)行剖面分析和生成舵圖。例如,給定一個(gè) TFT 輸出文件夾,我們可以通過(guò)使用以下命令導(dǎo)出到 ONNX ,將模型轉(zhuǎn)換并部署為 fp16 中的 NVIDIA TensorRT 格式:

Python launch_deployment.py export=onnx convert=trt config.inference.precision=fp16 config.evaluator.checkpoint=/path/to/output/folder/

TFT 模型

我們?cè)趦蓚€(gè)數(shù)據(jù)集上對(duì) TSPP 內(nèi)的 TFT 進(jìn)行了基準(zhǔn)測(cè)試: UCI 數(shù)據(jù)集存儲(chǔ)庫(kù)中的電力負(fù)荷(電力)數(shù)據(jù)集和 PEMs 流量數(shù)據(jù)集(流量)。 TFT 在兩個(gè)數(shù)據(jù)集上都取得了很好的結(jié)果,在兩個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了最低的可見(jiàn)誤差,并證實(shí)了 TFT 論文作者的評(píng)估。

表 1 :

訓(xùn)練表現(xiàn)

圖 4 和圖 5 分別顯示了電力和交通數(shù)據(jù)集上 TFT 的每秒吞吐量。每個(gè)批次大小為 1024 ,包含來(lái)自同一數(shù)據(jù)集中不同時(shí)間序列的各種時(shí)間窗口。使用自動(dòng)混合精度計(jì)算了 100 次運(yùn)行。顯然, TFT 在 A100 GPU 上具有優(yōu)異的性能和可擴(kuò)展性,尤其是與在 96 核 CPU 上執(zhí)行相比。

圖 4:GPU 上電力數(shù)據(jù)集的 TFT 訓(xùn)練吞吐量與 CPU 的對(duì)比。 GPU : 8x Tesla A100 80 GB 。 CPU:Intel ( R ) Xeon ( R ) Platinum 8168 CPU @ 2.70GHz ( 96 線(xiàn)程)。

圖 5 。 GPU 上流量數(shù)據(jù)集的 TFT 訓(xùn)練吞吐量與 CPU 。 GPU : 8x Tesla A100 80 GB 。 CPU:Intel ( R ) Xeon ( R ) Platinum 8168 CPU @ 2.70GHz ( 96 線(xiàn)程)。

訓(xùn)練時(shí)間

圖 6 和圖 7 分別顯示了 TFT 在電力和交通數(shù)據(jù)集上的端到端訓(xùn)練時(shí)間。每個(gè)批次大小為 1024 ,包含來(lái)自同一數(shù)據(jù)集中不同時(shí)間序列的各種時(shí)間窗口。使用自動(dòng)混合精度計(jì)算 100 次完成的運(yùn)行。在這些實(shí)驗(yàn)中,在 GPU 上, TFT 的訓(xùn)練時(shí)間為分鐘,而 CPU 的訓(xùn)練時(shí)間約為半天。

圖 6:TFT 在 GPU 上的電力數(shù)據(jù)集上的端到端訓(xùn)練時(shí)間與 CPU 的比較。 GPU : 8x Tesla A100 80 GB 。 CPU:Intel ( R ) Xeon ( R ) Platinum 8168 CPU @ 2.70GHz ( 96 線(xiàn)程)。

圖 7:TFT 在 GPU 上的流量數(shù)據(jù)集上的端到端訓(xùn)練時(shí)間與 CPU 的比較。 GPU : 8x Tesla A100 80 GB 。 CPU:Intel ( R ) Xeon ( R ) Platinum 8168 CPU @ 2.70GHz ( 96 線(xiàn)程)。

推理性能

圖 8 和圖 9 展示了電力數(shù)據(jù)集上不同批量大小的 A100 80GB GPU 與 96 核 CPU 的相對(duì)單設(shè)備推理吞吐量和平均延遲。由于較大的批量大小通常產(chǎn)生更大的推斷吞吐量,所以我們考慮 1024 元素批處理結(jié)果,其中顯而易見(jiàn)的是, A100 GPU 具有令人難以置信的性能,每秒處理大約 50000 個(gè)樣本。此外,更大的批量往往會(huì)導(dǎo)致更高的延遲,從 CPU 值可以明顯看出,這似乎與批量成正比。相比之下,與 CPU 相比, A100 GPU 具有接近恒定的平均延遲。

圖 8:TFT 在 GPU vs CPU 上部署到 NVIDIA Triton 推理服務(wù)器容器 21.12 時(shí)的電量數(shù)據(jù)集吞吐量。 GPU :使用 TensorRT 8.2 部署 1x Tesla A100 80 GB 。 CPU :使用 ONNX 部署的雙 AMD Rome 7742 ,總計(jì) 128 核@ 2.25 GHz (基本), 3.4 GHz (最大提升)( 256 個(gè)線(xiàn)程)。

圖 9:TFT 在 GPU vs CPU 上部署到 NVIDIA Triton 推理服務(wù)器容器 21.12 時(shí),電力數(shù)據(jù)集的平均延遲。 GPU :使用 TensorRT 8.2 部署 1x Tesla A100 80 GB 。 CPU :使用 ONNX 部署的雙 AMD Rome 7742 ,總計(jì) 128 核@ 2.25 GHz (基本), 3.4 GHz (最大提升)( 256 個(gè)線(xiàn)程)。

端到端示例

結(jié)合前面的例子,我們演示了 TFT 模型在電力數(shù)據(jù)集上的簡(jiǎn)單訓(xùn)練和部署。我們首先從源代碼構(gòu)建并啟動(dòng) TSPP 容器:

cd DeeplearningExamples/Tools/PyTorch/TimeSeriesPredictionPlatform source scripts/setup.sh docker build -t tspp . docker run -it --gpus all --ipc=host --network=host -v /your/datasets/:/workspace/datasets/ tspp bash

接下來(lái),我們使用電力數(shù)據(jù)集 TFT 和分位數(shù)損耗啟動(dòng) TSPP 。我們還讓 10 年的歷次訓(xùn)練負(fù)擔(dān)過(guò)重。一旦對(duì)模型進(jìn)行了培訓(xùn),就會(huì)在 outputs /{ date }/{ time }中創(chuàng)建日志、配置文件和經(jīng)過(guò)培訓(xùn)的檢查點(diǎn),在本例中為 outputs / 01-02-2022 /:

Python launch_tspp.py dataset=electricity model=tft criterion=quantile config.trainer.num_epochs=10

使用檢查點(diǎn)目錄,可以將模型轉(zhuǎn)換為 NVIDIA TensorRT 格式,并部署到 NVIDIA Triton 推理服務(wù)器。

Python launch_deployment.py export=onnx convert=trt config.evaluator.checkpoint=/path/to/checkpoint/folder/

可利用性

NVIDIA 時(shí)間序列預(yù)測(cè)平臺(tái)提供從訓(xùn)練到時(shí)間序列模型的推斷的端到端 GPU 加速。平臺(tái)中包含的參考示例經(jīng)過(guò)優(yōu)化和認(rèn)證,可在 NVIDIA DGX A100 和 NVIDIA 認(rèn)證系統(tǒng)上運(yùn)行。

關(guān)于作者

Kyle Kranen 是NVIDIA 的深度學(xué)習(xí)軟件工程師。他在加利福尼亞大學(xué)伯克利分校獲得電氣工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。在NVIDIA ,他的研究目前集中在推薦系統(tǒng)和時(shí)間序列建模上。

Pawel Morkisz 是一位深度學(xué)習(xí)算法經(jīng)理。他擁有計(jì)算數(shù)學(xué)博士學(xué)位。在NVIDIA ,他專(zhuān)注于推動(dòng)時(shí)間序列和推薦系統(tǒng)的深度學(xué)習(xí)算法。

Carl (Izzy) Putterman 最近加入 NVIDIA ,擔(dān)任深度學(xué)習(xí)算法工程師。他畢業(yè)于加利福尼亞大學(xué),伯克利在應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。在 NVIDIA ,他目前致力于時(shí)間序列建模和圖形神經(jīng)網(wǎng)絡(luò),重點(diǎn)是推理。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106351
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122789
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    GPU、FPGA等硬件加速。通過(guò)分析硬件加速器的性能參數(shù),可以估算模型在硬件加速下的計(jì)算量。 四、實(shí)驗(yàn)與分析 為了驗(yàn)證上述估計(jì)方法的有效性,我們選取了幾個(gè)具有代表性的深度學(xué)習(xí)
    發(fā)表于 07-03 19:43

    基于RAKsmart云服務(wù)器的AI大模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對(duì)高并發(fā)請(qǐng)求、嚴(yán)格的響應(yīng)延遲要求及波動(dòng)的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實(shí)時(shí)推理
    的頭像 發(fā)表于 05-13 10:33 ?230次閱讀

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購(gòu)技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)
    的頭像 發(fā)表于 04-09 11:06 ?1030次閱讀
    AI <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購(gòu)技巧

    國(guó)產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對(duì)推理算力的迫切需求,而進(jìn)口服務(wù)器的高成本與技術(shù)依賴(lài)性,推動(dòng)了國(guó)產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測(cè),到2025年,中國(guó)AI
    的頭像 發(fā)表于 03-24 17:11 ?475次閱讀
    國(guó)產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)
    的頭像 發(fā)表于 03-20 15:03 ?643次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)
    發(fā)表于 03-19 15:24 ?356次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    浪潮信息發(fā)布元腦R1推理服務(wù)器

    近日,浪潮信息正式推出了其創(chuàng)新的元腦R1推理服務(wù)器。這款服務(wù)器通過(guò)系統(tǒng)的創(chuàng)新與軟硬件的協(xié)同優(yōu)化,實(shí)現(xiàn)了對(duì)DeepSeek R1 671B模型的單機(jī)部署與運(yùn)行,為客戶(hù)在智能應(yīng)用部署方面帶
    的頭像 發(fā)表于 02-17 10:32 ?701次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?712次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    Triton編譯在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯概述 Triton編譯NVIDIA Triton
    的頭像 發(fā)表于 12-24 18:13 ?986次閱讀

    使用vLLM+OpenVINO加速大語(yǔ)言模型推理

    隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1419次閱讀
    使用vLLM+OpenVINO<b class='flag-5'>加速</b>大語(yǔ)言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在A(yíng)I的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專(zhuān)門(mén)做推理的ASIC,像Groq的LPU,專(zhuān)門(mén)針對(duì)大語(yǔ)言模型
    的頭像 發(fā)表于 10-29 14:12 ?2015次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用

    AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

    提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換
    的頭像 發(fā)表于 09-18 09:37 ?876次閱讀
    AMD助力HyperAccel開(kāi)發(fā)全新AI<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開(kāi)源生態(tài)的優(yōu)勢(shì),為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton
    的頭像 發(fā)表于 09-09 09:19 ?932次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)NVIDIA NIM推理服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)NVIDIA NIM 推理服務(wù)
    的頭像 發(fā)表于 07-25 09:48 ?1060次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大
    的頭像 發(fā)表于 07-24 11:38 ?1804次閱讀