一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Triton推理服務(wù)器簡化邊緣AI模型部署

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-18 15:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能機(jī)器學(xué)習(xí)( ML )和深度學(xué)習(xí)( DL )正在成為解決機(jī)器人、零售、醫(yī)療保健、工業(yè)等領(lǐng)域各種計(jì)算問題的有效工具。對(duì)低延遲、實(shí)時(shí)響應(yīng)和隱私的需求使運(yùn)行 AI 應(yīng)用程序處于邊緣。

然而,在邊緣的應(yīng)用程序和服務(wù)中部署 AI 模型對(duì)基礎(chǔ)設(shè)施和運(yùn)營團(tuán)隊(duì)來說可能是一項(xiàng)挑戰(zhàn)。不同的框架、端到端延遲要求以及缺乏標(biāo)準(zhǔn)化實(shí)施等因素可能會(huì)使 AI 部署具有挑戰(zhàn)性。在這篇文章中,我們將探討如何應(yīng)對(duì)這些挑戰(zhàn),并在邊緣生產(chǎn)中部署 AI 模型。

以下是部署推理模型的最常見挑戰(zhàn):

多模型框架:數(shù)據(jù)科學(xué)家和研究人員使用不同的人工智能和深度學(xué)習(xí)框架,如 TensorFlow 、 PyTorch 、 TensorRT 、 ONNX 運(yùn)行時(shí)或純 Python 來構(gòu)建模型。這些框架中的每一個(gè)都需要一個(gè)執(zhí)行后端來在生產(chǎn)環(huán)境中運(yùn)行模型。同時(shí)管理多個(gè)框架后端可能成本高昂,并導(dǎo)致可伸縮性和維護(hù)問題。

不同的推理查詢類型:邊緣推理服務(wù)需要處理多個(gè)同時(shí)查詢、不同類型的查詢,如實(shí)時(shí)在線預(yù)測(cè)、流式數(shù)據(jù)和多個(gè)模型的復(fù)雜管道。每一項(xiàng)都需要特殊的推理處理。

不斷發(fā)展的模型:在這個(gè)不斷變化的世界中,人工智能模型不斷地根據(jù)新數(shù)據(jù)和新算法進(jìn)行重新訓(xùn)練和更新。生產(chǎn)中的型號(hào)必須在不重新啟動(dòng)設(shè)備的情況下持續(xù)更新。典型的 AI 應(yīng)用程序使用許多不同的模型。它使問題的規(guī)模進(jìn)一步擴(kuò)大,以更新現(xiàn)場(chǎng)的模型。

NVIDIA Triton 推理服務(wù)器是一款開源推理服務(wù)軟件,通過解決這些復(fù)雜性簡化了推理服務(wù)。 NVIDIA Triton 提供了一個(gè)單一的標(biāo)準(zhǔn)化推理平臺(tái),可支持在多框架模型和不同部署環(huán)境(如數(shù)據(jù)中心、云、嵌入式設(shè)備、,以及虛擬化環(huán)境。它通過高級(jí)批處理和調(diào)度算法支持不同類型的推理查詢,并支持實(shí)時(shí)模型更新。 NVIDIA Triton 還旨在通過并發(fā)模型執(zhí)行和動(dòng)態(tài)批處理最大限度地提高硬件利用率,從而提高推理性能。

我們用 2021 年 8 月發(fā)布的 Jetson JetPack 4.6 將 Triton 推理服務(wù)器引入 Jetson 。有了 NVIDIA Triton , AI 部署現(xiàn)在可以跨云、數(shù)據(jù)中心和邊緣標(biāo)準(zhǔn)化。

主要特征

以下是 NVIDIA Triton 的一些關(guān)鍵功能,它們可以幫助您簡化 Jetson 中的模型部署。

poYBAGJdFdOADh1nAAF6tgk9r08814.png

圖 1 Jetson Jetson 上的 Triton 推理服務(wù)器架構(gòu)

嵌入式應(yīng)用集成

客戶機(jī)應(yīng)用程序和 Triton 推理服務(wù)器之間的通信支持直接 C-API 集成,但也支持 gRPC 和 HTTP / REST 。在 Jetson 上,當(dāng)客戶端應(yīng)用程序和推理服務(wù)都在同一設(shè)備上運(yùn)行時(shí),客戶端應(yīng)用程序可以直接調(diào)用 Triton 推理服務(wù)器 API ,而通信開銷為零。 NVIDIA Triton 是一個(gè)帶有 C API 的共享庫,可使完整功能直接包含在應(yīng)用程序中。這最適合基于 Jetson 的嵌入式應(yīng)用程序。

多框架支持

NVIDIA Triton 在本機(jī)集成了流行的框架后端,如 TensorFlow 1 。 x / 2 。 x 、 ONNX 運(yùn)行時(shí) TensorRT ,甚至自定義后端。這允許開發(fā)人員直接在 Jetson 上運(yùn)行他們的模型,而無需經(jīng)過轉(zhuǎn)換過程。 NVIDIA Triton 還支持添加自定義后端的靈活性。開發(fā)人員有自己的選擇,基礎(chǔ)設(shè)施團(tuán)隊(duì)使用單個(gè)推理引擎優(yōu)化部署。

DLA 支持

Jetson 上的 Triton 推理服務(wù)器可以在 GPU 和 DLA 上運(yùn)行模型。 DLA 是 Jetson Xavier NX 和 Jetson AGX Xavier 上提供的深度學(xué)習(xí)加速器。

并發(fā)模型執(zhí)行

Triton 推理服務(wù)器通過在 Jetson 上同時(shí)運(yùn)行多個(gè)模型,最大限度地提高性能并減少端到端延遲。這些模型可以是所有相同的模型,也可以是來自不同框架的不同模型。 GPU 內(nèi)存大小是對(duì)可同時(shí)運(yùn)行的型號(hào)數(shù)量的唯一限制。

動(dòng)態(tài)配料

批處理是一種提高推理吞吐量的技術(shù)。批處理推理請(qǐng)求有兩種方法:客戶端批處理和服務(wù)器批處理。 NVIDIA Triton 通過將單個(gè)推理請(qǐng)求組合在一起來實(shí)現(xiàn)服務(wù)器批處理,以提高推理吞吐量。它是動(dòng)態(tài)的,因?yàn)樗鼧?gòu)建一個(gè)批處理,直到達(dá)到一個(gè)可配置的延遲閾值。當(dāng)達(dá)到閾值時(shí), NVIDIA Triton 安排當(dāng)前批執(zhí)行。調(diào)度和批處理決策對(duì)請(qǐng)求推斷的客戶機(jī)是透明的,并且根據(jù)模型進(jìn)行配置。通過動(dòng)態(tài)批處理, NVIDIA Triton 在滿足嚴(yán)格延遲要求的同時(shí)最大限度地提高吞吐量。

動(dòng)態(tài)批處理的一個(gè)例子是,應(yīng)用程序同時(shí)運(yùn)行檢測(cè)和分類模型,其中分類模型的輸入是從檢測(cè)模型檢測(cè)到的對(duì)象。在這種情況下,由于可以對(duì)任意數(shù)量的檢測(cè)進(jìn)行分類,因此動(dòng)態(tài)批處理可以確??梢詣?dòng)態(tài)創(chuàng)建檢測(cè)對(duì)象的批,并且可以將分類作為批處理請(qǐng)求運(yùn)行,從而減少總體延遲并提高應(yīng)用程序的性能。

模型組合

模型集成功能用于創(chuàng)建不同模型和預(yù)處理或后處理操作的管道,以處理各種工作負(fù)載。 NVIDIA Triton 集成允許用戶將多個(gè)模型和預(yù)處理或后處理操作縫合到一個(gè)具有連接輸入和輸出的管道中。 NVIDIA Triton 只需從客戶端應(yīng)用程序向集成發(fā)出一個(gè)推斷請(qǐng)求,即可輕松管理整個(gè)管道的執(zhí)行。例如,嘗試對(duì)車輛進(jìn)行分類的應(yīng)用程序可以使用 NVIDIA Triton 模型集成來運(yùn)行車輛檢測(cè)模型,然后在檢測(cè)到的車輛上運(yùn)行車輛分類模型。

定制后端

除了流行的 AI 后端, NVIDIA Triton 還支持執(zhí)行定制的 C ++后端。這些工具對(duì)于創(chuàng)建特殊的邏輯非常有用,比如預(yù)處理和后處理,甚至是常規(guī)模型。

動(dòng)態(tài)模型加載

NVIDIA Triton 有一個(gè)模型控制 API ,可用于動(dòng)態(tài)加載和卸載模型。這使設(shè)備能夠在應(yīng)用程序需要時(shí)使用這些型號(hào)。此外,當(dāng)模型使用新數(shù)據(jù)重新訓(xùn)練時(shí),它可以無縫地重新部署在 NVIDIA Triton 上,而不會(huì)重新啟動(dòng)任何應(yīng)用程序或中斷服務(wù),從而允許實(shí)時(shí)模型更新。

結(jié)論

Triton 推理服務(wù)器作為 Jetson 的共享庫發(fā)布。 NVIDIA Triton 每月發(fā)布一次,增加了新功能并支持最新的框架后端。有關(guān)更多信息,請(qǐng)參閱 Triton 推理服務(wù)器對(duì) Jetson 和 JetPack 的支持。

NVIDIA Triton 有助于在每個(gè)數(shù)據(jù)中心、云和嵌入式設(shè)備中實(shí)現(xiàn)標(biāo)準(zhǔn)化的可擴(kuò)展生產(chǎn) AI 。它支持多個(gè)框架,在 GPU 和 DLA 等多個(gè)計(jì)算引擎上運(yùn)行模型,處理不同類型的推理查詢。通過與 NVIDIA JetPack 的集成, NVIDIA Triton 可用于嵌入式應(yīng)用。

關(guān)于作者

Shankar Chandrasekaran 是 NVIDIA 數(shù)據(jù)中心 GPU 團(tuán)隊(duì)的高級(jí)產(chǎn)品營銷經(jīng)理。他負(fù)責(zé) GPU 軟件基礎(chǔ)架構(gòu)營銷,以幫助 IT 和 DevOps 輕松采用 GPU 并將其無縫集成到其基礎(chǔ)架構(gòu)中。在 NVIDIA 之前,他曾在小型和大型科技公司擔(dān)任工程、運(yùn)營和營銷職位。他擁有商業(yè)和工程學(xué)位。

Suhas Sheshadri 是 NVIDIA 的產(chǎn)品經(jīng)理,專注于 Jetson 軟件。此前,他曾在 NVIDIA 與自主駕駛團(tuán)隊(duì)合作,為 NVIDIA 驅(qū)動(dòng)平臺(tái)優(yōu)化系統(tǒng)軟件。Mahan Salehi 是 NVIDIA 的深度學(xué)習(xí)軟件產(chǎn)品經(jīng)理,專注于 Triton 推理服務(wù)器。在 NVIDIA 之前,他是一家人工智能初創(chuàng)公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,此前也曾在醫(yī)療器械行業(yè)工作。他擁有多倫多大學(xué)的工程學(xué)學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106471
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5232

    瀏覽量

    73541
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122823
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    下一步行動(dòng)。本文將一步步帶你在本地服務(wù)器上完成該模型部署,并搭建一個(gè)直觀的 Web 交互界面,親身體驗(yàn)前沿 AI 的“思考”過程。
    的頭像 發(fā)表于 07-09 10:17 ?174次閱讀

    邊緣AI實(shí)現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    邊緣AI的實(shí)現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設(shè)備上,使這些設(shè)備能夠在本地進(jìn)行數(shù)據(jù)處理、分析和決策,而無需將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程的
    的頭像 發(fā)表于 06-19 12:19 ?512次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>實(shí)現(xiàn)的核心環(huán)節(jié):硬件選擇和<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?627次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM<b class='flag-5'>部署</b>TTS應(yīng)用的最佳實(shí)踐

    基于RAKsmart云服務(wù)器AI模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對(duì)高并發(fā)請(qǐng)求、嚴(yán)格的響應(yīng)延遲要求及波動(dòng)的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI
    的頭像 發(fā)表于 05-13 10:33 ?240次閱讀

    RAKsmart服務(wù)器如何賦能AI開發(fā)與部署

    AI開發(fā)與部署的復(fù)雜性不僅體現(xiàn)在算法設(shè)計(jì)層面,更依賴于底層基礎(chǔ)設(shè)施的支撐能力。RAKsmart服務(wù)器憑借其高性能硬件架構(gòu)、靈活的資源調(diào)度能力以及面向AI場(chǎng)景的深度優(yōu)化,正在成為企業(yè)突破
    的頭像 發(fā)表于 04-30 09:22 ?281次閱讀

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    的訓(xùn)練樣本和訓(xùn)練 模型,具體商業(yè)價(jià)值和保密性,采用海思SD3403邊緣計(jì)算AI服務(wù)器+多路安防監(jiān)控IPC,讓差異化AI視頻系統(tǒng), 成本控制極
    發(fā)表于 04-28 11:05

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)
    的頭像 發(fā)表于 04-09 11:06 ?1102次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購技巧

    如何在RAKsmart服務(wù)器上實(shí)現(xiàn)企業(yè)AI模型部署

    AI模型的訓(xùn)練與部署需要強(qiáng)大的算力支持、穩(wěn)定的網(wǎng)絡(luò)環(huán)境和專業(yè)的技術(shù)管理。RAKsmart作為全球領(lǐng)先的服務(wù)器托管與云計(jì)算服務(wù)提供商,已成為企
    的頭像 發(fā)表于 03-27 09:46 ?501次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理
    的頭像 發(fā)表于 03-20 15:03 ?656次閱讀

    昇騰推理服務(wù)器+DeepSeek大模型 技術(shù)培訓(xùn)在圖為科技成功舉辦

    2月17日,華為政企業(yè)務(wù)團(tuán)隊(duì)受邀蒞臨圖為科技深圳總部,并成功舉辦了一場(chǎng)聚焦于《昇騰推理服務(wù)器+DeepSeek大模型》的專業(yè)知識(shí)培訓(xùn)。 此次培訓(xùn)活動(dòng)不僅深化了雙方的技術(shù)交流,更標(biāo)志著昇騰AI
    的頭像 發(fā)表于 02-26 17:38 ?608次閱讀
    昇騰<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>+DeepSeek大<b class='flag-5'>模型</b> 技術(shù)培訓(xùn)在圖為科技成功舉辦

    Triton編譯在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯概述 Triton編譯NVIDIA Triton
    的頭像 發(fā)表于 12-24 18:13 ?999次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    以及邊緣計(jì)算能力的增強(qiáng),越來越多的目標(biāo)檢測(cè)應(yīng)用開始直接在靠近數(shù)據(jù)源的邊緣設(shè)備上運(yùn)行。這不僅減少了數(shù)據(jù)傳輸延遲,保護(hù)了用戶隱私,同時(shí)也減輕了云端服務(wù)器的壓力。然而,在邊緣
    發(fā)表于 12-19 14:33

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實(shí)現(xiàn)手寫數(shù)字識(shí)別

    處理,而不必傳輸?shù)酵獠?b class='flag-5'>服務(wù)器,這有助于更好地保護(hù)用戶隱私和數(shù)據(jù)安全。 然而,邊緣計(jì)算也帶來了獨(dú)特的挑戰(zhàn),特別是在資源受限的嵌入式系統(tǒng)中部署復(fù)雜的AI
    發(fā)表于 12-06 17:20

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢(shì),為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和
    的頭像 發(fā)表于 09-09 09:19 ?940次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)NVIDIA NIM推理服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)NVIDIA NIM 推理
    的頭像 發(fā)表于 07-25 09:48 ?1066次閱讀