一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton推理服務(wù)器的基本特性及應(yīng)用案例

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-10-26 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

推理識(shí)別是人工智能最重要的落地應(yīng)用,其他與深度學(xué)習(xí)相關(guān)的數(shù)據(jù)收集、標(biāo)注、模型訓(xùn)練等工作,都是為了得到更好的最終推理性能與效果。

幾乎每一種深度學(xué)習(xí)框架都能執(zhí)行個(gè)別的推理工作,包括 Tensorflow、Pytorch、MXNet 等通用型框架與 YOLO 專屬的 Darknet 框架,此外還有 ONNX 開發(fā)推理平臺(tái)、NVIDIA TensorRT 加速推理引擎,也提供推理相關(guān)的 C / C++Python 開發(fā)接口,這是大部分技術(shù)人員所熟悉的方法。

在垂直應(yīng)用方面,NVIDIA 的DeepStream智能分析工具是非常適合用在種類固定且需要長(zhǎng)期統(tǒng)計(jì)分析的場(chǎng)景,包括各種交通場(chǎng)景的人 / 車流量分析、工業(yè)流水線質(zhì)量檢測(cè)等應(yīng)用,并且在早期視覺(Visualization)類推理功能之上,再添加對(duì)話(Conversation)類推理功能,讓使用范圍更加完整。

上述的推理方式通常適合在識(shí)別固定種類與固定輸入源的使用場(chǎng)景,在交通、工業(yè)自動(dòng)化領(lǐng)域、無人設(shè)備等領(lǐng)域的使用比較普及。

但是這種方式并不適合在網(wǎng)絡(luò)相關(guān)的服務(wù)類應(yīng)用中使用,包括在線的產(chǎn)品推薦、圖像分類、聊天機(jī)器人等應(yīng)用,因?yàn)樵诰€服務(wù)需要同時(shí)面對(duì)未知數(shù)量與類型的數(shù)據(jù)源,并且透過 HTTP 協(xié)議進(jìn)行數(shù)據(jù)傳輸?shù)难舆t問題,也是嚴(yán)重影響用戶體驗(yàn)感的因素,這是絕大部分網(wǎng)路服務(wù)供應(yīng)商要導(dǎo)入 AI 智能識(shí)別技術(shù)所面臨的共同難題。

NVIDIA Triton推理服務(wù)器的最大價(jià)值,便是為服務(wù)類智能應(yīng)用提供一個(gè)完整的解決方案,因此首先需要解決以下的三大關(guān)鍵問題:

1. 高通用性:

(1) 廣泛支持多種計(jì)算處理器:包括具備 NVIDIA GPU 的 x86 與 ARM CPU 設(shè)備,也支持純 CPU 設(shè)備的推理計(jì)算。

(2) 廣泛支持各種訓(xùn)練框架的文件格式:包括 TensorFlow 1.x/2.x、PyTorch、ONNX、TensorRT、RAPIDS FIL(用于 XGBoost、Scikit-learn Random Forest、LightGBM)、OpenVINO、Python 等。

(3) 廣泛支持各種模型種類:包括卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、決策樹、隨機(jī)森林和圖神經(jīng)網(wǎng)絡(luò)等算法。

2.部署便利:

(1) 可在橫向擴(kuò)展的云或數(shù)據(jù)中心、企業(yè)邊緣,甚至 NVIDIA Jetson 等嵌入式設(shè)備上運(yùn)行。

(2) 支持用于 AI 推理的裸機(jī)和虛擬化環(huán)境,包括 VMware vSphere 與基于 Docker 技術(shù)的 Kubernetes 管理機(jī)制。

(3) 可托管于多種人工智能云平臺(tái),包括 Amazon SageMaker、Azure ML、Google Vertex AI、阿里巴巴 AI、騰訊 TI-EMS 等平臺(tái)。

3.性能優(yōu)化:

(1)動(dòng)態(tài)批量處理:推理優(yōu)化的一個(gè)因素是批量大小,或者您一次處理多少個(gè)樣本,GPU 以更高的批量提供高吞吐量。然而,對(duì)于實(shí)時(shí)應(yīng)用程序,服務(wù)的真正限制不是批量大小甚至吞吐量,而是為最終客戶提供出色體驗(yàn)所需的延遲。

(2)模型并發(fā)執(zhí)行:GPU 是能夠同時(shí)執(zhí)行多個(gè)工作負(fù)載的計(jì)算設(shè)備,NVIDIA Triton 推理服務(wù)器通過在 GPU 上同時(shí)運(yùn)行多個(gè)模型來最大限度地提高性能并減少端到端延遲,這些模型可以是相同的,也可以是來自不同框架的不同模型。GPU 內(nèi)存大小是同時(shí)運(yùn)行模型數(shù)量的唯一限制,這會(huì)影響GPU利用率和吞吐量。

以上是 NVIDIA Triton 推理服務(wù)器的基本特性說明,要滿足上面所列的特性,是相對(duì)復(fù)雜的內(nèi)容,這是本系列文章所要為讀者逐一探索的內(nèi)容,不過在講解技術(shù)內(nèi)容之前,我們可以先看看有哪些比較具有代表性成功案例,能讓大家對(duì)于 Triton 推理服務(wù)器的使用場(chǎng)景有更進(jìn)一步的了解。

案例1:微軟 Teams 會(huì)議系統(tǒng)使用 Triton 提升生成實(shí)時(shí)字幕和轉(zhuǎn)錄性能

微軟 Teams是全球溝通和協(xié)作的重要工具,每月有近 2.5 億活躍用戶,其 Azure 認(rèn)知服務(wù)提供 28 種語(yǔ)言的字幕和轉(zhuǎn)錄,實(shí)時(shí)字幕功能幫助與會(huì)者實(shí)時(shí)跟蹤對(duì)話,轉(zhuǎn)錄功能方便與會(huì)者在日后回顧當(dāng)時(shí)的創(chuàng)意或回看未能參與的會(huì)議,實(shí)時(shí)字幕對(duì)聾啞人、聽力障礙者,或者異國(guó)與會(huì)者特別有用。

底層語(yǔ)音識(shí)別技術(shù)作為認(rèn)知服務(wù)中的一個(gè) API,開發(fā)人員可以使用它定制和運(yùn)行自己的應(yīng)用程序,例如客服電話轉(zhuǎn)錄、智能家居控制或?yàn)榧本热藛T提供 AI 助手。認(rèn)知服務(wù)會(huì)生成 Teams 的轉(zhuǎn)錄和字幕,將語(yǔ)音轉(zhuǎn)換為文本,并識(shí)別說話人。同時(shí)也能夠識(shí)別專業(yè)術(shù)語(yǔ) 、姓名和其他會(huì)議背景,提高字幕的準(zhǔn)確性。

微軟 Teams 首席項(xiàng)目經(jīng)理 Shalendra Chhabra 表示:“這樣的 AI 模型非常復(fù)雜,需要數(shù)千萬個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)才能識(shí)別幾十種不同的語(yǔ)言。但模型越大,就越難以經(jīng)濟(jì)高效地實(shí)時(shí)運(yùn)行?!?/p>

為了提高服務(wù)質(zhì)量,微軟使用 NVIDIA Triton 開源推理服務(wù)軟件,來幫助 Teams 使用認(rèn)知服務(wù)優(yōu)化語(yǔ)音識(shí)別模型,以及認(rèn)知服務(wù)所支持的高度先進(jìn)語(yǔ)言模型,在極低的延遲狀態(tài)下提供高度準(zhǔn)確、個(gè)性化的語(yǔ)音轉(zhuǎn)文本結(jié)果,同時(shí)可以保證運(yùn)行這些語(yǔ)音轉(zhuǎn)文本模型的NVIDIA GPU充分發(fā)揮計(jì)算資源,在消耗更少計(jì)算資源的同時(shí)為客戶提供更高的吞吐量,進(jìn)而降低成本。

NVIDIA GPU 和 Triton 軟件能夠幫助微軟,在不犧牲低延遲的情況下,通過強(qiáng)大的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)高準(zhǔn)確性,確保語(yǔ)音-文本的實(shí)時(shí)轉(zhuǎn)換,當(dāng)啟用轉(zhuǎn)錄功能時(shí),與會(huì)者可以在會(huì)議結(jié)束后輕松補(bǔ)上錯(cuò)過的內(nèi)容。

Triton 推理服務(wù)器有助于簡(jiǎn)化 AI 模型部署并解鎖高性能推理,用戶甚至可以為自己的應(yīng)用開發(fā)自定義后端。下面三種關(guān)鍵功能,是協(xié)助微軟將 Teams 的字幕和轉(zhuǎn)錄功能擴(kuò)展到更多會(huì)議和用戶的效能:

流推理:新型流推理功能—通過跟蹤語(yǔ)音上下語(yǔ)境,提高延遲、敏感性字幕的準(zhǔn)確度,協(xié)助 Azure 認(rèn)知服務(wù)合作定制語(yǔ)音轉(zhuǎn)文本的應(yīng)用程序。

動(dòng)態(tài)批量處理:批量大小指神經(jīng)網(wǎng)絡(luò)同時(shí)處理的輸入樣本數(shù)量,通過 Triton 的動(dòng)態(tài)批量處理功能,單項(xiàng)推理請(qǐng)求被自動(dòng)組合成一個(gè)批次,因此能夠在不影響模型延遲的情況下更好地利用 GPU 資源。

并發(fā)模型執(zhí)行:實(shí)時(shí)字幕和轉(zhuǎn)錄需要同時(shí)運(yùn)行多個(gè)深度學(xué)習(xí)模型,Triton 使開發(fā)人員能夠在單個(gè) GPU 上同時(shí)完成這些工作,包括使用不同深度學(xué)習(xí)框架的模型。

案例2:Triton 助力微信加速視覺應(yīng)用,提高可靠性

本案例中,通過 NVIDIA 的 GPU 執(zhí)行 Triton 推理服務(wù)器與TensorRT推理加速引擎, 幫助微信的二維碼光學(xué)識(shí)別(OCR)計(jì)算降低 46%時(shí)間,并將系統(tǒng)的失敗率降低 81%,同時(shí)減少 78% 的服務(wù)器使用數(shù)量。

騰訊微信是一款跨平臺(tái)的通訊工具,支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語(yǔ)音、圖片、視頻和文字等。截至 2021 年 6 月,微信在全球擁有超過 12 億活躍用戶,是國(guó)內(nèi)活躍用戶最多的社交軟件。

微信識(shí)物是一款主打物品識(shí)別的 AI 產(chǎn)品,通過相機(jī)拍攝物品,更高效、更智能地獲取信息。2020 年微信識(shí)物拓展了更多識(shí)別場(chǎng)景,上線了微信版的圖片搜索,打開微信掃一掃,左滑切換到 “識(shí)物” 功能,對(duì)準(zhǔn)想要了解的物品正面,可以獲取對(duì)應(yīng)的物品信息,包括物品百科、相關(guān)資訊、相關(guān)商品。

2021 年 1 月,微信發(fā)布的 8.0 版本更新支持圖片文字提取的功能,用戶在聊天界面和朋友圈中長(zhǎng)按圖片就可以提取圖片中文字,然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。

在識(shí)物的過程包含檢測(cè)、圖像召回、信息提煉等環(huán)節(jié),其中二維碼掃描的使用頻率也是非常高,主要包括識(shí)別和檢測(cè),這兩種應(yīng)用都有非常大的計(jì)算量。但原本使用 Pytorch 進(jìn)行模型的推理時(shí),遇到以下三大問題:

請(qǐng)求的延遲很大,影響用戶體驗(yàn)感;

顯存占用很大,單張 NVIDIA T4 GPU 卡能部署的模型數(shù)比較少,導(dǎo)致推理請(qǐng)求的并發(fā)數(shù)上不去,請(qǐng)求失敗的概率太高,只能通過增加機(jī)器的方式來提高并發(fā)能力,業(yè)務(wù)部署成本較高。

使用的模型經(jīng)常變化,而業(yè)務(wù)需要更換后的模型需要能夠快速地加速和上線部署。

為了解決上述問題,微信團(tuán)隊(duì)使用 Triton 推理服務(wù)器結(jié)合 TensorRT 加速推理器的綜合方案,主要技術(shù)內(nèi)容如下:

通過使用 TensorRT 對(duì)微信識(shí)物和 OCR 的模型進(jìn)行加速,在都使用 FP32 的情況下,比 Pytorch 的延遲降低 50% 左右;

在 OCR 的識(shí)別和檢測(cè)階段,使用 TensorRT 結(jié)合 NVIDIA T4 GPU 的 FP16 Tensor Core,在保證精度的前提下,識(shí)別的延遲降低 50%、檢測(cè)的延遲降低 20%;

在微信識(shí)物的分類和檢測(cè)任務(wù)中,通過使用 NVIDIA T4 GPU 的 int8 Tensor Core 并結(jié)合 QAT,在滿足精度要求的前提下,進(jìn)一步大幅提升了性能;

通過使用 FP16 和 int8 低精度模式,在大幅降低推理延遲的同時(shí),大大減少了顯存的占用,在 FP16 模式下,單模型顯存占用僅占 FP32 模式的 40%–50%, 而在 int8 模式下,單模型顯存占用僅占 FP32 模式的 30% 左右。在提高單張 T4 卡上部署的模型數(shù)量的同時(shí),大幅提高了單 GPU 的推理請(qǐng)求并發(fā)能力;

Triton 的動(dòng)態(tài)批量處理(dynamic batch)和多實(shí)例等特性,幫助微信將在滿足延遲要求的同時(shí),提高了系統(tǒng)整體的并發(fā)能力,將系統(tǒng)失敗降低了 81%;

TensorRT 對(duì)個(gè)別模型得到推理的加速,Triton 則對(duì)加速后的模型進(jìn)行快速的部署,滿足了業(yè)務(wù)對(duì)修改后的模型進(jìn)行快速部署的需求,也大大減少工程人員的工作量。

通過使用 NVIDIA 的 TensorRT 對(duì)微信識(shí)物和 OCR 的模型進(jìn)行加速,在降低單次推理延遲 50% 以上的同時(shí),節(jié)約了多達(dá) 64% 的顯存。結(jié)合 Triton 的動(dòng)態(tài)批量處理和多實(shí)例的功能,OCR 的整體時(shí)延降低了 46%,系統(tǒng)失敗率降低了 81%。大大提高了用戶的體驗(yàn),并且服務(wù)器的數(shù)量減少了多達(dá) 78%,極大降低了服務(wù)的成本。

案例3:騰訊 PCG 使用 Triton 加速在線推理,提高設(shè)備效能

騰訊平臺(tái)與內(nèi)容事業(yè)群(簡(jiǎn)稱 騰訊 PCG)負(fù)責(zé)公司互聯(lián)網(wǎng)平臺(tái)和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ 軟件、QQ 空間等社交平臺(tái),和應(yīng)用寶、瀏覽器等流量平臺(tái),以及新聞資訊、視頻、體育、直播、動(dòng)漫、影業(yè)等內(nèi)容業(yè)務(wù),推動(dòng) IP 跨平臺(tái)、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗(yàn)。

騰訊 PCG 機(jī)器學(xué)習(xí)平臺(tái)部旨在構(gòu)建和持續(xù)優(yōu)化符合 PCG 技術(shù)中臺(tái)戰(zhàn)略的機(jī)器學(xué)習(xí)平臺(tái)和系統(tǒng),提升 PCG 機(jī)器學(xué)習(xí)技術(shù)應(yīng)用效率和價(jià)值,建設(shè)業(yè)務(wù)領(lǐng)先的模型訓(xùn)練系統(tǒng)和算法框架,提供涵蓋數(shù)據(jù)標(biāo)注、模型訓(xùn)練、評(píng)測(cè)、上線的全流程平臺(tái)服務(wù),實(shí)現(xiàn)高效率迭代,在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫(kù)。

這個(gè)機(jī)器學(xué)習(xí)平臺(tái)服務(wù)于 PCG 所有業(yè)務(wù)產(chǎn)品,面對(duì)上述所提到的綜合需求,有以下三大挑戰(zhàn):

1.業(yè)務(wù)繁多,場(chǎng)景復(fù)雜:

(1) 業(yè)務(wù)開發(fā)語(yǔ)言包括 C++ 與 Python;

(2)模型格式繁多,包括 ONNX、Pytorch、TensorFlow、TensorRT 等;

(3)模型預(yù)處理涉及圖片下載等網(wǎng)絡(luò) io;

(4)多模型融合流程比教復(fù)雜,涉及循環(huán)調(diào)用;

(5)支持異構(gòu)推理;

2.模型推理結(jié)果異常時(shí),難以便利地調(diào)試定位問題;

3.需要與公司內(nèi)現(xiàn)有協(xié)議 / 框架 / 平臺(tái)進(jìn)行融合。

基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA 的 Triton 推理服務(wù)器,以解決新場(chǎng)景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時(shí),也大幅降低了服務(wù)成本。

NVIDIA 的 Triton 推理服務(wù)器是一款開源軟件,對(duì)于所有推理模式都可以簡(jiǎn)化在任一框架中以及任何 GPU 或 CPU 上的運(yùn)行方式,從而在生產(chǎn)環(huán)境中使用推理計(jì)算,并且支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學(xué)習(xí)模型框架,可以很好的支持多模型聯(lián)合推理的場(chǎng)景,構(gòu)建起視頻、圖片、語(yǔ)音、文本整個(gè)推理服務(wù)過程,大大降低多個(gè)模型服務(wù)的開發(fā)和維護(hù)成本。

通過將 Triton 編譯為動(dòng)態(tài)鏈接庫(kù),可以方便地鏈入公司內(nèi)部框架,對(duì)接公司的平臺(tái)治理體系,符合 C 語(yǔ)言規(guī)范的 API 也極大降低了用戶的接入成本,借助 Python 后端和自定義后端,用戶可以自由選擇使用 C++ 或 Python 語(yǔ)言進(jìn)行二次開發(fā)。

NVIDIA DALI是 GPU 加速的數(shù)據(jù)增強(qiáng)和圖像加載庫(kù),使用 Triton 的 DALI 后端可以替換掉原來的圖片解碼、縮放等操作,Triton 的 FIL 后端可以替代 Python XGBoost 模型推理,進(jìn)一步提升服務(wù)端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI / FIL / Python 等后端與 TensorRT,整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務(wù)場(chǎng)景中,以更低的成本構(gòu)建了高性能的推理服務(wù),同時(shí)更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時(shí)間,優(yōu)化了用戶體驗(yàn),也降低了 20%-66% 總成本。

透過以上三個(gè)成功案例,就能很明顯看出,Triton 推理服務(wù)器在面對(duì)復(fù)雜的智能識(shí)別應(yīng)用場(chǎng)景時(shí),能發(fā)揮非常有效的整合功能,特別是模型來自不同訓(xùn)練平臺(tái)時(shí),以及面對(duì)不同前端開發(fā)語(yǔ)言時(shí),更能體現(xiàn)其便利性。

在后面的文章會(huì)帶著大家,先從宏觀的角度來了解 Triton 推理服務(wù)器的應(yīng)用架構(gòu)以及所需要的配套資源,接著搭建 Triton 的使用環(huán)境,包括建立模型倉(cāng)、安裝服務(wù)端/用戶端軟件,然后執(zhí)行一些實(shí)用性強(qiáng)的基礎(chǔ)范例,以及結(jié)合 NVIDIA 的 TensorRT 與 DeepStream 等推理工具,讓更多開發(fā)人員能利用 Triton 整合更多 AI 推理資源。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106417
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9795

    瀏覽量

    87999
  • Triton
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    7177

原文標(biāo)題:NVIDIA Triton系列文章(1):應(yīng)用概論

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?608次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購(gòu)技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)服務(wù)器可能只需要3秒。這就是為什么選對(duì)
    的頭像 發(fā)表于 04-09 11:06 ?1073次閱讀
    AI <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購(gòu)技巧

    推理服務(wù)器的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實(shí)測(cè)數(shù)據(jù)分享

    在 AIoT 設(shè)備突破百億級(jí)的今天,邊緣計(jì)算推理服務(wù)器已成為智能時(shí)代的 "神經(jīng)末梢"。根據(jù) Gartner 預(yù)測(cè),到 2025 年將有 75% 的企業(yè)關(guān)鍵任務(wù)部署在邊緣端。然而,工業(yè)級(jí)應(yīng)用場(chǎng)景(如智能工廠、無人礦山、車路協(xié)同)對(duì)推理
    的頭像 發(fā)表于 04-02 10:43 ?523次閱讀
    <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實(shí)測(cè)數(shù)據(jù)分享

    國(guó)產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對(duì)推理算力的迫切需求,而進(jìn)口服務(wù)器的高成本與技術(shù)依賴性,推動(dòng)了國(guó)產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測(cè),到2025年,中國(guó)AI
    的頭像 發(fā)表于 03-24 17:11 ?486次閱讀
    國(guó)產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實(shí)戰(zhàn)案例

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)
    的頭像 發(fā)表于 03-20 15:03 ?649次閱讀

    浪潮信息發(fā)布元腦R1推理服務(wù)器

    近日,浪潮信息正式推出了其創(chuàng)新的元腦R1推理服務(wù)器。這款服務(wù)器通過系統(tǒng)的創(chuàng)新與軟硬件的協(xié)同優(yōu)化,實(shí)現(xiàn)了對(duì)DeepSeek R1 671B模型的單機(jī)部署與運(yùn)行,為客戶在智能應(yīng)用部署方面帶來了顯著的突破
    的頭像 發(fā)表于 02-17 10:32 ?706次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?722次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    Triton編譯的優(yōu)化技巧

    在現(xiàn)代計(jì)算環(huán)境中,編譯的性能對(duì)于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯作為一個(gè)先進(jìn)的編譯框架,提供了一系列的優(yōu)化技術(shù),以確保生成的代碼既高效又適應(yīng)不同的硬件架構(gòu)。 1. 指令
    的頭像 發(fā)表于 12-25 09:09 ?995次閱讀

    Triton編譯在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯概述 Triton編譯NVIDIA Triton
    的頭像 發(fā)表于 12-24 18:13 ?992次閱讀

    Triton編譯功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開源的編譯前端,它支持多種編程語(yǔ)言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯框架,允許開發(fā)者添加新的編程語(yǔ)言
    的頭像 發(fā)表于 12-24 17:23 ?1686次閱讀

    RAKsmart洛杉磯裸機(jī)云服務(wù)器特性和優(yōu)勢(shì)

    RAKsmart是一家知名的云服務(wù)提供商,以其高質(zhì)量的基礎(chǔ)設(shè)施和優(yōu)質(zhì)的服務(wù)著稱。特別是其位于洛杉磯的數(shù)據(jù)中心提供的裸機(jī)云服務(wù)器,憑借其卓越的性能和豐富的特性,受到了廣大用戶的青睞。本文
    的頭像 發(fā)表于 11-22 09:17 ?449次閱讀

    NVIDIA AI服務(wù)器領(lǐng)域重大革新:預(yù)計(jì)明年首推插槽式設(shè)計(jì)

    在科技界引起廣泛關(guān)注的最新動(dòng)態(tài)中,里昂證券于9月26日發(fā)布了一份引人注目的報(bào)告,揭示了NVIDIA在AI服務(wù)器領(lǐng)域的一項(xiàng)重大變革。據(jù)該報(bào)告透露,NVIDIA即將在AI服務(wù)器領(lǐng)域引入插槽
    的頭像 發(fā)表于 09-26 14:25 ?1181次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求,為自然語(yǔ)言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能應(yīng)用場(chǎng)景提供強(qiáng)大的算力支持,支撐AI算法的訓(xùn)練和
    的頭像 發(fā)表于 09-21 11:43 ?2043次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢(shì),為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務(wù)器
    的頭像 發(fā)表于 09-09 09:19 ?935次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)NVIDIA NIM推理服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)NVIDIA NIM 推理服務(wù)
    的頭像 發(fā)表于 07-25 09:48 ?1062次閱讀