一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton助力騰訊構建高性能推理服務

科技綠洲 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-04-10 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

藉由 NVIDIAT4 GPU,通過 Ronda 平臺調(diào)用 NVIDIA Triton 以及 TensorRT ,整體提升開發(fā)和推理效能,幫助騰訊 PCG 的多個服務整體效能提升 2 倍,吞吐量最大提升 6 倍,同時降低了 40% 的延時。

騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊 PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ、QQ 空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務,推動 IP 跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。

騰訊 PCG 機器學習平臺部旨在構建和持續(xù)優(yōu)化符合 PCG 技術中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升 PCG 機器學習技術應用效率和價值。建設業(yè)務領先的模型訓練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務,實現(xiàn)高效率迭代;在內(nèi)容理解和處理領域,輸出業(yè)界領先的元能力和智能策略庫。機器學習平臺部正服務于 PCG 所有業(yè)務產(chǎn)品。

而過往在項目執(zhí)行時,團隊所面挑戰(zhàn)包含:

1. 業(yè)務繁多,場景復雜

業(yè)務開發(fā)語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載等網(wǎng)絡IO

多模型融合流程比教復雜,涉及循環(huán)調(diào)用

支持異構推理

2. 模型推理結果異常時,難以方便地調(diào)試定位問題

3. 需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合

基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA Triton 推理服務器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發(fā)和維護成本。

基于 C++ 的基礎架構、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務的低延時需求,成本也降低了 20%-66%。

通過將 Triton 編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合 C 語言規(guī)范的 API 也極大降低了用戶的接入成本。

借助 Python Backend 和 Custom Backend,用戶可以自由選擇使用 C++/Python 語言進行二次開發(fā)。

Triton 的 Tracing 能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結合 Metrics 和 Perf Analysis 等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend 可以用于替換掉原來的圖片解碼、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,進一步提升服務端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務場景中,以更低的成本構建了高性能的推理服務,同時更低的延遲降低了整條系統(tǒng)鏈路的響應時間,優(yōu)化了用戶體驗。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7255

    瀏覽量

    91812
  • NVIDIA
    +關注

    關注

    14

    文章

    5308

    瀏覽量

    106331
  • 騰訊
    +關注

    關注

    7

    文章

    1678

    瀏覽量

    50284
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?571次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    企業(yè)使用NVIDIA NeMo微服務構建AI智能體平臺

    已發(fā)布的 NeMo 微服務可與合作伙伴平臺集成,作為創(chuàng)建 AI 智能體的構建模塊,使用商業(yè)智能與強大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務。
    的頭像 發(fā)表于 04-27 15:05 ?517次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理軟件與 Oracle 的
    的頭像 發(fā)表于 03-21 12:01 ?695次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b>企業(yè)加速代理式AI<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務
    的頭像 發(fā)表于 03-20 15:03 ?641次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?355次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業(yè)加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務就緒型基礎,助力構建能夠獨立工作或以團隊形式完成復雜
    發(fā)表于 03-19 09:31 ?232次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI 模型系列,<b class='flag-5'>助力</b>開發(fā)者和企業(yè)<b class='flag-5'>構建</b>代理式 AI 平臺

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?707次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

    NVIDIA技術助力Pantheon Lab數(shù)字人實時交互解決方案

    、NVIDIA Triton,Pantheon Lab 訓練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進步使對話式 AI 能夠提供實時且真實的互動,使 Pantheon Lab 在數(shù)字人技術不斷革
    的頭像 發(fā)表于 01-14 11:19 ?623次閱讀

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應用開發(fā)熱度高漲,數(shù)量激增。但在三方應用鴻蒙化進程中,性能問題頻出。為此,HarmonyOS NEXT推出了一整套原生頁面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    Triton編譯器在高性能計算中的應用

    高性能計算(High-Performance Computing,HPC)是現(xiàn)代科學研究和工程計算中不可或缺的一部分。隨著計算需求的不斷增長,對計算資源的要求也越來越高。Triton編譯器作為一種
    的頭像 發(fā)表于 12-25 09:11 ?961次閱讀

    Triton編譯器在機器學習中的應用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分
    的頭像 發(fā)表于 12-24 18:13 ?985次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發(fā)布了針對大語言
    的頭像 發(fā)表于 09-29 10:14 ?1465次閱讀
    澎峰科技<b class='flag-5'>高性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務
    的頭像 發(fā)表于 09-09 09:19 ?929次閱讀

    NVIDIA攜手Meta推出AI服務,為企業(yè)提供生成式AI服務

    NVIDIA近日宣布了一項重大舉措,正式推出NVIDIA AI Foundry服務NVIDIA NIM(NVIDIA Inference
    的頭像 發(fā)表于 07-25 16:57 ?839次閱讀

    英偉達推出全新NVIDIA AI Foundry服務NVIDIA NIM推理服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務NVIDIA NIM 推理服務
    的頭像 發(fā)表于 07-25 09:48 ?1054次閱讀