一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA recsys-examples在生成式推薦系統(tǒng)中的高效實(shí)踐

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-07-04 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

在生成式 AI 浪潮的推動(dòng)下,推薦系統(tǒng)領(lǐng)域正經(jīng)歷深刻變革。傳統(tǒng)的深度學(xué)習(xí)推薦模型 (DLRMs) 雖已展現(xiàn)出一定效果,但在捕捉用戶興趣偏好和動(dòng)態(tài)行為序列變化時(shí),常面臨可擴(kuò)展性挑戰(zhàn)。生成式推薦系統(tǒng) (Generative Recommenders, GRs) 的出現(xiàn),為這一領(lǐng)域帶來(lái)了全新思路與機(jī)遇。

本文將介紹NVIDIA recsys-examples中針對(duì)生成式推薦場(chǎng)景設(shè)計(jì)的高效實(shí)踐參考。博客內(nèi)容共分為上下兩篇,本篇將整體介紹 recsys-examples 的設(shè)計(jì)和功能,下篇將對(duì)核心模塊進(jìn)行深入的解析。

GitHub repo:https://github.com/NVIDIA/recsys-examples

生成式推薦系統(tǒng)的崛起

Meta Research 的最新研究表明,生成式推薦系統(tǒng)通過(guò)將推薦問(wèn)題重構(gòu)為生成式建??蚣芟碌男蛄?transduction 任務(wù),展現(xiàn)出顯著優(yōu)勢(shì):

更個(gè)性化的推薦:能夠深入挖掘用戶獨(dú)特的行為模式與偏好。

更強(qiáng)的上下文感知能力:能夠更好地捕捉上下文序列信號(hào),滿足序列建模的模型需求

以 Meta 提出的 HSTU (Hierarchical Sequential Transduction Units) 為例,其在推薦場(chǎng)景中性能超越傳統(tǒng) Transformer 模型,且推理速度更快。

大規(guī)模訓(xùn)練的挑戰(zhàn)與應(yīng)對(duì)方案

然而,基于類 Transformer 架構(gòu)的生成式推薦系統(tǒng),因上下文長(zhǎng)度增加和計(jì)算需求提升,在大規(guī)模訓(xùn)練與部署時(shí)面臨嚴(yán)峻的計(jì)算和架構(gòu)挑戰(zhàn)。為解決這些難題,NVIDIA 開(kāi)發(fā)了 recsys-examples 參考實(shí)現(xiàn),旨在展示大規(guī)模生成式推薦系統(tǒng)中訓(xùn)練和推理的最優(yōu)實(shí)踐。

NVIDIA recsys-examples 中的深度優(yōu)化

NVIDIA recsys-examples 目前主要包含以下特性:

混合并行分布式訓(xùn)練:基于 TorchRec(處理 sparse 部分的模型并行)和NVIDIA Megatron Core(適用于 dense 部分的數(shù)據(jù)并行與模型并行),優(yōu)化多 GPU 分布式訓(xùn)練流程,實(shí)現(xiàn) sparse 和 dense 部分多種并行的高效協(xié)同。

高效 HSTU 注意力算子:通過(guò)NVIDIA CUTLASS實(shí)現(xiàn)高性能的 HSTU 注意力算子,提升計(jì)算效率。

動(dòng)態(tài) embedding 功能:結(jié)合NVIDIA Merlin HKV和 TorchRec,支持無(wú)沖突哈希、embedding eviction 及 CPU offloading 等動(dòng)態(tài) embedding 能力,適配大規(guī)模訓(xùn)練場(chǎng)景。

當(dāng)前,recsys-examples 中提供了基于 HSTU 排序和召回模型的大規(guī)模訓(xùn)練示例,方便用戶快速使用和參考。

67477da2-4c43-11f0-b715-92fbcf53809c.png

圖 1:NVIDIA recsys-examples 的軟件架構(gòu),其中綠色部分是 NVIDIA 開(kāi)源組件,紅色部分是社區(qū)開(kāi)源組件

一、高效的 HSTU 內(nèi)核

HSTU (Hierarchical Sequential Transduction Unit) 注意力結(jié)構(gòu)是論文中提出的一種針對(duì)推薦系統(tǒng)優(yōu)化的高效注意力機(jī)制。與標(biāo)準(zhǔn)的多頭注意力 (Multi-head Attention) 相比,HSTU 注意力做了以下關(guān)鍵改進(jìn):

Normalization改進(jìn):用 SiLU 替代 softmax,提升模型表達(dá)能力。

引入相對(duì)位置偏置:通過(guò) Relative Attention Bias (RAB) 捕獲序列中的相對(duì)位置/時(shí)間信息。

在 recsys-examples 中,我們基于 NVIDIA CUTLASS 庫(kù)實(shí)現(xiàn)了高性能的 HSTU 注意力算子,并針對(duì)訓(xùn)練和推理場(chǎng)景分別進(jìn)行了優(yōu)化。目前實(shí)現(xiàn)也已經(jīng)合并到 FBGEMM 中,用戶可以直接通過(guò) FBGEMM 使用。

1、訓(xùn)練優(yōu)化技術(shù)

Kernel Fusion 計(jì)算融合:借鑒 Flash Attention 的思想,將多個(gè)連續(xù)操作融合為單個(gè) GPU 內(nèi)核

靈活掩碼和 RAB 機(jī)制:支持可定制的 mask tensor 以及 RAB tensor,適應(yīng)不同推薦場(chǎng)景下的序列建模需求

2、推理優(yōu)化技術(shù)

簡(jiǎn)化計(jì)算邏輯:使用 RAB (Relative Attention Bias) 作為負(fù)無(wú)窮替代傳統(tǒng)的 mask 操作,減少計(jì)算復(fù)雜度和內(nèi)存訪問(wèn),提升推理速度

稀疏目標(biāo)優(yōu)化:針對(duì)推薦系統(tǒng)中常見(jiàn)的稀疏 target 計(jì)算模式進(jìn)行優(yōu)化,減少內(nèi)存占用,并支持大規(guī)模目標(biāo)的批量推理

在 NVIDIA Hopper 架構(gòu)上,我們的 HSTU 注意力算子相比與 Triton 實(shí)現(xiàn)的版本,在各個(gè)問(wèn)題尺寸上都有超過(guò) 3.5x 的加速比,并且在序列增長(zhǎng)的情況下,加速比進(jìn)一步提升。

67634398-4c43-11f0-b715-92fbcf53809c.png

圖 2:CUTLASS Kernel 在 NVIDIA Hopper 架構(gòu)上與 Triton 的前向性能對(duì)比

677709c8-4c43-11f0-b715-92fbcf53809c.png

圖 3:CUTLASS Kernel 在 NVIDIA Hopper 架構(gòu)上與 Triton 的后向性能對(duì)比

二、動(dòng)態(tài) embedding 與TorchRec 的無(wú)縫集成

TorchRec 目前對(duì)動(dòng)態(tài) embedding 的支持有兩種,分別是 contrib / dynamic_embedding 通過(guò)外掛 CPU redis 集群和在 ManagedCollision 模塊中通過(guò)額外的排序步驟來(lái)支持,兩者都會(huì)在原有 TorchRec 訓(xùn)練流程的基礎(chǔ)上,增加額外的訓(xùn)練時(shí)間開(kāi)銷。

在 recsys-examples 中,我們引入 NVIDIA Merlin HierarchicalKV 作為底層存儲(chǔ),并與 TorchRec 團(tuán)隊(duì)合作基于 TorchRec 官方插件接口,直接替換 TorchRec 中原本的 FBGEMM 靜態(tài)存儲(chǔ),支持了動(dòng)態(tài) embedding 支持能力。這一方案可在大規(guī)模推薦系統(tǒng)訓(xùn)練場(chǎng)景中:

支持無(wú)沖突哈希映射

支持基于頻率或時(shí)間或自定義的 embedding 淘汰策略

提供 CPU offloading 機(jī)制來(lái)實(shí)現(xiàn)超大規(guī)模 embedding 存儲(chǔ)

支持 incremental dump 功能,根據(jù)用戶的需求只 dump 在過(guò)去一段時(shí)間內(nèi)訓(xùn)練過(guò)的 embedding

保持與原生 TorchRec 分布式訓(xùn)練流程的無(wú)縫集成

相比 contrib / dynamic_embedding 中的實(shí)現(xiàn),NVIDIA recsys-examples 能夠大幅度減少 CPU 上的操作開(kāi)銷,在大規(guī)模訓(xùn)練中能有超過(guò) 20 倍的加速效果。

更多詳細(xì)內(nèi)容您可觀看 "RecSys Examples 中的訓(xùn)練與推理優(yōu)化實(shí)踐——以 HSTU 模型為例":

美團(tuán)應(yīng)用

NVIDIA recsys-examples 實(shí)踐

在過(guò)去幾個(gè)月中,我們與美團(tuán)緊密合作,助力其加速基于 HSTU 架構(gòu)的推薦模型在離線和在線試驗(yàn)中的應(yīng)用。在美團(tuán)外賣場(chǎng)景下,通過(guò)引入 GR 模型結(jié)構(gòu),CTR 和 CTCVR 指標(biāo)均實(shí)現(xiàn)了顯著提升(詳情參考 MTGR 博客)。

678dae62-4c43-11f0-b715-92fbcf53809c.png

圖 4:美團(tuán)業(yè)務(wù)引入 GR 后的收益。

該圖片來(lái)源于 MTGR:美團(tuán)外賣生成式推薦 Scaling Law 落地實(shí)踐一文,若您有任何疑問(wèn)或需要使用該圖片,請(qǐng)聯(lián)系美團(tuán)

我們的優(yōu)化版 HSTU 算子,在訓(xùn)練中,端對(duì)端吞吐提升 85%;在推理中,通過(guò) TRT plugin 封裝,在 TRT 中引入了 HSTU fp16 算子,相比 TRT fp32 算子時(shí)延降低 50%,端對(duì)端耗時(shí)減少 30%。

總結(jié)與展望

NVIDIA recsys-examples 將生成式推薦(如 “Actions Speak Louder than Words” 論文中提出的技術(shù))與分布式訓(xùn)練(借由 TorchRec 增強(qiáng))及優(yōu)化訓(xùn)練推理相結(jié)合,助力開(kāi)發(fā)和部署能夠提供高度個(gè)性化用戶體驗(yàn)的復(fù)雜推薦模型。我們誠(chéng)摯邀請(qǐng)研究人員和從業(yè)者試用該工具,并期待與您共同推動(dòng)生成式推薦系統(tǒng)的技術(shù)演進(jìn)。

作者

劉仕杰

2020 年加入 NVIDIA DevTech 團(tuán)隊(duì),專注于 NVIDIA GPU 的性能優(yōu)化及推薦系統(tǒng)加速領(lǐng)域。

張俊杰

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作,目前主要負(fù)責(zé)推薦系統(tǒng)訓(xùn)練端到端優(yōu)化工作。

姚家樹(shù)

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作,目前主要負(fù)責(zé)推薦系統(tǒng) Embedding 存儲(chǔ)的開(kāi)發(fā)和性能優(yōu)化工作。

康暉

2022 年加入 NVIDIA DevTech 工程師團(tuán)隊(duì),目前從事機(jī)器人仿真加速相關(guān)工作,之前參加過(guò) HugeCTR,SOK,recsys example 等項(xiàng)目開(kāi)發(fā)和優(yōu)化。

柴斌

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作。目前主要負(fù)責(zé)搜廣推鏈路的性能調(diào)優(yōu)和 kernel 開(kāi)發(fā)。

陳喬瑞

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作,目前主要負(fù)責(zé) HPC 程序的開(kāi)發(fā)和 kernel 性能優(yōu)化。

孫佳鈺

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作。

張琪

來(lái)自 NVIDIA DevTech 團(tuán)隊(duì),從事企業(yè)用戶 GPU 加速計(jì)算支持工作,目前主要負(fù)責(zé) CUTLASS 在推薦系統(tǒng)、LLM 等相關(guān)應(yīng)用場(chǎng)景的性能優(yōu)化與開(kāi)發(fā)工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106430
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280036
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50437

原文標(biāo)題:NVIDIA recsys-examples: 生成式推薦系統(tǒng)大規(guī)模訓(xùn)練推理的高效實(shí)踐(上篇)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入系統(tǒng)在生活中有哪些應(yīng)用

    2、嵌入系統(tǒng)在生活中有哪些應(yīng)用各種智能家電,白色家電,黑色家電,都有嵌入系統(tǒng)的應(yīng)用啊,只有老家電用的少,新的都離不開(kāi)。當(dāng)然還有最重要的手
    發(fā)表于 10-27 09:35

    嵌入語(yǔ)音識(shí)別系統(tǒng)在生活中的應(yīng)用有哪些呢

    嵌入語(yǔ)音識(shí)別系統(tǒng)是什么?嵌入語(yǔ)音識(shí)別系統(tǒng)在生活中的應(yīng)用有哪些呢?
    發(fā)表于 12-23 08:27

    Adobe 攜手 NVIDIA 釋放生成 AI 的力量

    的力量,以進(jìn)一步推動(dòng)創(chuàng)作流程的發(fā)展。Adobe 和 NVIDIA 將共同開(kāi)發(fā)新一代先進(jìn)的生成 AI 模型,側(cè)重于將生成 AI 深度集成
    發(fā)表于 03-22 14:14 ?518次閱讀
    Adobe 攜手 <b class='flag-5'>NVIDIA</b> 釋放<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的力量

    GTC23 | Adobe 攜手 NVIDIA 釋放生成 AI 的力量

    ? ? Adobe 和 NVIDIA 將共同開(kāi)發(fā)新一代先進(jìn)的生成 AI 模型 ? ?此次合作的重點(diǎn)是將生成 AI 深度集成到創(chuàng)作流程
    的頭像 發(fā)表于 03-23 06:55 ?747次閱讀

    NVIDIA 攜手微軟,在生成 AI 的新時(shí)代推動(dòng) Windows PC 創(chuàng)新

    行業(yè)領(lǐng)導(dǎo)者打破藩籬,使開(kāi)發(fā)人員能夠輕松地在 Windows 11 上訓(xùn)練并部署先進(jìn)的 AI 模型,并在配備 RTX 的 PC 和工作站上提供節(jié)能的推理。 生成 AI,以 ChatGPT 等大型語(yǔ)言
    的頭像 發(fā)表于 05-25 09:15 ?955次閱讀
    <b class='flag-5'>NVIDIA</b> 攜手微軟,<b class='flag-5'>在生成</b><b class='flag-5'>式</b> AI 的新時(shí)代推動(dòng) Windows PC 創(chuàng)新

    COMPUTEX2023 | 為加速生成 AI 而設(shè)計(jì)的 NVIDIA Grace Hopper 超級(jí)芯片全面投產(chǎn)

    GH200 驅(qū)動(dòng)的系統(tǒng)將加入由 基于 NVIDIA Grace、NVIDIA Hopper 、NVIDIA Ada Lovelace 和NVIDI
    的頭像 發(fā)表于 05-30 01:40 ?1101次閱讀
    COMPUTEX2023 | 為加速<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 而設(shè)計(jì)的 <b class='flag-5'>NVIDIA</b> Grace Hopper 超級(jí)芯片全面投產(chǎn)

    VMware 與 NVIDIA 為企業(yè)開(kāi)啟生成 AI 時(shí)代

    全新 VMware Private AI Foundation With NVIDIA 幫助企業(yè)為生成 AI 在業(yè)務(wù)的應(yīng)用做好準(zhǔn)備;該平臺(tái)將在數(shù)據(jù)隱私性、安全性和可控性方面提供進(jìn)一
    的頭像 發(fā)表于 08-23 19:10 ?899次閱讀
    VMware 與 <b class='flag-5'>NVIDIA</b> 為企業(yè)開(kāi)啟<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 時(shí)代

    NVIDIA 擴(kuò)展機(jī)器人平臺(tái),迎接生成 AI 的崛起

    基于 NVIDIA Jetson 平臺(tái)進(jìn)行開(kāi)發(fā)的 1 萬(wàn)多家公司現(xiàn)在可以利用全新的生成 AI、API 和微服務(wù)來(lái)加快推進(jìn)行業(yè)數(shù)字化 ? ? 強(qiáng)大的生成
    發(fā)表于 10-19 17:16 ?502次閱讀
    <b class='flag-5'>NVIDIA</b> 擴(kuò)展機(jī)器人平臺(tái),迎接<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的崛起

    NVIDIA 擴(kuò)展機(jī)器人平臺(tái),迎接生成 AI 的崛起

    基于 NVIDIA Jetson 平臺(tái)進(jìn)行開(kāi)發(fā)的 1 萬(wàn)多家公司現(xiàn)在可以利用全新的生成 AI、API 和微服務(wù)來(lái)加快推進(jìn)行業(yè)數(shù)字化 強(qiáng)大的生成
    的頭像 發(fā)表于 10-20 02:05 ?790次閱讀
    <b class='flag-5'>NVIDIA</b> 擴(kuò)展機(jī)器人平臺(tái),迎接<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的崛起

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成 AI

    近日,NVIDIA 發(fā)布了 Jetson 生成 AI 實(shí)驗(yàn)室(Jetson Generative AI Lab),使開(kāi)發(fā)者能夠通過(guò) NVIDIA Jetson 邊緣設(shè)備在現(xiàn)實(shí)世界
    的頭像 發(fā)表于 11-07 21:25 ?1665次閱讀
    利用 <b class='flag-5'>NVIDIA</b> Jetson 實(shí)現(xiàn)<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI

    生成AI通過(guò)NVIDIA Isaac平臺(tái)提高機(jī)器人的智能化水平

    今日,NVIDIA 機(jī)器人和邊緣計(jì)算副總裁 Deepu Talla 在 CES 上的特別演講,詳細(xì)介紹了 NVIDIA 及合作伙伴是如何將生成
    的頭像 發(fā)表于 01-09 10:27 ?1437次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b>AI通過(guò)<b class='flag-5'>NVIDIA</b> Isaac平臺(tái)提高機(jī)器人的智能化水平

    NVIDIA生成AI開(kāi)啟藥物研發(fā)與設(shè)計(jì)的新紀(jì)元

    NVIDIA BioNeMo 現(xiàn)已提供十余個(gè)生成 AI 模型以及云服務(wù),正在推動(dòng)計(jì)算機(jī)輔助藥物發(fā)現(xiàn)生態(tài)系統(tǒng)的發(fā)展。
    的頭像 發(fā)表于 01-10 16:00 ?852次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>生成</b><b class='flag-5'>式</b>AI開(kāi)啟藥物研發(fā)與設(shè)計(jì)的新紀(jì)元

    SAP與NVIDIA攜手加速生成AI在企業(yè)應(yīng)用的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企業(yè)客戶在 SAP 云解決方案和應(yīng)用組合利用數(shù)據(jù)和生成 AI 的變革力量。
    的頭像 發(fā)表于 03-22 10:02 ?946次閱讀

    NVIDIA助力Amdocs打造生成AI智能體

    正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開(kāi)發(fā)和交付基于商用大語(yǔ)言模型(LLM)和領(lǐng)域適配模型的解決方案。該公司還在使用NVIDIA NIM,這是一套易于使用的推理微服務(wù),旨在加
    的頭像 發(fā)表于 11-19 14:48 ?912次閱讀

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開(kāi)發(fā)了一個(gè)全新的生成 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂(lè)、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?821次閱讀