案例簡(jiǎn)介
本案例中美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 支持其多方面優(yōu)化策略,從而提高吞吐能力及降低響應(yīng)延遲。通過(guò)算子融合、計(jì)算圖等價(jià)替換等一系列優(yōu)化 ,相較于 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團(tuán) CTR(Click-Through-Rate)模型預(yù)測(cè)性能,神經(jīng)網(wǎng)絡(luò)模型吞吐能力提升了 10 倍;同時(shí)在搜索精排場(chǎng)景中,端到端整體吞吐能力提升了一倍以上,助力美團(tuán) CTR 向新一代服務(wù)升級(jí)。
? 本案例為 NVIDIA GPU 推理加速互聯(lián)網(wǎng)行業(yè) CTR 模型的典型應(yīng)用
? 本案例主要應(yīng)用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段
客戶簡(jiǎn)介及應(yīng)用背景
美團(tuán)是一家集生活服務(wù)及商品零售的電商平臺(tái),公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過(guò)科技創(chuàng)新,服務(wù)于生活服務(wù)業(yè)需求側(cè)和供給側(cè)數(shù)字化升級(jí)。美團(tuán)在中國(guó)業(yè)務(wù)涵蓋餐飲、配送、網(wǎng)約車(chē)、共享單車(chē)、酒店及旅游預(yù)訂、電影票務(wù)等 200 多個(gè)服務(wù)品類(lèi),覆蓋全國(guó) 2800 個(gè)市區(qū)縣,服務(wù) 6.7 億活躍用戶和 830 萬(wàn)活躍商家。
伴隨著用戶規(guī)模的提升和業(yè)務(wù)的精細(xì)化運(yùn)營(yíng),業(yè)務(wù)側(cè)對(duì)推薦系統(tǒng)的準(zhǔn)確度、吞吐能力和時(shí)延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務(wù)的收入。
客戶挑戰(zhàn)
美團(tuán)的 CTR 模型過(guò)去一直在使用 CPU 推理的方式,但隨著用戶訪問(wèn)量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入,CTR 模型結(jié)構(gòu)趨于復(fù)雜,吞吐和計(jì)算量也越來(lái)越大,CPU 開(kāi)始不能滿足模型對(duì)于算力的需求,而僅僅通過(guò) CPU 服務(wù)器的堆疊帶來(lái)的性能提升性價(jià)比相較偏低。
而 GPU 擁有數(shù)以千計(jì)的計(jì)算核心,可以在單機(jī)內(nèi)提供密集的并行計(jì)算能力,特別適合深度學(xué)習(xí)場(chǎng)景,在行業(yè)內(nèi)已經(jīng)在 CV、NLP 等領(lǐng)域展示了強(qiáng)大的能力。通過(guò) CUDA 及相關(guān) API,NVIDIA建立了完整的 GPU 生態(tài)系統(tǒng)?;诖?,美團(tuán)基礎(chǔ)研發(fā)平臺(tái)將 CTR 模型部署到 GPU 上,并通過(guò)一系列針對(duì) CPU 與 GPU 的異構(gòu)系統(tǒng)并行計(jì)算設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)方式和傳輸方式上的特定優(yōu)化,希望能通過(guò) GPU 強(qiáng)大的計(jì)算力,協(xié)助美團(tuán)在 CTR 預(yù)測(cè)的各業(yè)務(wù)場(chǎng)景中發(fā)揮出最大優(yōu)勢(shì)。
應(yīng)用方案
為了解決算力瓶頸及上述各種挑戰(zhàn),美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)采用 NVIDIA AI 計(jì)算平臺(tái),在繼 CV、NLP 及 CTR 訓(xùn)練后,也使用了 NVIDIA T4來(lái)提供 CTR 預(yù)測(cè)支持,大幅提升用戶體驗(yàn)與服務(wù)穩(wěn)定性。除此之外,時(shí)延也是業(yè)務(wù)側(cè)非常重視的性能指標(biāo),許多復(fù)雜模型縱有更好的準(zhǔn)確度,但卻因響應(yīng)時(shí)間不達(dá)標(biāo)而無(wú)法落地應(yīng)用,例如,在某搜索框自動(dòng)補(bǔ)全的場(chǎng)景,由于天然的交互屬性,時(shí)延要求非??量?,一般來(lái)說(shuō)無(wú)法使用復(fù)雜的模型。而在 GPU 能力的加持下,其復(fù)雜模型的平均響應(yīng)時(shí)間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達(dá)到了上線要求。
使用效果及影響
通過(guò) NVIDIA T4 深度優(yōu)化方案,成功為美團(tuán) CTR 模型創(chuàng)造更多應(yīng)用機(jī)會(huì),不僅極大地提升了系統(tǒng)吞吐量,更進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本,落實(shí) AI 框架在 GPU上性能推理的優(yōu)化實(shí)踐。
“在美團(tuán)和英偉達(dá)的共同努力下,我們將 CTR 預(yù)測(cè)服務(wù)成功的遷移到 GPU 平臺(tái)上,在為業(yè)務(wù)提供更好的支撐的同時(shí)也獲得了更好的性價(jià)比;下一步,機(jī)器學(xué)習(xí)平臺(tái)計(jì)劃采用 NVIDIA Triton 推理服務(wù)框架和 NVIDIA Ampere A30,進(jìn)一步提升美團(tuán)推理服務(wù)的效率。”
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5193瀏覽量
105482 -
gpu
+關(guān)注
關(guān)注
28文章
4886瀏覽量
130430 -
AI
+關(guān)注
關(guān)注
87文章
33628瀏覽量
274346
發(fā)布評(píng)論請(qǐng)先 登錄
Altair One? 云端門(mén)戶與 NVIDIA Omniverse 實(shí)時(shí)數(shù)字孿生藍(lán)圖完成全面整合
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
NVIDIA GPU助力科研人員探索外星世界
上汽乘用車(chē)與美團(tuán)達(dá)成戰(zhàn)略合作
豐田、Aurora和大陸集團(tuán)加入NVIDIA合作伙伴行列
NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
GPU加速云服務(wù)器怎么用的
NVIDIA預(yù)測(cè)2025年AI行業(yè)發(fā)展
《CST Studio Suite 2024 GPU加速計(jì)算指南》
全新NVIDIA NIM微服務(wù)實(shí)現(xiàn)突破性進(jìn)展
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
使用NVIDIA Edify助力的服務(wù)創(chuàng)建3D資產(chǎn)和虛擬環(huán)境照明

評(píng)論