天海翼一区二区三区四区,青青草原视频国产在线,经典五月天婷婷伊人好看小说

騰訊公司深耕模型量化開發(fā)，且長期與 NVIDIA 團隊合作，成功將深度學習模型精度從 FP32 壓縮到 FP16 以及 INT8?，F(xiàn)在，該技術(shù)再次獲得了新的重要突破。騰訊團隊利用全新設(shè)計的 QAT 訓練算法 Auto48，以及 INT4 推理能力，實現(xiàn)業(yè)界首次無損 INT4 在 NLP 領(lǐng)域落地使用的技術(shù)突破。服務(wù)上線后，不僅極大提升了微信中的搜索能力，在之前的基礎(chǔ)上更進一步為公司節(jié)省了約 30% 的計算資源，其中 NVIDIAT4、A10 GPU 及 TensorRT 即為本案例的應(yīng)用核心。

騰訊微信是目前國內(nèi)最大的社交平臺及通訊工具之一。隨著微信生態(tài)環(huán)境的優(yōu)化，其功能也越來越豐富，搜索也成為其越來越重要的入口，這個入口可以用來搜索微信內(nèi)部的功能、信息，以及搜索互聯(lián)網(wǎng)上的內(nèi)容，目前微信搜一搜月活躍用戶已超過 7 億。而在搜索業(yè)務(wù)當中微信團隊使用了大量的神經(jīng)網(wǎng)絡(luò)模型，包括自然語言理解、匹配排序等等，這些模型的訓練和推理也都大量依賴于 NVIDIA GPU，尤其在推理方面， NVIDIA GPU 及相應(yīng)的解決方案皆滿足了業(yè)務(wù)所需的延遲和吞吐要求。

搜索業(yè)務(wù)由多個子模塊構(gòu)成，包括查詢理解、匹配、搜索排序等等。由于搜索的業(yè)務(wù)特點，這些任務(wù)對線上服務(wù)的延遲和吞吐都十分敏感。而在最近幾年，隨著算力的提升以及算法的創(chuàng)新，眾多大型復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型也開始應(yīng)用在這些任務(wù)上。一方面，現(xiàn)有的模型（例如 BERT/GPT）帶來的成本壓力顯著；另一方面，超大規(guī)模（十/百億參數(shù)）模型帶來的精度提升使得大模型應(yīng)用需求持續(xù)升溫。因此，這些大模型需要的計算資源和業(yè)務(wù)上的高要求對推理端的軟硬件都是很大的挑戰(zhàn)，必須針對具體的硬件做極致的優(yōu)化?，F(xiàn)有的對于大模型的推理加速技術(shù)，比如模型壓縮、剪枝、低精度計算等等，都被證明能夠一定程度上實現(xiàn)性能加速、節(jié)約資源。然而，這些技術(shù)可能會帶來精度下降等負面影響，限制了這些技術(shù)的廣泛應(yīng)用。因此，如何在保證精度效果以及服務(wù)吞吐延遲需求的情況下，高效地對這些模型進行推理成為了業(yè)務(wù)上的巨大挑戰(zhàn)。NVIDIA GPU 以及 TensorRT 給這一場景提供了解決方案。

為了滿足線上服務(wù)的需求，并且盡可能地節(jié)約成本，微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 實現(xiàn)來進行線上大模型的推理。

線上服務(wù)對于吞吐和延遲有很高的要求，微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎來做線上推理服務(wù)，利用 NVIDIA 基于 TensorRT 實現(xiàn)的 INT8 BERT，可以很方便地在 INT8 精度下實現(xiàn)滿足需求的線上推理功能。利用 TensorRT 提供的“校準”（Calibration）功能結(jié)合量化感知訓練（Quantization Aware Training, QAT），可以方便地將 Float 精度模型轉(zhuǎn)換為 INT8 低精度模型，實現(xiàn)低精度推理。通過低精度推理，模型的單次推理時間大大縮短 30%。這個方案在線上取得了很好的效果。

在此基礎(chǔ)上，微信搜一搜希望進一步加快推理速度，節(jié)約計算資源，以便更好地服務(wù)用戶，節(jié)約成本。更低的低精度推理成為了很好的選擇。NVIDIA GPU 從圖靈（Turing）架構(gòu)開始就有了 INT4 Tensor Core，其計算吞吐量最高可達 FP16 精度的 4 倍。并且低精度推理可以同時使用其他技術(shù)比如剪枝、蒸餾等相結(jié)合做進一步提升。微信搜一搜線上大量使用 NVIDIA T4 GPU，非常適合應(yīng)用 INT4 推理，且 CUTLASS 對 INT4 GEMM 也有良好的支持。

然而當進一步將數(shù)據(jù)類型從 INT8 降低到 INT4 的時候，如果使用相同的 QAT 算法時，模型的精度會發(fā)生顯著的下降（超過 2%）。因此，微信搜一搜設(shè)計了全新的訓練算法—— Auto48。Auto48 是一套全新的自動化模型量化工具，能夠幫助用戶自動生成自定義壓縮率下，性能最優(yōu)的量化模型。在 QAT 算法的啟發(fā)下， Auto48 設(shè)計了全新的動態(tài)壓縮算法來極大地減小高壓縮率（INT4）帶來的壓縮誤差，并且結(jié)合了更有效的知識蒸餾相關(guān)技術(shù)，使得量化后的模型準確度得到了顯著的提高。進一步的， Auto48 還支持 INT8+INT4 混合精度的壓縮，這使得用戶可以自由的在壓縮率和精度之間做權(quán)衡，甚至實現(xiàn)無損壓縮。TensorRT 對于導(dǎo)入 QAT 訓練好的模型進行 INT8 低精度推理已經(jīng)有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core，使用 CUTLASS 可以方便地構(gòu)建出滿足多種需求的 INT4 GEMM 算子。這些算子不僅降低了推理時間，還保證了算子的功能的靈活性和擴展性?；?Auto48 訓練的模型，不僅得到了最佳性能，而且精度沒有損失，線上服務(wù)只需做少許改動即可，極大地簡化了部署的流程。

通過這樣的方案，微信搜一搜中的一些關(guān)鍵任務(wù)，比如查詢理解等自然語言理解任務(wù)，可以在精度沒有損失的情況下，達到 1.4 倍的加速效果，平均單句推理時間達到了 0.022ms。任務(wù)相應(yīng)的計算資源節(jié)省了約 30%。近期微信搜一搜在部分任務(wù)上線了 INT4 模型服務(wù)，該服務(wù)相較于之前的 INT8 模型服務(wù)有顯著的性能提升，在流量高峰時平均響應(yīng)時間降低了 21%，超時率降低了 70%。這個方案大大優(yōu)化了微信搜一搜業(yè)務(wù)的性能，降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎進行 INT4 低精度推理，極大提升了微信搜一搜相關(guān)任務(wù)的速度，進一步提升了用戶體驗，節(jié)約了公司成本。

INT4 與 INT8 服務(wù)請求耗時和失敗率對比

工程師朱健琛和李輝表示：“我們成功地實現(xiàn)了 INT4 的量化加速模型，并且在微信搜索核心任務(wù)（例如 query 理解和打分）上，顯著的提高了這些模型的推理速度。通過使用我們提出的 Auto48 算法，我們成功打破了 NLP 模型的復(fù)雜性帶來的限制。這種先進的優(yōu)化手段可以極大地減少計算資源的需求?！?/span>

原文標題：NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處：【微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5283

瀏覽量
106084
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4926

瀏覽量
130955
騰訊

騰訊

+關(guān)注

關(guān)注
7

文章
1678

瀏覽量
50221
微信

微信

+關(guān)注

關(guān)注
6

文章
512

瀏覽量
27269

原文標題：NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVIDIA T4 GPU和TensorRT提高微信搜索速度

評論