一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開發(fā)AITemplate,大幅簡化多GPU后端部署

3D視覺工坊 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-04 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

眾所周知,GPU 在各種視覺、自然語言和多模態(tài)模型推理任務(wù)中都占據(jù)重要位置。然而,對于高性能 GPU 推理引擎,AI 從業(yè)者幾乎沒有選擇權(quán),必須使用一些平臺專有的黑盒系統(tǒng)。這意味著如果要切換 GPU 供應(yīng)商,就必須重新實現(xiàn)一遍部署系統(tǒng)。在生產(chǎn)環(huán)境中當涉及復(fù)雜的依賴狀況時,這種靈活性的缺失使維護迭代成本變得更加高昂。

在 AI 產(chǎn)品落地過程中,經(jīng)常需要模型快速迭代。盡管一些閉源系統(tǒng)(如 TensorRT)提供了一些定制化功能,但這些定制化功能完全不能滿足需求。更進一步來說,這些閉源專有的解決方案,會使 debug 更加困難,對開發(fā)敏捷性造成影響。

針對這些業(yè)界難題,Meta AI 開發(fā)了擁有 NVIDIA GPU 和 AMD GPU 后端的統(tǒng)一推理引擎——AITemplate。

AITemplate 在 CNN、Transformer 和 Diffusion 模型上都能提供接近硬件上限的 TensorCore (NVIDIA GPU) 和 MatrixCore (AMD GPU) 性能。使用 AITemplate 后,在 NVIDIA GPU 上對比 PyTorch Eager 的提速最高能達到 12 倍,在 AMD GPU 上對比 PyTorch Eager 的提速達到 4 倍。

這意味著,當應(yīng)用于超大規(guī)模集群時,AITemplate 能夠節(jié)約的成本數(shù)額將是驚人的。

具體而言,AITemplate 是一個能把 AI 模型轉(zhuǎn)換成高性能 C++ GPU 模板代碼的 Python 框架。該框架在設(shè)計上專注于性能和簡化系統(tǒng)。AITemplate 系統(tǒng)一共分為兩層:前段部分進行圖優(yōu)化,后端部分針對目標 GPU 生成 C++ 模板代碼。AITemplate 不依賴任何額外的庫或 Runtime,如 cuBLAS、cudnn、rocBLAS、MIOpen、TensorRT、MIGraphX 等。任何 AITemplate 編譯的模型都是自洽的。

AITemplate 中提供了大量性能提升創(chuàng)新,包括更先進的 GPU Kernel fusion,和一些專門針對 Transformer 的先進優(yōu)化。這些優(yōu)化極大提升了 NVIDIA TensorCore 和 AMD MatrixCore 的利用率。

目前,AITemplate 支持 NVIDIA A100 和 MI-200 系列 GPU,兩種 GPU 都被廣泛應(yīng)用在科技公司、研究實驗室和云計算提供商的數(shù)據(jù)中心。

團隊對 AITemplate 進行了一系列測試。下圖的測試展示了 AITemplate 和 PyTorch Eager 在 NVIDIA A100 上的主流模型中的加速比。

92189092-4576-11ed-96c9-dac502259ad0.png

在帶有 Cuda 11.6 的 Nvidia A100 上運行 BERT 和 ResNet-50,AITemplate 在 ResNet-50 中提供了 3 到 12 倍的加速,在 BERT 上提供了 2 到 5 倍的加速。

經(jīng)測試,AITemplate 在 AMD MI250 GPU 上較 PyTorch Eager 也有較大的加速比。

922eea18-4576-11ed-96c9-dac502259ad0.png

使用 ROCm 5.2 和 MI250 加速器,ResNet-50 和 BERT 的加速在 1.5-2 倍范圍內(nèi)。

AITemplate 的統(tǒng)一 GPU 后端支持,讓深度學(xué)習(xí)開發(fā)者在最小開銷的情況下,擁有了更多的硬件提供商選擇。下圖直觀展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速對比:

924a6572-4576-11ed-96c9-dac502259ad0.png

此外,AITemaplte 的部署較其他方案也更為簡潔。由于 AI 模型被編譯成了自洽的二進制文件并且不存在任何第三方庫的依賴,任何被編譯的二進制文件都能在相同硬件、CUDA 11/ ROCm 5 或者更新的軟件環(huán)境中運行,也不用擔(dān)心任何后向兼容問題。AITemplate 提供了開箱即用的模型樣例,如 Vision Transformer、BERT、Stable Diffusion、ResNet 和 MaskRCNN,使得部署 PyTorch 模型更加簡單。

AITemplate 的優(yōu)化

AITemplate 提供了目前最先進的 GPU Kernel 融合技術(shù):支持縱向、水平和內(nèi)存融合為一體的多維融合技術(shù)??v向融合將同一條鏈上的操作進行融合;水平融合將并行無依賴的操作進行融合;內(nèi)存融合把所有內(nèi)存移動操作和計算密集算子進行融合。

9265ec70-4576-11ed-96c9-dac502259ad0.png

在水平融合中,AITemplate 目前可以把不同輸入形狀的矩陣乘法 (GEMM)、矩陣乘法和激活函數(shù),以及 LayerNorm、LayerNorm 和激活函數(shù)進行融合。

在縱向融合中,AITemplate 支持超過傳統(tǒng)標準的 Elementwise 融合,包括:

通過 CUTLASS 和 Composable Kernel 支持了矩陣和 Elementwise 算子融合;

為 Transformer 的 Multi-head Attention 提供了矩陣乘法和內(nèi)存布局轉(zhuǎn)置融合;

通過張量訪問器對內(nèi)存操作,如 split、slice、concatenate 等進行融合來消除內(nèi)存搬運。

在標準的 Transformer Multi head attention 模塊,目前 AITemplate 在 CUDA 平臺使用了 Flash Attention,在 AMD 平臺上使用了 Composable Kernel 提供的通用背靠背矩陣乘法融合。兩種解決方案都能大幅減小內(nèi)存帶寬需求,在長序列問題中,提升更為明顯。如下圖所示:

928121ca-4576-11ed-96c9-dac502259ad0.png

AITemplate 與 Composable Kernel 的廣義背靠背融合顯著提高了長序列 Transformer 的推理效率。在 batch size 為 1 時,使用 AITemplate 的兩張 GPU 均比原生框架加速了 80%。

開發(fā) AITemplate

AITemplate 有兩層模版系統(tǒng):第一層在 Python 中使用 Jinja2 模板,第二層在 GPU TensorCore/MatrixCore 中使用 C++ 模板(NVIDIA GPU 上使用 CUTLASS,AMD GPU 上使用 Composable Kernel)。AITemplate 在 Python 中找到性能最優(yōu)的 GPU 模板參數(shù),再通過 Jinja2 渲染出最終的 C++ 代碼。

在代碼生成后,就能使用 GPU C++ 編譯器(NVIDIA 平臺上的 NVCC 和 AMD 平臺上的 HIPCC)編譯出最終的二進制代碼。AITemplate 提供了一套類似于 PyTorch 的前端,方便用戶直接將模型轉(zhuǎn)換到 AITemplate 而不是通過多層 IR 轉(zhuǎn)換。

總體來看,AITemplate 對當前一代及下一代 NVIDIA GPU 和 AMD GPU 提供了 SOTA 性能并大幅簡化了系統(tǒng)復(fù)雜度。

Meta 表示,這只是創(chuàng)建高性能多平臺推理引擎旅程的開始:「我們正在積極擴展 AITemplate 的完全動態(tài)輸入支持。我們也有計劃推廣 AITemplate 到其他平臺,例如 Apple 的 M 系列 GPU,以及來自其他供應(yīng)商的 CPU 等等?!?/p>

此外,AITemplate 團隊也正在開發(fā)自動 PyTorch 模型轉(zhuǎn)換系統(tǒng),使其成為開箱即用的 PyTorch 部署方案?!窤ITemplate 對支持 ONNX 和 Open-XLA 也持開放態(tài)度。我們希望能構(gòu)建一個更為綠色高效的 AI 推理系統(tǒng),能擁有更高的性能,更強的靈活性和更多的后端選擇?!箞F隊表示。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4943

    瀏覽量

    131210
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35099

    瀏覽量

    279540

原文標題:推理速度數(shù)倍提升,大幅簡化多GPU后端部署:Meta發(fā)布全新推理引擎AITemplate

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【米爾RK3576開發(fā)板免費體驗】1、開發(fā)環(huán)境、鏡像燒錄、QT開發(fā)環(huán)境搭建以及應(yīng)用部署

    示例程序中的.pro文件,導(dǎo)入工程。 修改QT的Projects界面中的Command line Argments為--platform wayland,指定QT使用的顯示后端類型。 編譯并運行工程,部署執(zhí)行程序到開發(fā)
    發(fā)表于 07-14 11:26

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5開源版)在其GPU硬件上的端側(cè)部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設(shè)備上實現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?319次閱讀
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端側(cè)<b class='flag-5'>部署</b>

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發(fā)表于 04-14 10:22 ?470次閱讀

    極速部署!GpuGeek提供AI開發(fā)者的云端GPU最優(yōu)解

    在AI開發(fā)領(lǐng)域,算力部署的效率和資源調(diào)度的靈活性直接影響研發(fā)進程與創(chuàng)新速度。隨著模型復(fù)雜度的提升和全球化協(xié)作需求的增長,開發(fā)者對GPU云服務(wù)的核心訴求已從單純追求硬件性能,轉(zhuǎn)向?qū)?/div>
    的頭像 發(fā)表于 03-17 11:27 ?424次閱讀
    極速<b class='flag-5'>部署</b>!GpuGeek提供AI<b class='flag-5'>開發(fā)</b>者的云端<b class='flag-5'>GPU</b>最優(yōu)解

    添越智創(chuàng)基于 RK3588 開發(fā)部署測試 DeepSeek 模型全攻略

    DeepSeek 模型的部署與測試,開啟這場充滿挑戰(zhàn)與驚喜的技術(shù)探索之旅。 RK3588 開發(fā)板:AI 性能擔(dān)當 RK3588 開發(fā)板基于先進的 8nm LP 制程工藝精心打造,其硬件配置堪稱豪華,在 AI
    發(fā)表于 02-14 17:42

    Meta 2024年四季度財報亮點:營收大幅增長

    Meta近期正式發(fā)布了其2024年第四季度及全年的財報數(shù)據(jù)。數(shù)據(jù)顯示,Meta在2024年第四季度實現(xiàn)了483.9億美元的營收,與去年同期相比增長了21%,這一表現(xiàn)超出了市場預(yù)期。 同時,Meta
    的頭像 發(fā)表于 02-05 14:21 ?648次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta在人工智能領(lǐng)域邁出了重要一步。通過這款模型,Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數(shù)字代理在元宇宙中的動作將更加逼真,從而增強用戶的沉浸感和參與度。 除了Meta Motivo,
    的頭像 發(fā)表于 12-16 10:34 ?972次閱讀

    詳解MySQL實例部署

    詳解MySQL實例部署
    的頭像 發(fā)表于 11-11 11:10 ?633次閱讀

    Arm推出GitHub平臺AI工具,簡化開發(fā)者AI應(yīng)用開發(fā)部署流程

    軟件提供了無縫的開發(fā)體驗。 GitHub Actions、原生 GitHub 運行器和基于 Arm 平臺的 AI 框架相結(jié)合,幫助全球 2,000 萬開發(fā)簡化 AI 應(yīng)用開發(fā)部署
    的頭像 發(fā)表于 10-31 18:51 ?3325次閱讀

    Meta開發(fā)新搜索引擎,減少對谷歌和必應(yīng)的依賴

    近日,Meta正在積極進軍人工智能領(lǐng)域,并試圖跟上OpenAI的發(fā)展步伐。為實現(xiàn)這一目標,Meta正在開發(fā)一款全新的搜索引擎,該搜索引擎具備網(wǎng)絡(luò)爬蟲功能,能夠為用戶提供有關(guān)時事的對話答案,而這些答案
    的頭像 發(fā)表于 10-29 11:49 ?793次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發(fā)表于 10-11 18:08 ?746次閱讀

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實現(xiàn)了對圖像內(nèi)容的精準理解,標志著Meta在AI
    的頭像 發(fā)表于 09-27 11:44 ?693次閱讀

    SemiDrive X9 AI 開發(fā)環(huán)境搭建

    :支持操作系統(tǒng):Android、Linux和QNX;支持推理后端:CPU、GPU、SlimAI和AIPU;支持開發(fā)部署語言:C++和Python;支持異構(gòu)和同構(gòu)
    的頭像 發(fā)表于 08-03 08:27 ?899次閱讀
    SemiDrive X9 AI <b class='flag-5'>開發(fā)</b>環(huán)境搭建

    Meta削減元宇宙投入,應(yīng)對經(jīng)濟壓力

    Meta公司,即原Facebook母公司,近期在元宇宙領(lǐng)域的投入策略發(fā)生了顯著變化。據(jù)The Information報道,Meta旗下的Reality Labs部門,負責(zé)VR、AR及元宇宙技術(shù)的核心
    的頭像 發(fā)表于 07-22 15:36 ?881次閱讀

    Meta不會在歐盟提供新的模態(tài)AI模型

    科技巨頭Meta近日宣布了一項重要決策,其即將推出的創(chuàng)新模態(tài)Llama模型將不會在歐盟地區(qū)發(fā)布。這一決定背后,是Meta對歐洲復(fù)雜且不可預(yù)測的監(jiān)管環(huán)境的深刻考量,也為Meta與歐盟監(jiān)
    的頭像 發(fā)表于 07-19 16:04 ?843次閱讀