一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm技術(shù)助力Google Axion處理器加速AI工作負載推理

Arm社區(qū) ? 來源:Arm社區(qū) ? 2025-02-14 14:11 ? 次閱讀

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部高級產(chǎn)品經(jīng)理 Ashok Bhat

由 Arm Neoverse V2 平臺賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機,為基于 CPU人工智能 (AI) 推理和通用云工作負載實現(xiàn)了顯著的性能飛躍。

Axion CPU 延續(xù)了 Google Cloud 的定制芯片計劃,旨在提高工作負載性能和能效,標志著在重塑 AI 云計算格局方向上的重大進步。Google 選擇 Arm Neoverse 平臺是因為它具備高性能、高能效和創(chuàng)新靈活性,而且有著強大的軟件生態(tài)系統(tǒng)和廣泛的行業(yè)應(yīng)用,可確保與現(xiàn)有應(yīng)用的輕松集成。

Neoverse V2 平臺引入了新的硬件擴展,例如 SVE/SVE2、BF16 和 i8mm,與上代 Neoverse N1 相比,顯著增強了機器學習性能。這些擴展增強了向量處理、BFloat16 運算和整數(shù)矩陣乘法,使得基于 Neoverse V2 的 CPU 每周期執(zhí)行的 MAC 運算次數(shù)比 N1 提高最多四倍。

從生成式 AI 到計算機視覺:加快 AI 工作負載推理速度并提升性能

立足于開源為原則的 AI 具備眾多領(lǐng)先的開源項目。近年來,Arm 一直與合作伙伴開展密切合作,以提高這些開源項目的性能。在許多情況下,我們會利用 Arm Kleidi 技術(shù)來提高 Neoverse 平臺上的性能,Kleidi 技術(shù)可通過 Arm Compute Library 和 KleidiAI 庫訪問。

大語言模型

由 Meta 開發(fā)的 Llama 模型包含一系列先進的大語言模型 (LLM),專為各種生成任務(wù)而設(shè)計,模型大小從 10 億到 4,050 億個參數(shù)不等。這些模型針對性能進行了優(yōu)化,并可針對特定應(yīng)用進行微調(diào),因而在自然語言處理任務(wù)中用途廣泛。

Llama.cpp 是一個 C++ 實現(xiàn)方案,可以在不同的硬件平臺上實現(xiàn)這些模型的高效推理。它支持 Q4_0 量化方案,可將模型權(quán)重減少為 4 位整數(shù)。

為了展示基于 Arm 架構(gòu)的服務(wù)器 CPU 在 LLM 推理方面的能力,Arm 軟件團隊和 Arm 合作伙伴對 llama.cpp 中的 int4 內(nèi)核進行了優(yōu)化,以利用這些新的指令。具體來說,我們增加了三種新的量化格式:為僅支持 Neon 的設(shè)備添加了 Q4_0_4_4,為支持 SVE/SVE2 和 i8mm 的設(shè)備添加了 Q4_0_4_8,為支持 SVE 256 位的設(shè)備添加了 Q4_0_8_8。

因此,與當前的 x86 架構(gòu)實例相比,基于 Axion 的虛擬機在提示詞處理和詞元 (token) 生成方面的性能高出兩倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我們在所有實例上運行了 Llama 3.1 8B 模型,并對每個實例使用了推薦的 4 位量化方案。Axion 的數(shù)據(jù)是在 c4a-standard-48 實例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的數(shù)據(jù)是在 t2a-standard-48 實例上使用 Q4_0_4_4 生成的。x86 架構(gòu)的數(shù)據(jù)是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有實例中,線程數(shù)始終設(shè)置為 48。

BERT

在 C4A 虛擬機上運行 BERT 取得了顯著的速度提升,大幅減少了延遲并提高了吞吐量。此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf BERT 模型,并測量第 90 百分位的延遲。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不僅限于 LLM,還可應(yīng)用于圖像識別模型,例如 ResNet-50 就能受益于此硬件的先進特性。BF16 和 i8mm 指令集成后,實現(xiàn)了更高的精度和更快的訓練速度,展現(xiàn)了 Axion 相較基于 x86 架構(gòu)實例的性能優(yōu)勢。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一個領(lǐng)先的機器學習算法庫,用于解決回歸、分類和排序問題,與 Google Cloud 上類似的 x86 架構(gòu)實例相比,在 Axion 上訓練和預測所需的時間減少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

結(jié)論

從上述結(jié)果,可以發(fā)現(xiàn)基于 Axion 的虛擬機在性能方面超越了上一代基于 Neoverse N1 的虛擬機和 Google Cloud 上其他的 x86 架構(gòu)替代方案。Google Cloud C4A 虛擬機能夠處理從 XGBoost 等傳統(tǒng)機器學習任務(wù)到 Llama 等生成式 AI 應(yīng)用的各類工作負載,是AI 推理的理想之選。

Arm 資源:助力云遷移

為了提升 Google Axion 的使用體驗,Arm 匯集了各種資源:

[1] 通過 Arm Learning Paths 遷移到 Axion:依照詳細的指南和最佳實踐,簡化向 Axion 實例的遷移。

[2] Arm Software Ecosystem Dashboard:獲取有關(guān) Arm 的最新軟件支持信息。

[3] Arm 開發(fā)者中心:無論是剛接觸 Arm 平臺,還是正在尋找開發(fā)高性能軟件解決方案的資源,Arm 開發(fā)者中心應(yīng)有盡有,可以幫助開發(fā)者構(gòu)建更卓越的軟件,為數(shù)十億設(shè)備提供豐富的體驗。歡迎開發(fā)者在 Arm 不斷壯大的全球開發(fā)者社區(qū)中,下載內(nèi)容、交流學習和討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9270

    瀏覽量

    373638
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7607

    瀏覽量

    89853
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33554

    瀏覽量

    274260
  • Neoverse
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    4726

原文標題:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作負載推理

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    解讀基于Arm Neoverse V2平臺的Google Axion處理器

    云計算需求在人工智能 (AI) 時代的爆發(fā)式增長,推動了開發(fā)者尋求性能優(yōu)化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過 Arm Neoverse 平臺滿足不斷變化的需求,Neoverse 也正因此迅速成
    的頭像 發(fā)表于 04-21 13:47 ?282次閱讀

    Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    架構(gòu),賦能多場景應(yīng)用 BPI-AI2N 采用 RZ/V2N 處理器,集成 4 核 Arm? Cortex?-A55(1.8GHz)與 Cortex?-M33(200MHz),提供強勁的計算能力,同時兼顧
    發(fā)表于 03-19 17:54

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?282次閱讀
    Oracle 與 NVIDIA 合作<b class='flag-5'>助力</b>企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    AI MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-AI3 加速器和高性能實時處理器

    RZ/V2H 高端 AI MPU 采用瑞薩電子專有的AI 加速器-動態(tài)可重配置處理器 (DRP-AI3)、四核
    的頭像 發(fā)表于 03-15 11:50 ?1174次閱讀
    <b class='flag-5'>AI</b> MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-<b class='flag-5'>AI</b>3 <b class='flag-5'>加速器</b>和高性能實時<b class='flag-5'>處理器</b>

    Arm Cortex-A320 CPU助力嵌入式設(shè)備實現(xiàn)高能效AI計算

    Arm Cortex-A320 是目前最小型的 Armv9-A 架構(gòu) CPU。得益于該處理器的推出,開發(fā)者現(xiàn)在能有更多選擇決定如何處理物聯(lián)網(wǎng)邊緣人工智能 (AI)
    的頭像 發(fā)表于 02-27 17:17 ?591次閱讀
    <b class='flag-5'>Arm</b> Cortex-A320 CPU<b class='flag-5'>助力</b>嵌入式設(shè)備實現(xiàn)高能效<b class='flag-5'>AI</b>計算

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學習框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以
    的頭像 發(fā)表于 12-03 17:05 ?1279次閱讀
    <b class='flag-5'>Arm</b> KleidiAI<b class='flag-5'>助力</b>提升PyTorch上LLM<b class='flag-5'>推理</b>性能

    Google AI技術(shù)助力中國品牌出海增長

    人工智能的技術(shù)創(chuàng)新與突破正在給各行各業(yè)帶來全新的變革與機遇。在數(shù)字營銷領(lǐng)域,AI 也為整個營銷流程開啟了全新的可能。從全新的沉浸式廣告體驗到效果出色的廣告素材,Google AI 正在
    的頭像 發(fā)表于 10-16 11:08 ?746次閱讀

    英特爾?至強?可擴展處理器助力智慧醫(yī)療的數(shù)字化轉(zhuǎn)型

    醫(yī)療機構(gòu)實現(xiàn)數(shù)據(jù)的收集、分析和輔助決策,從而提升醫(yī)療服務(wù)質(zhì)量與效率。 ? 這一處理器內(nèi)置的AI加速器顯著提升了AI推理性能,特別是在
    發(fā)表于 09-29 11:13 ?6252次閱讀
    英特爾?至強?可擴展<b class='flag-5'>處理器</b><b class='flag-5'>助力</b>智慧醫(yī)療的數(shù)字化轉(zhuǎn)型

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲
    的頭像 發(fā)表于 09-18 09:37 ?677次閱讀
    AMD<b class='flag-5'>助力</b>HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)<b class='flag-5'>器</b>

    英特爾? 酷睿? Ultra 處理器面向多行業(yè)加速AI產(chǎn)業(yè)升級

    持競爭力,企業(yè)亟需更高效的計算平臺來處理日益復雜的數(shù)據(jù)分析和AI推理任務(wù)。 為響應(yīng)這一時代需求,英特爾正式發(fā)布英特爾? 酷睿? Ultra 處理器,以全新架構(gòu)和創(chuàng)新
    發(fā)表于 09-14 20:36 ?1.3w次閱讀
    英特爾? 酷睿? Ultra <b class='flag-5'>處理器</b>面向多行業(yè)<b class='flag-5'>加速</b><b class='flag-5'>AI</b>產(chǎn)業(yè)升級

    ARM處理器工作模式和特點

    ARM處理器具有多種工作模式,這些模式根據(jù)處理器執(zhí)行的任務(wù)和當前的狀態(tài)進行劃分。常見的ARM處理器
    的頭像 發(fā)表于 09-10 11:22 ?1933次閱讀

    ARM處理器和CISC處理器的區(qū)別

    ARM處理器和CISC(復雜指令集計算機)處理器在多個方面存在顯著的區(qū)別。這些區(qū)別主要體現(xiàn)在架構(gòu)原理、性能與功耗、設(shè)計目標、應(yīng)用領(lǐng)域以及市場生態(tài)等方面。
    的頭像 發(fā)表于 09-10 11:10 ?783次閱讀

    ARM處理器的結(jié)構(gòu)和特點

    ARM處理器,全稱Advanced RISC Machines,是一種基于精簡指令集(RISC)架構(gòu)的微處理器。其結(jié)構(gòu)和特點在嵌入式系統(tǒng)、移動設(shè)備、物聯(lián)網(wǎng)等多個領(lǐng)域具有顯著優(yōu)勢。以下將詳細闡述
    的頭像 發(fā)表于 09-10 11:09 ?2752次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速
    的頭像 發(fā)表于 07-24 11:38 ?1505次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈
    的頭像 發(fā)表于 05-27 11:50 ?734次閱讀
    英特爾<b class='flag-5'>助力</b>京東云用CPU<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應(yīng)鏈