一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在AWS Graviton4處理器上運(yùn)行大語(yǔ)言模型的性能評(píng)估

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-02-24 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部 AI 解決方案架構(gòu)師 Na Li;Arm 基礎(chǔ)設(shè)施事業(yè)部首席軟件工程師 Masoud Koleini

亞馬遜科技 (AWS) 新一代基于 Arm 架構(gòu)的定制 CPU —— AWS Graviton4 處理器已于 2024 年 7 月正式上線。這款先進(jìn)的處理器基于 64 位 Arm 指令集架構(gòu)的 Arm Neoverse V2 核心打造,使其能為各種云應(yīng)用提供高效且性能強(qiáng)大的解決方案[1]。

在本文中,我們將評(píng)估在基于 Graviton4 處理器的 AWS EC2 實(shí)例(C8g 實(shí)例類型)上運(yùn)行語(yǔ)言模型的推理性能。通過(guò)利用針對(duì) Arm 內(nèi)核優(yōu)化的 Q_4_0_4_8 量化技術(shù),在參數(shù)范圍從 38 億到 700 億不等的模型[2-5]上使用 llama.cpp[6] 進(jìn)行基準(zhǔn)測(cè)試。此外,我們還比較了基于 Graviton4 的實(shí)例與采用上一代 Graviton3 處理器的 EC2 實(shí)例上運(yùn)行模型的性能。

Llama 3 70B 在 AWS Graviton4 上的執(zhí)行速度快于人類可讀性水平

與 Graviton3 相比,AWS Graviton4 處理器提供了執(zhí)行更大參數(shù)規(guī)模語(yǔ)言模型的潛力。為了評(píng)估 Graviton4 處理器在運(yùn)行不同參數(shù)大小的大語(yǔ)言模型 (LLM) 時(shí)的性能,我們?cè)?Graviton4 C8g.16xlarge 實(shí)例上部署了三個(gè)模型,分別為 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B,并測(cè)量了其推理性能。主要性能指標(biāo)是生成下個(gè)詞元 (next-token) 的延遲,如圖表 1 所示。盡管 Llama 3 70B 模型相對(duì)于其他較小的模型表現(xiàn)出更長(zhǎng)的延遲,但在批次大小為 1 的情況下,它仍然能達(dá)到每秒生成 5 至 10 個(gè)詞元的人類可讀性水平,并近乎滿足生成下個(gè)詞元延遲 100 毫秒的目標(biāo)服務(wù)等級(jí)協(xié)議 (SLA)。

907a8826-f005-11ef-9310-92fbcf53809c.jpg

圖表 1:在 C8g.16xlarge 實(shí)例上運(yùn)行 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B 模型時(shí),下個(gè)詞元生成時(shí)間的性能表現(xiàn),其中批次大小模擬了一個(gè)或多個(gè)用戶同時(shí)調(diào)用模型的場(chǎng)景

根據(jù) Meta[7] 的說(shuō)法,盡管與 Llama 3 8B 模型相比,Llama 3 70B 模型生成下個(gè)詞元的延遲更長(zhǎng)(圖表 1),但該模型在需要高級(jí)邏輯推理的任務(wù)中表現(xiàn)相當(dāng)卓越(見(jiàn)圖 1 中的示例)。對(duì)于看重低延遲響應(yīng)時(shí)間且無(wú)需復(fù)雜邏輯推理的應(yīng)用而言,Llama 3 8B 模型是合適之選。相反,如果應(yīng)用在延遲性方面的要求更為寬松,但需要高級(jí)推理或創(chuàng)造性能力,則 Llama 3 70B 模型是合適的選擇。

909d1d6e-f005-11ef-9310-92fbcf53809c.jpg

圖 1:在第一行顯示的示例中,Llama 3 8B 和 Llama 3 70B 模型都為基于知識(shí)的問(wèn)題提供了很好的回答;而在第二行的示例中,只有 Llama 3 70B 回答正確,因?yàn)閱?wèn)題的解答需要進(jìn)行邏輯推理

使用 Graviton3 和 Graviton4 處理器

支持不同的語(yǔ)言模型

為了評(píng)估 AWS Graviton 處理器在運(yùn)行 LLM 時(shí)的性能,我們?cè)?Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 實(shí)例上部署了參數(shù)范圍從 38 億到 700 億不等的模型,并評(píng)測(cè)了它們的推理能力。

如表 1 所示,基于 Graviton3 和 Graviton4 的實(shí)例均能支持多達(dá) 270 億參數(shù)的模型,包括 Phi-3-mini 3.8B、Llama 3 8B 和 Gemma 2 27B。然而,在被評(píng)估的模型中,Graviton4 能夠處理參數(shù)量最大的 Llama 3 70B 模型。

90c4fb86-f005-11ef-9310-92fbcf53809c.jpg

表 1:Graviton3 和 Graviton4 處理器支持多種語(yǔ)言模型

從 Graviton3 到Graviton4 處理器的性能提升

我們?cè)?Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 的實(shí)例上部署了 Llama 3 8B 模型,以評(píng)估性能方面的提升。性能是基于提示詞編碼進(jìn)行評(píng)估的,它衡量了語(yǔ)言模型處理和解釋用戶輸入的速度,如圖表 2 所示。在不同的用戶批次大小測(cè)試中,Graviton4 的提示詞編碼性能相較 Graviton3 提升了 14% 至 26%(見(jiàn)圖表 2 右軸)。

90e39578-f005-11ef-9310-92fbcf53809c.jpg

圖表 2:從 Graviton3 (C7g.16xlarge) 到 Graviton4 (C8g.16xlarge) 運(yùn)行 Llama 3 8B 模型的提示詞編碼所實(shí)現(xiàn)的性能提升

如圖表 3 所示,詞元生成(評(píng)估語(yǔ)言模型在運(yùn)行 Llama 3 8B 時(shí)響應(yīng)和生成文本的速度)也展示了顯著的性能提升。性能曲線顯示,在不同的用戶批次大小測(cè)試中,性能都有明顯增長(zhǎng),Graviton4 在較小的用戶批次上顯示出更顯著的效率提升,實(shí)現(xiàn)了 5% 至 50% 的增長(zhǎng)(參見(jiàn)圖表 3 右軸)。

90edf7a2-f005-11ef-9310-92fbcf53809c.jpg

圖表 3:從 Graviton 3 (C7g.16xlarge) 到 Graviton 4 (C8g.16xlarge) 運(yùn)行 Llama 3 8B 模型實(shí)現(xiàn)的詞元生成性能提升

結(jié)論

在 AWS Graviton4 C8g.x16large 實(shí)例上運(yùn)行 Llama 3 70B,每秒可生成 10 個(gè)詞元,該速度超過(guò)了人類可讀性水平。與 Graviton3 相比,這種性能增強(qiáng)使 Graviton4 能夠處理包括需要高級(jí)推理等更廣泛的生成式 AI 任務(wù)。在運(yùn)行 Llama 3 8B 模型時(shí),Graviton4 的提示詞編碼性能較 Graviton3 提高了 14% 至 26%,詞元生成性能提高了 5% 至 50%。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11080

    瀏覽量

    217108
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2696

    瀏覽量

    84681
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    437

    瀏覽量

    25284

原文標(biāo)題:在 AWS Graviton4 CPU 上運(yùn)行 Llama 3 70B 模型,執(zhí)行速度超過(guò)人類可讀性水平

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    強(qiáng)悍的AWS Graviton4處理器及其背后的Arm Neoverse

    ,Graviton4相較于上一代產(chǎn)品帶來(lái)了巨大的性能提升。同時(shí),為Graviton4賦能的Arm Neoverse也跟著受到了更多的關(guān)注。 ? 強(qiáng)悍的Graviton4
    的頭像 發(fā)表于 12-19 00:04 ?2405次閱讀

    基于ARM Cortex-M4處理器與板載NAND閃存的ATSAM4E-EK評(píng)估套件

    ATSAM4E-EK,SAM4E-EK評(píng)估板基于ARM Cortex-M4處理器與板載NAND閃存和一系列流行外設(shè)的集成。它旨在為各種應(yīng)用提
    發(fā)表于 04-22 10:16

    Arm Neoverse V1的AWS Graviton3深度學(xué)習(xí)推理工作負(fù)載方面的作用

    :具有 AWS Graviton3 處理器的 c7g.4xlarge 實(shí)例集群和具有 AWS Gravi
    發(fā)表于 08-31 15:03

    AWS云中使用Arm處理器設(shè)計(jì)Arm處理器

    1、AWS云中使用Arm處理器設(shè)計(jì)Arm處理器  Amazon Web Services (AWS) 宣布推出基于 Arm 的全新
    發(fā)表于 09-02 15:55

    Sitara AM62處理器的資料分享

    和小型人機(jī)界面 (HMI) 應(yīng)用。TI 將于2022年6月21日至23日德國(guó)紐倫堡的Embedded World展會(huì)(215號(hào)展位)展出全新的AM62處理器,并演示適用于邊緣AI和電動(dòng)汽車充電HMI
    發(fā)表于 11-03 06:11

    Cortex?-M4處理器介紹

    本實(shí)驗(yàn)的目的是向您介紹意法半導(dǎo)體Cortex?-M4處理器,該處理器使用ARM?KEIL?MDK工具包,具有集成開(kāi)發(fā)環(huán)境μ?。 我們將使用串行線查看(SWV)和板載ST-Link/V
    發(fā)表于 09-04 07:47

    AMD Athlon 4處理器

    AMD Athlon 4處理器 2001年5月,AMD發(fā)布了基于palomino核心的新型移動(dòng)Athlon 4處理器,包括Mobile Athlon
    發(fā)表于 01-22 10:52 ?922次閱讀

    A14處理器性能已超酷睿i9處理器,意味著ARM超越Intel嗎?

    蘋果最新發(fā)布的A14處理器性能比去年的A13提升了16%,而去年的A13處理器已與Intel的頂級(jí)PC處理器酷睿i9-10920X相當(dāng),如此一來(lái)A14
    的頭像 發(fā)表于 10-21 10:48 ?8137次閱讀
    A14<b class='flag-5'>處理器</b><b class='flag-5'>性能</b>已超酷睿i9<b class='flag-5'>處理器</b>,意味著ARM超越Intel嗎?

    A14處理器性能超過(guò)酷睿i9處理器,ARM勝出一籌

    蘋果最新發(fā)布的A14處理器性能比去年的A13提升了16%,而去年的A13處理器已與Intel的頂級(jí)PC處理器酷睿i9-10920X相當(dāng),如此一來(lái)A14
    發(fā)表于 10-21 15:07 ?3163次閱讀
    A14<b class='flag-5'>處理器</b>的<b class='flag-5'>性能</b>超過(guò)酷睿i9<b class='flag-5'>處理器</b>,ARM勝出一籌

    AWS基于Arm架構(gòu)的Graviton 2處理器落地中國(guó)

    Graviton 2處理器提供支持的Amazon Elastic Compute Cloud(Amazon EC2)M6g、C6g和R6g實(shí)例已在由光環(huán)新網(wǎng)運(yùn)營(yíng)的AWS中國(guó)(北京)地區(qū)和由西云數(shù)據(jù)運(yùn)營(yíng)
    的頭像 發(fā)表于 02-01 11:46 ?3299次閱讀

    STM32處理器的示例

    STM32處理器的示例
    發(fā)表于 03-23 10:09 ?15次下載
    STM32<b class='flag-5'>處理器</b><b class='flag-5'>上</b>的示例

    亞馬遜推出Graviton4處理器及AI量子芯片Trainium2

    據(jù)介紹, Graviton4比前代性能提升 30%,內(nèi)核數(shù)增加 50%,內(nèi)存帶寬增加 75%,可以幫助 Amazon EC2 云服務(wù)的各類工作負(fù)載提供最佳性價(jià)比和能效。這款處理器還對(duì)所有高速物理硬件接口加密來(lái)提高安全性。
    的頭像 發(fā)表于 11-30 17:43 ?1301次閱讀

    亞馬遜網(wǎng)絡(luò)服務(wù)即將推出第四代Graviton處理器

    7月10日,雅虎財(cái)經(jīng)獨(dú)家報(bào)道了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)即將推出的重大技術(shù)進(jìn)展——其第四代Graviton處理器,即Graviton4芯片。這一重要信息由
    的頭像 發(fā)表于 07-10 15:51 ?917次閱讀

    亞馬遜云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g實(shí)例正式可用

    北京2024年7月15日?/美通社/ -- 亞馬遜云科技宣布基于自研芯片Amazon Graviton4處理器的Amazon Elastic Compute Cloud (Amazon EC2
    的頭像 發(fā)表于 07-15 16:09 ?610次閱讀

    Arm與AWS合作深化,AWS Graviton4展現(xiàn)顯著進(jìn)展

    :Invent 2024大會(huì)上,AWS進(jìn)一步展示了其基于Arm架構(gòu)的AWS Graviton4處理器的顯著進(jìn)展。AWS
    的頭像 發(fā)表于 12-18 14:17 ?549次閱讀