2011年ARM公司的年度技術(shù)會議TechCon發(fā)布了全新的ARMv8架構(gòu)[1],同一年,在以色列,Nafea Bshara和Bilik Hrvoye從他們的前老板獲得2000萬美元的投資,創(chuàng)建了Annapurna Labs。四年之后的2015年,亞馬遜用35億美元收購了這家公司。Annapurna Labs從此成為亞馬遜的一個(gè)部門,這個(gè)部門相繼設(shè)計(jì)了3代基于ARMv8A的處理器——也就是Graviton系列。
話不多說,先上參數(shù):
數(shù)據(jù)整理:健哥。
原始地址:https://fvot4kwt4n.feishu.cn/sheets/shtcn69s9nbcvYxX0bAnDgxiAUb
Graviton3們,等等,這里為什么用們?因?yàn)镚raviton3這顆“芯片”(Chip)里面是由7顆芯片(die)組成的。雖然沒有召喚出神龍,Graviton3的引力吸引到了4個(gè)DDR控制器die(每個(gè)die又有兩個(gè)DDR5通道)和兩個(gè)PCIe5.0控制器die。
把多個(gè)die封裝到一個(gè)芯片中的技術(shù)稱為chiplet技術(shù),這樣的好處是,如果將來亞馬遜有了更快的CPU,而周圍的DDR和PCIe控制器不變,則不需要重新設(shè)計(jì)制造DDR和PCIe控制器芯片,可以把新的CPU和已有的控制器封裝到一起。這樣,系統(tǒng)設(shè)計(jì)可以更加靈活。前面表格的華為鯤鵬920,也采用了這項(xiàng)技術(shù)。
芯片整體性能方面,官方的說法是每個(gè)核心的性能至少快了25%。下面的SPEC CPU 2017測試也可以說明這一點(diǎn)。圖中的藍(lán)色是Graviton2,綠色是Graviton3。SPEC CPU是業(yè)內(nèi)通行的測試CPU性能的benchmark,包括整數(shù)測試,浮點(diǎn)測試等等,大多數(shù)的用例都取自最終用戶的應(yīng)用,例如perl解釋器,視頻壓縮,3D渲染等等[3]。
來源:AWS re:invent 2021
Nginx的負(fù)載均衡測試?yán)锩?,Graviton3比前一代好了一倍。
來源:AWS re:invent 2021
對于Nodejs,則提高了40%
來源:AWS re:invent 2021
視頻編碼提高了50%
來源:AWS re:invent 2021
機(jī)器學(xué)習(xí)提高了幾乎150%
來源:AWS re:invent 2021
由于亞馬遜做了軟硬件垂直優(yōu)化,不光是芯片本身的迭代,整個(gè)服務(wù)器的結(jié)構(gòu)也有改進(jìn),這次一個(gè)主板上(下圖右側(cè))支持三顆Graviton3芯片。
來源:AWS re:invent 2021
最后,讓我們“打開”芯片,看看里面的CPU。Graviton3使用了ARM Neoverse V1。V1主要是支持ARMv8.4的特性(上次說的蘋果M2支持到ARMv8.5特性),包括MPAM,SVE,嵌套虛擬化等。
來源:https://community.arm.com/arm-community-blogs/b/architectures-and-processors-blog/posts/neoverse-v1-platform-a-new-performance-tier-for-arm
ARMv8.4的MPAM是內(nèi)存的分區(qū)和監(jiān)控功能,通過Partition ID對cache的容量和內(nèi)存帶寬進(jìn)行劃分。SVE是ARM在NEON的下一代SIMD(單指令多數(shù)據(jù))指令集,關(guān)于SVE指令,2020年的超級計(jì)算機(jī)排行榜的第一名的Fugaku,就是基于ARM架構(gòu)并使用了SVE指令集。[4]
ARMv8.4還支持了安全世界的虛擬化(Secure EL2),平時(shí)咱們用的Linux/Android都運(yùn)行在Normal World(非安全世界,和安全世界相對)。安全世界運(yùn)行需要更高安全性的能力,例如手機(jī)的指紋識別,版權(quán)視頻播放等等。安全世界的虛擬化就是允許安全世界運(yùn)行多個(gè)安全操作系統(tǒng)。
來源:https://en.wikipedia.org/wiki/Bfloat16_floating-point_format
ARMv8.6的Bfloat16不僅支持了Bfloat16浮點(diǎn)類型,還支持了該類型的點(diǎn)積和矩陣運(yùn)算,以及從單精度浮點(diǎn)(32位)轉(zhuǎn)換到Bfloat16的命令。Bfloat16格式是由Google Brain團(tuán)隊(duì)開發(fā)的格式,如上圖,指數(shù)有8位,小數(shù)有7位。該格式很適合機(jī)器學(xué)習(xí)使用。
來源:AWS re:invent 2021
Graviton3的CPU性能如何呢?有大神做了詳細(xì)的測試[5],健哥選了其中的時(shí)延測試。下圖的Amphere Altra和Graviton2一樣都采用了Neoverse N1,下圖是二者和Graviton3的memory時(shí)延對比,可以看出Graviton3的L3 cache性能(下圖虛線,第三個(gè)臺階)明顯比另外兩個(gè)處理器好。但是由于DDR5本身的延遲比DDR4大一些,再加上DDR5在另外的die上面,所以Graviton3的主內(nèi)存時(shí)延比另外兩個(gè)稍稍大一些(下圖第四個(gè)臺階,圖片的右上角)。
Graviton3在亞馬遜云服務(wù)上已經(jīng)上線,一根豪華冰棍的錢(每小時(shí)15.5RMB)就能愉快的玩耍64個(gè)vCPU的虛擬機(jī)1小時(shí),相比之下,1vCPU2G內(nèi)存的虛擬機(jī)只需要每小時(shí)兩毛四。64個(gè)CPU意味著單個(gè)Graviton3的芯片完全被你所用,系統(tǒng)cache和內(nèi)存帶寬都是你一個(gè)人的。
對ARM架構(gòu)和調(diào)測調(diào)優(yōu)感興趣的小伙伴可以進(jìn)群咨詢了解健哥的課程
審核編輯 :李倩
-
處理器
+關(guān)注
關(guān)注
68文章
19890瀏覽量
235118 -
芯片
+關(guān)注
關(guān)注
459文章
52494瀏覽量
440660 -
ARM
+關(guān)注
關(guān)注
134文章
9351瀏覽量
377420
原文標(biāo)題:從外到內(nèi)揭開亞馬遜的自研ARM芯片:Graviton3
文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
高性能處理器LCP037A系列產(chǎn)品介紹


Arm發(fā)布基于Armv9架構(gòu)的Cortex-A320處理器
在AWS Graviton4處理器上運(yùn)行大語言模型的性能評估

海光處理器有哪些型號
DaVinci系列處理器TPS659105用戶指南

強(qiáng)悍的AWS Graviton4處理器及其背后的Arm Neoverse
Arm與AWS合作深化,AWS Graviton4展現(xiàn)顯著進(jìn)展
Cortex-A55 處理器到底什么來頭?創(chuàng)龍教儀一文帶您了解
全志T536系列處理器特性概述 集成RISC-V E907協(xié)處理器

AM3517/AM3505高性能ARM Cortex-A8微處理器數(shù)據(jù)表


AMD的銳龍9000系列處理器將延后至8月發(fā)布

評論