電子發(fā)燒友網(wǎng)報道(文/黃晶晶)生成式人工智能(GenAI)經(jīng)歷2023年的興起,在2024年迎來新的高度,近期文生視頻又火爆全網(wǎng)。GenAI將滲透到教育、就業(yè)、制造、醫(yī)療和交通等各個領(lǐng)域,創(chuàng)新應(yīng)用不斷涌現(xiàn)。這其中除了GPU對AI至關(guān)重要之外,不斷優(yōu)化的CPU性能同樣必不可少。在AI時代,以Arm為代表的半導體設(shè)計及軟件平臺公司為這些創(chuàng)新奠定基石。
Arm高級副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理Mohamed Awad分析,計算正越來越專用化,通用CPU不再能滿足需求。以基礎(chǔ)設(shè)施領(lǐng)域來看,計算轉(zhuǎn)型持續(xù)朝向更復雜的倉庫級計算。與此同時,許多頭部企業(yè)正在打造定制芯片,并希望對支持云計算關(guān)鍵工作負載的計算進行優(yōu)化。
近日,Arm 宣布推出兩款全新 Arm Neoverse 計算子系統(tǒng) (CSS) —— Neoverse CSS N3 和 Neoverse CSS V3,專注于釋放芯粒等新技術(shù)的潛力,并更大限度地優(yōu)化實際工作負載的 TCO,這對于包括AI、數(shù)據(jù)庫、網(wǎng)絡(luò)等在內(nèi)的整個生態(tài)系統(tǒng)至關(guān)重要。
CSS N3 和 CSS V3均基于全新的第三代 Neoverse IP 構(gòu)建,N 系列聚焦能效,而V系列平臺針對性能優(yōu)先,這也是V系列首次引入CSS。
Neoverse CSS N3和CSS V3性能顯著提升
據(jù)Arm 基礎(chǔ)設(shè)施事業(yè)部產(chǎn)品解決方案副總裁 Dermot O’Driscoll介紹,CSS N3在進行了調(diào)優(yōu)后,提供滿足基礎(chǔ)設(shè)施性能要求的高效計算。CSS N3與CSS N2 相比,其每核心的每瓦性能提升20%。CSS N3 的首個實例可提供 32 核,熱設(shè)計功耗 (TDP) 低至 40W。其可擴展性非常強,可覆蓋電信、網(wǎng)絡(luò)和 DPU 等一系列應(yīng)用。同時還考慮到橫向擴展云配置。CSS N3 基于新的 Neoverse N3 IP 平臺打造,為 N 系列產(chǎn)品引入了 Armv9.2 功能,能為每個核心提供 2MB 的專用 L2 緩存,并支持最新的 PCIe 和 CXL I/O 標準以及 UCIe 芯粒標準。
CSS V3 基于新的Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。與CSS N2 產(chǎn)品相比,CSS V3的單芯片性能提高了50%。CSS V3 在單芯片上最多可擴展至 128 核,并支持最新的高速內(nèi)存和 I/O 標準。V3 為 Arm 機密計算架構(gòu) (CCA) 提供硬件支持。V3也可提供業(yè)界領(lǐng)先的專用 L2 緩存大小,顯著改善性能表現(xiàn)。
以下(見下圖)是基于 Neoverse N 系列和 V 系列打造的芯片在一些關(guān)鍵工作負載下的性能數(shù)據(jù)。Dermot O’Driscoll表示,這種代際產(chǎn)品之間的性能提升只有通過 Arm 才能實現(xiàn),因為 Arm 能讓客戶掌握創(chuàng)新的步伐,而不受制于技術(shù)供應(yīng)商。
與AI的耦合,面向AI基礎(chǔ)設(shè)施
新的CPU核心帶來全方位的良好提升,包括從視頻處理到 SQL 數(shù)據(jù)庫的性能均有所躍進。N 系列在壓縮方面取得性能優(yōu)勢,可降低云服務(wù)運營商的成本,并最終降低云服務(wù)客戶的成本。V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項關(guān)鍵功能。在這里,Dermot O’Driscoll重點解析了通過分析關(guān)鍵工作負載核心的任務(wù)算法,對微架構(gòu)進行調(diào)整從而獲得的性能效果。
AI數(shù)據(jù)分析工作負載就是最好的例證。XGBoost 是一種強大且廣泛使用的機器學習 (ML) 算法,可以幫助人們理解數(shù)據(jù)并做出更明智的決策。例如為人們推薦下一個媒體內(nèi)容,預測高峰時段的打車費用,以及等提供相關(guān)的機票優(yōu)惠等等。
在這個用例中(見下圖),通過改進分支預測,更好地管理最后一級緩存和相關(guān)內(nèi)存帶寬,以及大幅增加 L2 緩存。其結(jié)果令人驚嘆,N3 的性能提升高達 196%。
目前行業(yè)重點放在訓練大語言模型(LLM)上,但更多業(yè)務(wù)落地在AI推理。分析師認為,已部署的 AI 服務(wù)器中有高達 80% 專用于推理。也就是說找到合適的模型和模型配置,并加以訓練,然后將其部署到更具成本效益的計算基礎(chǔ)設(shè)施上。
Dermot O’Driscoll表示,這一轉(zhuǎn)變意味著吞吐量是考量因素之一,而在基于 Arm 架構(gòu)的芯片上,Token 生成吞吐量表現(xiàn)相當優(yōu)異。其他考量因素還包括靈活性、易于部署,可支持各種軟件框架,具備低成本和高能效等優(yōu)勢。CPU 推理將是生成式AI計算應(yīng)用的關(guān)鍵組成。下圖為Arm在CPU推理的 LLM 優(yōu)化方面的初步數(shù)據(jù)??梢钥吹?,這些工作負載已從 ML 專用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及微架構(gòu)優(yōu)化中受益。
當然,除了CPU的AI推理,AI加速器也備受關(guān)注。據(jù)最新統(tǒng)計,打造 AI 加速器的公司已接近 80 家。以NVIDIA來看,NVIDIA不僅利用其領(lǐng)先的 Hopper GPU,同時也使用了基于 Neoverse V2 平臺的緊耦合計算芯粒Grace。Dermot O’Driscoll談到,NVIDIA Grace Hopper 的一大關(guān)鍵創(chuàng)新在于內(nèi)存容量和共享內(nèi)存模式。這種緊耦合的 CPU 加上加速器配置,對大參數(shù) LLM 非常有益,對檢索-增強-生成 (RAG) 等新興方法也很有幫助。Neoverse CSS 是專為幫助客戶在基于Arm領(lǐng)先的 CPU 平臺上,快速打造通用計算芯粒而推出的產(chǎn)品。它能提供客戶所需的所有接口,以便選擇耦合自身的加速器。
通用芯?;ミB技術(shù) (UCIe) 是一項行業(yè)標準,旨在解決芯粒物理層兼容性的問題。Arm和生態(tài)系統(tǒng)合作伙伴正積極參與這個項目。協(xié)議層存在多種標準,包括 PCIe、CXL 和 AMBA。Arm 深入?yún)⑴c到 AMBA CHI,引入芯片到芯片 (C2C) 的擴展功能,但系統(tǒng)架構(gòu)層面仍面臨難題。例如,怎樣在設(shè)計時對芯粒進行邏輯分區(qū),如何設(shè)置直接內(nèi)存訪問 (DMA) 和中斷、電源和安全等管理功能,要建立可互操作的生態(tài)系統(tǒng),就需要在生態(tài)系統(tǒng)層面一致地解決這些問題。
Arm近期發(fā)布了芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA) ,正與 20 多家合作伙伴一同對此進行審核,齊心協(xié)力推動整個 Arm 生態(tài)系統(tǒng)釋放芯粒技術(shù)的潛力。
Arm全面設(shè)計生態(tài)項目不斷壯大
去年十月,Arm將廣泛的半導體產(chǎn)業(yè)匯聚一起,借由 Arm 全面設(shè)計,圍繞 Arm 計算子系統(tǒng)開展創(chuàng)新設(shè)計。僅僅推出短短四個月內(nèi),Arm 全面設(shè)計已經(jīng)有 20 多家成員加入。其中包括新的 EDA 和配套 IP 提供商,以及來自包括韓國、中國臺灣、中國大陸和印度等戰(zhàn)略市場的芯片設(shè)計合作伙伴。Arm基礎(chǔ)設(shè)施事業(yè)部營銷副總裁 Eddie Ramirez表示,Arm正在與三家主要代工廠合作,以確保 CSS 產(chǎn)品能在其先進工藝節(jié)點上進行優(yōu)化。定制芯片離不開可靠供應(yīng)鏈的支持,唯有 Arm 可提供多樣的技術(shù)和選擇。
去年,Socionext 成為首家宣布計劃在臺積公司領(lǐng)先的2納米工藝上開發(fā)基于CSS芯粒的合作伙伴。這款配置 32 核的芯??膳c其他芯粒結(jié)合使用,提供可擴展且經(jīng)濟高效的計算解決方案。該設(shè)計將基于新推出的Neoverse CSS V3 來打造。
智原科技也在構(gòu)建基于芯粒的服務(wù)器芯片,該芯片將搭載 64 顆 N 系列核心,并基于英特爾代工服務(wù)的 18A 工藝節(jié)點進行生產(chǎn)制造。
此外,ADTechnology 將提供高性價比的16 核 CSS N 系列邊緣服務(wù)器平臺,他們將與三星代工廠合作,為邊緣計算釋放更強大的算力。
Arm 全面設(shè)計合作伙伴正在打造多款基于 CSS 的 SoC,以賦能新一代 AI 服務(wù)器,并借助各大代工廠的前沿工藝完成這項任務(wù)。
Arm軟件生態(tài)系統(tǒng)優(yōu)勢凸顯
Arm軟件生態(tài)系統(tǒng)也在迅速擴展,幫助開發(fā)者簡化部署流程,提高采用 Arm技術(shù)的硬件的生產(chǎn)效率。Eddie Ramirez介紹說,去年,80%的云原生計算基金會 (CNCF) 畢業(yè)項目原生支持 Arm 架構(gòu)。CNCF是開源云原生軟件領(lǐng)域的中堅力量,也是當今許多現(xiàn)代軟件和云服務(wù)的基礎(chǔ)。Arm 與云服務(wù)提供商一同提供可免費訪問的基于 Neoverse 平臺的云實例,以簡化軟件開發(fā)者的資源訪問路徑。例如,OCI 最近宣布計劃向 CNFC 捐贈 300 萬美元的計算積分,旨在助力實現(xiàn)所有項目支持 Arm 架構(gòu)。
再來看Arm Neoverse 軟件生態(tài)系統(tǒng),它正在不斷擴展以滿足基礎(chǔ)設(shè)施軟件應(yīng)用領(lǐng)域的所有開發(fā)者的需求。從主流編程語言、軟件工具、所有主要 Linux 發(fā)行版,到支持網(wǎng)絡(luò)、存儲和大數(shù)據(jù)以及 AI 應(yīng)用的項目,這包括軟件棧各個級別的知名開源企業(yè)。此外還包括大量獨立軟件供應(yīng)商 (ISV),他們可提供各類應(yīng)用和 SaaS 產(chǎn)品。這一生態(tài)系統(tǒng)正成為云服務(wù)提供商部署其云服務(wù)的上佳之選,以便能夠充分利用 Arm 提供的 TCO 優(yōu)勢。
此外,主要的企業(yè)軟件 ISV 承諾將 Arm 平臺用于其核心產(chǎn)品組合。Oracle 發(fā)布的 Oracle Database 19c 支持基于 Arm 架構(gòu)的服務(wù)器,可用于云端和本地部署。這種向傳統(tǒng)企業(yè)軟件的轉(zhuǎn)變,以及部分大型 ISV 的投資,是 Arm 生態(tài)系統(tǒng)不斷擴展的又一例證。
Eddie Ramirez表示,超過 15 年在 Neoverse 軟件生態(tài)系統(tǒng)的投資,讓Arm實現(xiàn)了強大的軟件支持水平,助力超過五萬家公司在支持 Arm 的基礎(chǔ)設(shè)施上部署關(guān)鍵工作負載。這也是 Arm 及其合作伙伴生態(tài)系統(tǒng)降低部署成本,并提高正在部署的各類定制芯片可用性的另一種方式。
小結(jié):
過去幾年,Arm 能夠在基礎(chǔ)設(shè)施領(lǐng)域取得不小的進展,Mohamed Awad認為主要是卓越性能、靈活性以及生態(tài)系統(tǒng)三方面助力。
如今,AI 正成為包括網(wǎng)絡(luò)、安全和存儲等諸多領(lǐng)域不可或缺的一部分,它可應(yīng)用到包括小型終端到交換機、路由器和基站等各種設(shè)備在內(nèi)的整個基礎(chǔ)設(shè)施中。Arm 在軟件、 IP 和芯片生態(tài)系統(tǒng)中提供出色性能和靈活性,從而降低配置的總成本并加速產(chǎn)品上市。Arm 將持續(xù)發(fā)揮關(guān)鍵作用,協(xié)助科技先行者解決由AI轉(zhuǎn)型帶來的不斷增長的數(shù)據(jù)和計算需求。
-
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274203
發(fā)布評論請先 登錄
相關(guān)推薦
解讀基于Arm Neoverse V2平臺的Google Axion處理器
Arm Neoverse CMN S3 推動Compute Express Link (CXL) 存儲創(chuàng)新

基于MediaTek MT9679芯片的堅果投影N3 Pro介紹
虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發(fā)布
Arm Neoverse如何加速實現(xiàn)AI數(shù)據(jù)中心
基于Arm Neoverse的微軟全新Azure虛擬機上線
Arm全面設(shè)計助力Arm架構(gòu)生態(tài)發(fā)展
Arm全面設(shè)計生態(tài)迅速擴張,推出AI CPU小芯片平臺
基于高通主板的ARM架構(gòu)服務(wù)器
基于Arm架構(gòu)的Azure虛擬機助力云原生應(yīng)用開發(fā)
芯品# 高性能計算芯片
MediaTek加入Arm全面設(shè)計生態(tài),加速AI應(yīng)用領(lǐng)域創(chuàng)新
聯(lián)發(fā)科加入Arm全面設(shè)計生態(tài)項目
聯(lián)發(fā)科加入Arm,加速AI應(yīng)用性能與效率
MediaTek加入Arm全面設(shè)計生態(tài)項目 塑造AI計算的未來

評論