英偉達宣布 GH200 Grace Hopper 超級芯片投產(chǎn),生成式 AI 引擎 NVIDIA DGX GH200 現(xiàn)已投入量產(chǎn)。
GH200 使用 Nvidia 的 NVLink-C2C 互連技術,將 Nvidia 基于 ARM 的 Grace CPU和 Hopper GPU 架構融合到一個芯片中。NVIDIA DGX GH200 將 256 個 NVIDIA Grace Hopper超級芯片完全連接到單個 GPU 中,支持萬億參數(shù) AI 大模型訓練,能夠處理大規(guī)模推薦系統(tǒng)、生成式人工智能和圖形分析,并為巨型人工智能模型提供線性可擴展性。
GH200 速度和功耗指標都有顯著提升。這款新的芯片總帶寬達每秒 900GB,比當今最先進的加速計算系統(tǒng)中采用的標準 PCIe Gen5 通道高出 7 倍。Nvidia 表示,Superchip 的功耗也降低了 5倍。
AMD 推出數(shù)據(jù)中心 APU Instinct MI300。AMD 推出數(shù)據(jù)中心APU(加速處理器)Instinct MI300,其旨在幫助數(shù)據(jù)中心處理人工智能相關數(shù)據(jù)流量,并在這一快速增長的市場上挑戰(zhàn)英偉達的壟斷地位。Instinct MI300 系列將包括一個 GPU(圖形處理器)MI300X,可以加速 ChatGPT 等聊天機器人所使用的生成式 AI 技術的處理。
先進算力國產(chǎn)替代在行業(yè)變革中有望迎來機遇。半導體國產(chǎn)化勢在必行,而算力芯片又是重中之重。AI 算力、低功耗等對服務器算力芯片提出新的要求,市場格局近幾個季度變化較多,英偉達GH200 有望加速全球 AI 服務器算力芯片市場變革,中國芯片企業(yè)在面臨挑戰(zhàn)的同時,也有望迎來發(fā)展機遇。
1、不同算力芯片的特點與區(qū)別
計算芯片包括 CPU、GPU、FPGA、ASIC 等,都用作計算分析。其中,CPU 是性能最綜合的計算芯片,AI 算法的執(zhí)行也運用 GPU、FPGA、ASIC 等芯片。
CPU 是綜合計算芯片,擅長邏輯控制和串行運算。計算機的運算器和控制器一起組成了 CPU,CPU 是整臺計算機的大腦,也是一個有多種功能的優(yōu)秀領導者。它的優(yōu)點在于調度、管理、協(xié)調能力強,計算能力則位于其次。CPU 有大量的緩存和復雜的邏輯控制單元,非常擅長邏輯控制、串行的運算,但因計算單元占 30%左右,不擅長復雜算法運算和處理并行重復的操作。
GPU相比CPU計算單元大大增加,擅長大量并行計算。而作為通用芯片的 GPU 相當于一個接受CPU 調度的“擁有大量計算能力”的員工,計算單元相比 CPU 大大增加。GPU 最初承擔圖像計算任務,能夠進行并行計算,因此 GPU 架構本身比較適合深度學習算法,通過對 GPU 的優(yōu)化,進一步滿足深度學習大量計算需求。其主要缺點在于功耗較高。
GPU 按照接入類型可以分為獨立 GPU 和集成 GPU。獨立 GPU 即獨立顯卡,需要插在主板的相應接口上,具備單獨的顯存,不占用系統(tǒng)內存,能夠提供更好的顯示效果和運行性能。全球知名供應商主要包括 AMD 和 NVIDIA 兩家。集成 GPU 即集成顯卡,是將圖形核心以單獨芯片的方式集成在主板上,并且動態(tài)共享部分系統(tǒng)內存作為顯存使用,能夠提供簡單的圖形處理能力,以及較為流暢的編碼應用。全球知名供應商主要包括英特爾和 AMD 兩家。
GPU 按照應用場景不同可分為 PC GPU、服務器 GPU 和移動 GPU。
1)集成 GPU 一般運用于PC 以輕辦公、文字編纂為主;獨立 GPU 則一般運用于 PC 以制作高清圖片、編輯視頻、渲染游戲等。
2)服務器 GPU 主要以獨立 GPU 為主。服務器 GPU 主要應用于服務器,可做專業(yè)可視化、計算加速、深度學習等應用。
3)移動 GPU 以集成 GPU 為主。隨著移動端向著輕薄化不斷發(fā)展,終端內部凈空間隨著多種功能模組的增加呈快速下降趨勢。此外,就目前的移動端視頻和圖片的處理要求而言,集成 GPU 的性能尚可滿足移動端的需要。
FPGA 又稱半定制化芯片,具有足夠的計算能力、較低的試錯成本和足夠的靈活性。FPGA 的計算速度快是源于它本質上是無指令、無需共享內存的體系結構,“無指令”即使用硬件描述語言編程,直接編譯為晶體管電路的組合,所以 FPGA 實際上直接用晶體管電路實現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯;“無需共享內存”是指對于保存狀態(tài)的需求,F(xiàn)PGA 中的寄存器和片上內存(BRAM)是屬于各自的控制邏輯的,無需不必要的仲裁和緩存。
因此,FPGA 運算速度足夠快,優(yōu)于GPU。同時,相比量產(chǎn)成本高昂的 ASIC 芯片,因為 FPGA 是一種半定制的硬件,通過編程可定義其中的單元配置和鏈接架構進行計算,因此在靈活性上優(yōu)于 ASIC,具備較低試錯成本。
ASIC 是全定制芯片,性能強但是前期開發(fā)久、成本高。是根據(jù)產(chǎn)品的需求進行特定設計和制造的集成電路,能夠在特定功能上進行強化,具有更高的處理速度和更低的能耗。缺點是成本高,且由于定制化,可復制性一般,因此只有用量足夠大時才能夠分攤前期投入,降低成本。
2、CPU 廣泛應用于服務器、工作站、個人計算機等
CPU 可以應用在服務器、工作站、個人計算機(臺式機、筆記本電腦)、移動終端和嵌入式設備等不同設備上,根據(jù)應用領域的不同,其架構、功能、性能、可靠性、能效比等技術指標也存在一定差異。
服務器處理器需長時間運行,數(shù)據(jù)處理能力最強、設計工藝最復雜、可靠性最高。服務器具有高速的數(shù)據(jù)處理能力、強大的 I/O 數(shù)據(jù)吞吐能力、良好的可擴展性,并需要長時間可靠運行,其CPU 芯片在性能、可靠性、可擴展性和可維護性等方面要求較為苛刻。因此,服務器處理器是數(shù)據(jù)處理能力最強、設計工藝最復雜、可靠性最高的處理器。服務器的應用領域包括實時分析、5G應用、人工智能、機器學習、金融、大數(shù)據(jù)和云計算等領域。
工作站主要為單用戶提供比個人計算機更強大的性能。工作站是一種高端微型計算機,主要為單用戶提供比個人計算機更強大的性能,尤其是在數(shù)據(jù)并行處理能力和圖形處理能力等方面。工作站的典型應用領域包括科學和工程計算、軟件開發(fā)、計算機輔助設計等。
個人計算機主要滿足個人需求,核心數(shù)量較少。個人計算機包括臺式機和筆記本電腦兩大類,主要用于滿足個人的工作、學習、娛樂需求,以及企業(yè)員工的辦公需求。個人計算機處理器核心數(shù)量較少,具有較少 I/O。
移動終端具有低功耗、輕量化等特點,關注對多媒體功能的增強。移動終端包括手機、筆記本、平板電腦、POS 機等。隨著集成電路技術的進步和移動網(wǎng)絡向寬帶化發(fā)展,移動終端正從簡單通話工具逐步轉變?yōu)榫C合信息處理平臺。移動終端處理器具有低功耗、輕量化等特點,關注對多媒體功能的增強,具有較少 I/O。
嵌入式設備對功耗、穩(wěn)定性、可擴展能力要求高。嵌入式設備需要具有高穩(wěn)定性和低功耗,其處理器對環(huán)境(如溫度、濕度、電磁場、振動等)的適應能力強,體積小,且集成度高,適用于工業(yè)控制、移動便攜設備、物聯(lián)網(wǎng)終端等場合。其中,大多數(shù)物聯(lián)網(wǎng)設備需要額外的 CPU 處理能力來支持可升級的額外功能。因此,針對特定的物聯(lián)網(wǎng)應用程序的 CPU 不僅必須支持安全特性,而且必須同時具有可擴展的性能,實現(xiàn)更高的時鐘頻率。物聯(lián)網(wǎng)應用處理器芯片具有面向高集成度、高抗干擾能力和低功耗的發(fā)展趨勢。
3、GPU 等 AI 芯片廣泛應用于高性能運算、深度學習等場景
AI 芯片主要指面向人工智能應用的芯片。大致包含三類:
1)通用、半定制化芯片:經(jīng)過軟硬件優(yōu)化可以高效支持 AI 應用的通用芯片,如 GPU,F(xiàn)PGA;
2)專門為特定的 AI 產(chǎn)品或者服務而設計的芯片:側重加速機器學習(尤其是神經(jīng)網(wǎng)絡、深度學習),如 ASIC;
3)神經(jīng)形態(tài)計算芯片:不采用經(jīng)典的馮·諾依曼架構,而是基于神經(jīng)形態(tài)架構設計,類似人腦,具備較高的集成度和能效比,以 IBM Truenorth 為代表。
國產(chǎn)算力芯片市占率低,具備廣闊拓展空間。算力芯片目前國產(chǎn)廠商份額極低。CPU 目前從市場占有率來說,Intel 依靠其強大的 X86 生態(tài)體系,在通用 CPU 市場占據(jù)領先地位,市場份額常年保持在 80%左右,AMD 近期追趕勢頭明顯,其他廠商整體市場份額不超過 1%。
2022 年,數(shù)據(jù)中心領域 Intel 市場占有率為 71%,較 21年下降 10pcts,AMD 在 22 年市占率快速提升 8pcts 至 20%,亞馬遜、Ampere 等新興玩家份額快速提升,給總計份額不足 5%的國產(chǎn)廠商發(fā)展帶來了借鑒意義。在獨立顯卡市場上,NVIDIA、AMD 和英特爾 2022 年 Q4 全球 GPU 市場占有率分別為82%、9%和 9%。
多數(shù)參數(shù)我國 CPU 具備比肩能力,IPC 性能是最主要差距。目前通過公開信息可以看出,主頻、核心數(shù)、內存類型等指標我國 CPU 廠商差異不大,具備一定的比肩能力,但落實到具體性能決定指標 IPC,僅 Intel 和 AMD 會公布 IPC“相比上一代提升了多少”,其他國產(chǎn) CPU 從 IPC 性能來看大致落后于 Intel、AMD 幾年水平。
國產(chǎn)廠商的機遇一:數(shù)據(jù)中心帶來新需求。根據(jù)工信部信息通信發(fā)展司數(shù)據(jù),2017年我國數(shù)據(jù)中心市場總機架數(shù)量 166 萬架,2022 年預測達到 670 萬架,2017-2022E 復合增速達 32.2%。目前東數(shù)西算工程將通過構建數(shù)據(jù)中心、云計算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡體系,于 2022 年 2 月,在京津冀、長三角、粵港澳大灣區(qū)等 8 地啟動建設國家算力樞紐節(jié)點,規(guī)劃了 10 個國家數(shù)據(jù)中心集群。各地數(shù)據(jù)中心都將集聚大量服務器,如韶關數(shù)據(jù)中心預計到 2025 年將建成 50 萬架標準機架、500 萬臺服務器規(guī)模,投資超 500 億元(不含服務器及軟件)。
國產(chǎn)廠商的機遇二:國產(chǎn)化浪潮。政府及國有企事業(yè)單位為國產(chǎn) CPU 主陣地。據(jù)測算,今年 PC 芯片市場規(guī)模在 162-330 億元之間,2022 年服務器芯片市場規(guī)模則已達 130 億美元。在企業(yè)級市場中,也不僅是國有企業(yè),能源、交通、金融、電信、教育等重要領域或規(guī)模較大的民營企業(yè)也存在設備國產(chǎn)化需求。消費級市場對產(chǎn)業(yè)生態(tài)的要求最高,對性價比較為敏感,迭代周期短,是國產(chǎn) CPU 長期需突破的目標市場。
國產(chǎn)廠商的機遇三:通過封測技術彎道超車。后摩爾時代的到來,一方面,CPU 制程進入后摩爾定律時期升級速度趨緩,國產(chǎn) CPU 性能與國際主流水平逐步縮小,存在趕超的可能;另一方面,先進封裝技術成為兵家競爭新賽道,在封裝方面,我國封測廠商長電科技和通富微電在全球前五中占據(jù)兩席,通富與 AMD 緊密合作,先進封裝技術正成為集成電路產(chǎn)業(yè)發(fā)展的新引擎,我國 CPU 企業(yè)有望通過封測技術彎道超車,彌補先進制程能力不足的缺陷。目前國產(chǎn) CPU 已經(jīng)可以通過先進封裝技術實現(xiàn)性能提升與應用場景拓展。
審核編輯:黃飛
?
評論