???全球 CPU 商用市場基本被 Intel、AMD 兩家壟斷,國產(chǎn) CPU 具備廣闊拓展空間。CPU 目前從市場占有率來說,Intel 依靠其強大的 X86 生態(tài)體系和領先的制造能力,在通用 CPU 市場占據(jù)領先地位。2021 年,Intel 市場份額不低于 80%,AMD 近期追趕勢頭明顯,其他廠商整體市場份額不超過 7%。
英特爾優(yōu)勢降低,數(shù)據(jù)中心領域集中度有所降低。2022 年,數(shù)據(jù)中心領域 Intel 市場占有率為71%,較 21 年下降 10pcts,AMD 22 年市占率快速提升 8pcts 至 20%,亞馬遜、Ampere 等新興玩家份額快速提升,給總計份額不足 5%的國產(chǎn)廠商發(fā)展帶來了借鑒意義。
全球 GPU 市場為三足鼎立的寡頭競爭格局,英偉達在獨顯領域一家獨大。在獨立顯卡市場上,長期以來都是 AMD 及 NVIDIA 兩家的二人轉(zhuǎn),2022 年 Intel 正式殺入了顯卡市場,目前獨立 GPU市場則主要由 NVIDIA、AMD 和英特爾三家公司占據(jù),2022 年 Q4 全球獨立 GPU 市場占有率分別為 85%、9%和 6%,其中,NVIDIA 在 PC 端獨立 GPU 領域市場占有率優(yōu)勢明顯。
1、多數(shù)參數(shù)我國CPU具備比肩能力,但性能差距大
影響國內(nèi)CPU市占率的主要是技術(shù)差異,即產(chǎn)品性能。CPU性能的主要影響因素為頻率和IPC,其他影響 CPU 性能的因素還有總線寬度、制程、存儲、內(nèi)核數(shù)、封裝技術(shù)等。
(1)主頻,外頻和倍頻和 IPC。主頻是 CPU 的時鐘頻率,即 CPU 的工作頻率,一般來說,一個時鐘周期完成的指令數(shù)是固定的,所以主頻越高,CPU單位時間運行的指令數(shù)越多。外頻即CPU和周邊傳輸數(shù)據(jù)的頻率,具體是指 CPU 到芯片組之間的總線速度,CPU 的外頻決定著整塊主板的運行速度。產(chǎn)生的輸出信號頻率是輸入信號頻率的整數(shù)倍稱為倍頻,倍頻和外頻相乘就是主頻,當外頻不變時,提高倍頻,CPU主頻也就越高。IPC指 CPU每一個頻率周期里處理的指令數(shù)量。
(2)地址總線寬度。地址總線是專門用來傳送地址的,CPU 通過地址總線來選用外部存儲器的存儲地址,總線寬度決定了 CPU 可以訪問的物理地址空間(尋址能力),簡單地說就是 CPU 到底能夠使用多大容量的內(nèi)存。例如 32 位的地址總線,最多可以直接訪問 4GB 的物理空間。8 位微機的地址總線為 16 位,則其最大可尋址空間為 2^16=64KB。
(3)數(shù)據(jù)總線寬度。數(shù)據(jù)總線寬度決定了 CPU 與內(nèi)存以及輸入、輸出設備之間一次數(shù)據(jù)傳輸?shù)?a target="_blank">信息量。
(4)制程和封裝。CPU 的生產(chǎn)需要經(jīng)過硅提純、切割晶圓、影印、蝕刻、分層、封裝、測試 7個工序,制程工藝的提升或更小的制程對于 CPU 性能的提升影響明顯,主要表現(xiàn)為 CPU 頻率提升以及架構(gòu)優(yōu)化兩個方面。一方面,工藝的提升與頻率緊密相連,使得芯片主頻得以提升;另一方面工藝提升帶來晶體管規(guī)模的提升,從而支持更加復雜的微架構(gòu)或核心,帶來架構(gòu)的提升。
(5)工作電壓。指的是 CPU 正常工作所需的電壓。低電壓能夠解決耗電多和發(fā)熱過高的問題,使 CPU 工作時的溫度降低,工作狀態(tài)穩(wěn)定。
(6)高速緩沖存儲器。它是一種速度比內(nèi)存更快的存儲設備,用于緩解 CPU 和主存儲器之間速度不匹配的矛盾,進而改善整個計算機系統(tǒng)的性能。很多大型、中型、小型以及微型計算機中都采用高速緩存。
(7)除上述性能指標外,CPU 還有其他如接口類型、多媒體指令集、裝封形式、整數(shù)單元和浮點單元強弱等性能影響指標。
多數(shù)參數(shù)我國 CPU 具備比肩能力,IPC性能是最主要差距。目前通過公開信息可以看出,主頻、核心數(shù)、內(nèi)存類型等指標我國 CPU 廠商差異不大,具備一定的比肩能力,但落實到具體性能決定指標 IPC,僅 Intel 和 AMD 會公布 IPC“相比上一代提升了多少”,其他國產(chǎn) CPU 從 IPC 性能來看大致落后于 Intel、AMD 幾年水平。
2、指令級架構(gòu)與生態(tài)綁定多年,創(chuàng)新面臨知識產(chǎn)權(quán)等多重壁壘
指令集是 CPU 所執(zhí)行的指令的二進制編碼方法,是軟件和硬件的接口規(guī)范。日常交流中有時也把指令集稱為架構(gòu)。CPU 按照指令集可分為 CISC(復雜指令集)和 RISC(精簡指令集)兩大類,CISC 型 CPU 目前主要是 x86 架構(gòu),RISC 型 CPU 主要包括 ARM、RISC-V、MIPS、POWER 架構(gòu)等。
指令集架構(gòu)與生態(tài)綁定多年,創(chuàng)新面臨知識產(chǎn)權(quán)、時間等多重壁壘。歷經(jīng)幾十年的發(fā)展,全球形成了 Wintel(Windows+Intel)和 AA(Android+ARM)兩大信息化生態(tài)體系,并且都由美國主導,在生態(tài)和知識產(chǎn)權(quán)上都形成了自己的“領地”。中國之前沒有指令集,重新搭建或者在現(xiàn)有的開源指令集基礎上修改,會面臨知識產(chǎn)權(quán)問題以及前期需要大量的試錯優(yōu)化過程。且新的指令集需要新的生態(tài)來適配,所需要的操作系統(tǒng)、基礎軟件和各種應用軟件都需要重新適配,這也是目前新指令集發(fā)展的一個難點。
(1)x86 架構(gòu):主導桌面/服務器 CPU 市場
基于 CISC(復雜指令集)的 x86 架構(gòu)是一種為了便于編程和提高存儲器訪問效率的芯片設計體系,包括兩大主要特點:一是使用微代碼,指令集可以直接在微代碼存儲器里執(zhí)行,新設計的處理器,只需增加較少的晶體管電路就可以執(zhí)行同樣的指令集,也可以很快地編寫新的指令集程式;二是擁有龐大的指令集,x86 擁有包括雙運算元格式、寄存器到寄存器、寄存器到存儲器以及存儲器到寄存器的多種指令類型。
x86 架構(gòu)主要參與者包括 Intel、AMD、海光、兆芯等。
(2)ARM 架構(gòu):崛起移動市場和 MCU 市場
ARM 架構(gòu)過去稱作進階精簡指令集機器,是一個 32 位精簡指令集處理器架構(gòu),其廣泛地使用在許多嵌入式系統(tǒng)設計,近年來也因其低功耗多核等特點廣泛應用在數(shù)據(jù)中心服務器市場。早期ARM 指令集架構(gòu)的主要特點:一是體積小、低功耗、低成本、高性能;二是大量使用寄存器,且大多數(shù)數(shù)據(jù)操作都在寄存器中完成,指令執(zhí)行速度更快;三是尋址方式靈活簡單,執(zhí)行效率高;四是指令長度固定,可通過多流水線方式提高處理效率。
ARM 架構(gòu)的 CPU 參與者包括飛騰、鯤鵬等,還有諸多 MCU 廠商用 ARM 架構(gòu)設計相關(guān)產(chǎn)品,包括意法半導體、兆易創(chuàng)新、普冉股份、恒爍股份等。
(3)RISC-V 架構(gòu):物聯(lián)網(wǎng)時代的新選擇
RISC-V是加州大學伯克利分校設計并發(fā)布的一種開源指令集架構(gòu),其目標是成為指令集架構(gòu)領域的 Linux, 主要應用 于物聯(lián) 網(wǎng)(IoT) 領域, 但可擴展 至高性能計 算領域 。RISC-V 采用BSDLicense 發(fā)布,由于允許衍生設計和開發(fā)閉源,吸引了一大批公司的關(guān)注,目前已有不少公司開發(fā)基于 RISC-V 的 IP 核,如 Si-Five、臺灣晶心、阿里平頭哥等已可提供基于 RISC-V 的處理器 IP 核,部分企業(yè)如兆易創(chuàng)新、北京君正等已開發(fā)出基于 RISC-V 的 MCU 芯片等。但整體上,由于 RISC-V 產(chǎn)業(yè)生態(tài)還比較薄弱,未來的發(fā)展仍有較長一段路要走。
RISC-V 架構(gòu)的參與者包括阿里平頭哥,MCU 廠商包括國芯科技、賽昉科技等。
(4)MIPS 架構(gòu):在學術(shù)界影響廣泛
MIPS 是高效精簡指令集計算機體系結(jié)構(gòu)中的一種,MIPS 的優(yōu)勢主要有三點:一是發(fā)展歷史早,MIPS 在 1990 年代已經(jīng)廣泛使用在服務器、工作站設備上。二是在學術(shù)界影響廣泛,計算機體系結(jié)構(gòu)教材都是以 MIPS 為實際例子。三是 MIPS 在架構(gòu)授權(quán)方面更為開放,授權(quán)門檻遠低于 x86、ARM,在2019年曾經(jīng)有開放授權(quán)的實際動作,并且 MIPS允許授權(quán)商自行更改設計、擴展指令,允許二次授權(quán)。
(5)POWER 架構(gòu):在部分汽車控制中有所應用
POWER 架構(gòu)是由 IBM 設計的一種 RISC 處理器架構(gòu),POWER 在大型機領域獨具優(yōu)勢。POWER3 是全球首款 64 位架構(gòu)處理器,開始應用銅互聯(lián)和 SOI(絕緣體上硅)技術(shù)。直至POWER9 依然追求最高性能,不僅具備亂序執(zhí)行、智能線程等技術(shù),還實現(xiàn)了 SMP(對稱多處理技術(shù))的硬件一致性處理。POWER 架構(gòu) CPU 價格高昂,主要應用于高端服務器領域,市場份額逐漸減少。
POWER 架構(gòu)目前恩智浦、飛思卡爾和國芯科技的部分產(chǎn)品中有采用。
CPU 專用 EDA 國產(chǎn)替代難度大。我國的 CPU 專用 EDA 工具例如數(shù)字仿真、邏輯綜合、建模、布局布線等水平比較差,長期依賴國外產(chǎn)品,尚無法完成完整集成電路的功能設計、綜合驗證和物理設計等全流程的軟件工具集群,完全替換應用的難度大。
3、AI芯片的關(guān)鍵特征包含數(shù)據(jù)特點、計算范式、精度、重構(gòu)能力等
1)新型的計算范式:控制流程簡化、計算量增大
AI 計算包括傳統(tǒng)計算和新的計算特質(zhì),處理的內(nèi)容往往是非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片等)。處理的過程通常需要很大的計算量,基本的計算主要是線性代數(shù)運算(如張量處理),而控制流程則相對簡單。
2)訓練和推斷:需要高效的數(shù)據(jù)處理能力
AI 系統(tǒng)通常涉及訓練(Training)和推斷(Inference)過程。簡單來說,訓練過程是指在已有數(shù)據(jù)中學習,獲得某些能力的過程;而推斷過程則是指對新的數(shù)據(jù),使用這些能力完成特定任務(比如分類、識別等)。滿足高效能機器學習的數(shù)據(jù)處理要求是 AI 芯片需要考慮的最重要因素。
3)數(shù)據(jù)精度:低精度成為趨勢
低精度設計是 AI 芯片的一個趨勢,在針對推斷的芯片中更加明顯。對一些應用來說,降低精度的設計不僅加速了機器學習算法的推斷(也可能是訓練),甚至可能更符合神經(jīng)形態(tài)計算的特征。
4、AI芯片設計趨勢
1)云端訓練和推斷:大存儲、高性能、可伸縮
存儲的需求(容量和訪問速度)越來越高,處理能力推向每秒千萬億次(Peta FLOPS),并支持靈活伸縮和部署。隨著 AI 應用的爆發(fā),對推斷計算的需求會越來越多,一個訓練好的算法會不斷復用。推斷和訓練相比有其特殊性,更強調(diào)吞吐率、能效和實時性,未來在云端很可能會有專門針對推斷的 ASIC 芯片(如 Google 的第一代 TPU),提供更好的能耗效率并實現(xiàn)更低的延時。
2)邊緣設備:也需要具備一定的學習、本地訓練能力
相對云端應用,邊緣設備的應用需求和場景約束要復雜很多,針對不同的情況可能需要專門的架構(gòu)設計。拋開需求的復雜性,目前的邊緣設備主要是執(zhí)行“推斷”。在這個目標下,AI 芯片最重要的就是提高“推斷”效率。目前,衡量 AI 芯片實現(xiàn)效率的一個重要指標是能耗效率——TOPs/W,這也成為很多技術(shù)創(chuàng)新競爭的焦點。未來,越來越多的邊緣設備將需要具備一定的“學習”能力,能夠根據(jù)收集到的新數(shù)據(jù)在本地訓練、優(yōu)化和更新模型。這也會對邊緣設備以及整個 AI 實現(xiàn)系統(tǒng)提出一些新的要求。最后,在邊緣設備中的 AI 芯片往往是 SoC 形式的產(chǎn)品,AI部分只是實現(xiàn)功能的一個環(huán)節(jié),而最終要通過完整的芯片功能來體現(xiàn)硬件的效率。這種情況下,需要從整個系統(tǒng)的角度考慮架構(gòu)的優(yōu)化。因此,終端設備 AI 芯片往往呈現(xiàn)為一個異構(gòu)系統(tǒng),專門的 AI 加速器和 CPU,GPU,ISP,DSP 等其它部件協(xié)同工作以達到最佳的效率。
3)軟件定義芯片:能夠?qū)崟r動態(tài)改變功能,滿足軟件不斷變化的計算需求
在 AI 計算中,芯片是承載計算功能的基礎部件,軟件是實現(xiàn) AI 的核心。這里的軟件即是為了實現(xiàn)不同目標的 AI 任務,所需要的 AI 算法。對于復雜的 AI 任務,甚至需要將多種不同類型的 AI 算法組合在一起。即使是同一類型的 AI 算法,也會因為具體任務的計算精度、性能和能效等需求不同,具有不同計算參數(shù)。因此,AI 芯片必須具備一個重要特性:能夠?qū)崟r動態(tài)改變功能,滿足軟件不斷變化的計算需求,即“軟件定義芯片”。
審核編輯:黃飛
?
評論