久久久久久黄色,欧美成人一级大片视频,91人妻人人爽人人澡人人精品DVD

要說(shuō)有什么芯片產(chǎn)品最引數(shù)碼達(dá)人關(guān)注，那必然是GPU。

GPU是個(gè)熱鬧異常的市場(chǎng)。圍繞GPU/顯卡玩梗也成為數(shù)碼愛(ài)好者茶余飯后的一項(xiàng)樂(lè)趣：“超低功耗，極致色彩，曲面細(xì)分””礦卡論斤賣““一卡一棟樓，兩卡毀地球，三卡銀河系，四卡創(chuàng)世紀(jì)”。它曾一度挑戰(zhàn)甚至超越同時(shí)期的CPU，它曾讓無(wú)數(shù)游戲玩家為之瘋狂，它曾向更深、更廣領(lǐng)域延伸觸角。［1］

因?yàn)閲?guó)外廠商長(zhǎng)期壟斷，國(guó)內(nèi)對(duì)自主GPU的期盼越來(lái)越強(qiáng)烈。

本文是“國(guó)產(chǎn)替代”系列的第十五篇，關(guān)注GPU國(guó)產(chǎn)替代。在本文中，你將了解到：GPU和顯卡有什么關(guān)系，GPU的國(guó)內(nèi)外市場(chǎng)情況和國(guó)產(chǎn)化布局，GPU及背后的思考。

那些容易被混淆的概念

GPU（Graphics Processing Unit，圖形處理器）又被稱作顯示核心、視覺(jué)處理器、顯示芯片，是一種專為并行處理而設(shè)計(jì)的微型處理器，非常擅長(zhǎng)處理大量簡(jiǎn)單任務(wù)，包括圖形和視頻渲染。GPU能應(yīng)用在臺(tái)式機(jī)、筆記本電腦、工作站、游戲機(jī)、嵌入式設(shè)備、數(shù)據(jù)中心等各種需要渲染圖形或高性能計(jì)算的場(chǎng)景。

在生活中，我們普遍把GPU叫成顯卡。不過(guò)事實(shí)上，GPU和顯卡在術(shù)語(yǔ)上有細(xì)微差別，GPU指的是負(fù)責(zé)處理各種任務(wù)的那顆芯片，顯卡指的是把GPU芯片、顯存、接口等集合在一起的那張板卡。

GPU根據(jù)接入系統(tǒng)的方式分為集成型GPU（Integrated GPU，iGPU）和離散型GPU（Discrete GPU ，dGPU）兩種，前者就是我們?nèi)粘Ｋf(shuō)的集成顯卡/核芯顯卡，后者就是我們?nèi)粘Ｋf(shuō)的獨(dú)立顯卡，兩種類型GPU均有各自的特點(diǎn)和使用場(chǎng)景。

GPU的兩種分類，制表丨果殼硬科技

集成型GPU中，GPU被嵌在CPU旁邊，且無(wú)單獨(dú)的內(nèi)存組用于圖形/視頻，會(huì)與CPU共享系統(tǒng)內(nèi)存。由于集成型GPU內(nèi)置于處理器中，通常功耗更低，產(chǎn)生的熱量更少，從而延長(zhǎng)了電池續(xù)航時(shí)間。

離散型GPU則完全以獨(dú)立板卡出現(xiàn)，通常被連接在PCI高速插槽內(nèi)，就像主板包含CPU一樣。離散型GPU除包含GPU芯片以外，還包括允許GPU運(yùn)行并連接到系統(tǒng)其余部分所需的大量組件。離散型GPU有自己的專用內(nèi)存，同時(shí)也擁有自己的內(nèi)存源和電源，因此其性能比集成型GPU更高。但由于與處理器芯片分離，因此會(huì)消耗更多功率并產(chǎn)生大量熱量。［2］［3］［4］

從專用到通用再到融合

現(xiàn)代的GPU擁有兩大功能，一是充當(dāng)強(qiáng)大的圖形引擎，二是用作高度并行的可編程處理器，處理各種神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)任務(wù)。

圖形計(jì)算是GPU的拿手絕活。當(dāng)我們拖動(dòng)鼠標(biāo)時(shí)，GPU將需要顯示的圖形內(nèi)容計(jì)算后呈現(xiàn)在屏幕上；當(dāng)我們打開(kāi)播放器觀看電影時(shí)，GPU將壓縮后的視頻信息解碼為原始數(shù)據(jù)；當(dāng)我們玩游戲時(shí)，GPU將游戲畫面計(jì)算并生成出來(lái)。輕點(diǎn)鼠標(biāo)的背后，是復(fù)雜的處理過(guò)程，包括頂點(diǎn)讀入、頂點(diǎn)渲染、圖元裝配、光柵化、像素渲染等。［5］

圖形GPU廣泛應(yīng)用于游戲、圖像處理和加密貨幣等場(chǎng)景，關(guān)注圖像學(xué)的幀數(shù)、渲染逼真度、真實(shí)場(chǎng)景映射度等參數(shù)指標(biāo)。［6］

對(duì)圖形API定義的流水線實(shí)現(xiàn)硬件加速的不同階段，制表丨果殼硬科技參考資料丨《計(jì)算機(jī)體系結(jié)構(gòu)基礎(chǔ)》［5］

通用計(jì)算是GPU并行計(jì)算優(yōu)勢(shì)的最佳體現(xiàn)?？茖W(xué)家和工程師發(fā)現(xiàn)，只要數(shù)據(jù)以圖形形式存在，并將GPU基礎(chǔ)上增加部分通用計(jì)算能力，GPU就能勝任各種高性能模計(jì)算任務(wù)，也就是行業(yè)所說(shuō)的通用GPU（GPGPU，General-Purpose Graphics Processing Unit）。本質(zhì)上，通用GPU還是一種GPU，不過(guò)它會(huì)針對(duì)高性能計(jì)算、AI開(kāi)發(fā)及許多其他驚人的突破上定制和靠攏，因此所使用的訓(xùn)練集更大、訓(xùn)練時(shí)間更短、分類/預(yù)測(cè)/推理功率更低、占用基礎(chǔ)設(shè)施更少。［7］

通用GPU主要應(yīng)用在大規(guī)模人工智能計(jì)算、數(shù)據(jù)中心及超算等場(chǎng)景，以支持更大的數(shù)據(jù)量和并發(fā)吞吐量。［6］

兩大功能的背后，是一部漫長(zhǎng)的發(fā)展史。

1962年， Ivan Sutherland（伊凡·蘇澤蘭）的論文《SketchPad：圖形化人機(jī)交流》和他錄制的Sketchpad操作視頻成為定義現(xiàn)代計(jì)算機(jī)圖形學(xué)的基礎(chǔ)［8］。之后的20年內(nèi)，受精度和運(yùn)行強(qiáng)度等限制，彼時(shí)的顯卡僅僅是將CPU計(jì)算生成的圖形翻譯成顯示信號(hào)，所以只能稱作圖形適配器（VGA Card）［9］。直到IBM在1984年推出了MDA和CGA兩款2D顯卡，才意味著行業(yè)產(chǎn)生雛形，雖然放到現(xiàn)在兩款產(chǎn)品只能算作是丑小鴨，但卻標(biāo)志著GPU開(kāi)始走向與CPU分庭抗禮之路。

上世紀(jì)90年代，3D圖形加速興起。歷史上第一塊真正意義的3D圖形加速卡Voodoo問(wèn)世后，S3又推出第一款同時(shí)擁有2D和3D圖形處理能力的顯卡S3 Virge［10］，此后行業(yè)便開(kāi)始多點(diǎn)開(kāi)花，逐漸誕生出NVIDIA的NV1、Matrox的Mlennium、Mystique、PowerVR的PCX1等優(yōu)秀產(chǎn)品，一度顯現(xiàn)出百家爭(zhēng)鳴的盛況。繁華過(guò)后，便是殘酷的大魚(yú)吞小魚(yú)式并購(gòu)和行業(yè)整合，形成英偉達(dá)、AMD兩家獨(dú)大的格局。自此之后，GPU也開(kāi)啟了跨越式的迭代之路。

獨(dú)立顯卡發(fā)展歷史，制表丨果殼硬科技參考資料丨IEEE Computer SOCIETY［11］，英偉達(dá)官網(wǎng)［12］，公開(kāi)資料

GPU的通用性，是在迭代中逐漸表露出來(lái)的。20世紀(jì)90年代到21世紀(jì)初，為應(yīng)對(duì)更為復(fù)雜和大量的圖形計(jì)算問(wèn)題，GPU模式不再為固定圖形流水線模式，處于圖形流水線中的頂點(diǎn)處理器、幾何處理器、像素與子素處理器的可編程性得到增強(qiáng)，表現(xiàn)出通用計(jì)算能力。隨后，為解決GPU片內(nèi)負(fù)載均衡問(wèn)題，統(tǒng)一渲染處理器（Shader Processor）取代了各種可編程部件，同時(shí)流處理器（一種流計(jì)算模型上充分考慮并發(fā)和通信的計(jì)算體系）的應(yīng)用奠定GPU通用計(jì)算的基礎(chǔ)。［13］

GPU在可編程性和計(jì)算能力上的快速增長(zhǎng)，引得大批研究團(tuán)體關(guān)注，爭(zhēng)相將大量需要計(jì)算的復(fù)雜問(wèn)題映射到GPU上，并將GPU定位為未來(lái)高性能計(jì)算機(jī)系統(tǒng)中傳統(tǒng)微處理器的的替代方案［14］。英偉達(dá)所研發(fā)的Tesla架構(gòu)正式標(biāo)志著GPU朝向通用GPU發(fā)展，為后續(xù)在深度學(xué)習(xí)領(lǐng)域廣泛應(yīng)用奠定了基礎(chǔ)。［15］

GPU從圖形顯示到通用計(jì)算之路［16］

時(shí)間回到現(xiàn)在，GPU在圖形計(jì)算上的專用性和面向人工智能的通用性上，引發(fā)科學(xué)界的爭(zhēng)論，是否要將GPU的AI和3D功能拆分成兩種DSA。GPU專用于圖形計(jì)算效率高，但只支持幾種特定的算法和模型，走通用計(jì)算兼容性好，但效率差，功耗也大。［17］

目前行業(yè)一致的觀點(diǎn)是GPU在圖形計(jì)算和通用計(jì)算表現(xiàn)出的“雙重人格”會(huì)逐步融合，未來(lái)將不再擁有功能界限，GPU也將擁有原生可微和張量加速能力。［18］

那么，再往后呢？從近幾年的大會(huì)來(lái)看，GPU將向大規(guī)模擴(kuò)展計(jì)算能力的高性能計(jì)算（GPGPU）、人工智能計(jì)算（AI GPU）、更加逼真的圖形展現(xiàn)（Ray Tracing GPU，光線追蹤GPU）三大方向發(fā)展［16］。其中AI是關(guān)鍵，GPU硬件/軟件界面將使GPU成為“AI世界的CPU”，基于AI的渲染會(huì)讓張量加速成為GPU中的主流。［18］

GPU的兩大功能和應(yīng)用［16］

GPU與CPU的搶婚者

GPU雖然好用，但它也脫離不開(kāi)CPU。一方面，GPU無(wú)法單獨(dú)工作，需要依賴CPU控制調(diào)用；另一方面，二者的架構(gòu)極為不同，構(gòu)建目的也各有不同。

CPU會(huì)包含4個(gè)、8個(gè)、16個(gè)甚至32個(gè)以上的強(qiáng)勁內(nèi)核，同時(shí)一個(gè)內(nèi)核之中便封裝了算術(shù)邏輯單元（ALU）、浮點(diǎn)處理單元（FPU）、地址生成單元（AGU）、內(nèi)存管理單元（MMU）等幾乎所有功能。一般來(lái)說(shuō)，CPU中計(jì)算單元ALU約為25%，邏輯控制為25%，緩存Cache為50%。反觀GPU中計(jì)算單元ALU通常達(dá)到95%，緩存Cache則為5%。［19］

最初，GPU是為了幫助CPU加速圖形處理而設(shè)計(jì)的專用硬件。圖形渲染具備極強(qiáng)的并行性，需要非常密集的計(jì)算與巨大的數(shù)據(jù)傳輸帶寬，所以GPU被設(shè)計(jì)成包含成千上萬(wàn)個(gè)較小內(nèi)核的形式。每個(gè)GPU的內(nèi)核都可以并行執(zhí)行一些簡(jiǎn)單的計(jì)算，內(nèi)核本身算不上十分智能，但與“一核有難八核圍觀”的CPU不同，GPU能同時(shí)動(dòng)用全部?jī)?nèi)核執(zhí)行卷積、ReLU和池化等深度學(xué)習(xí)計(jì)算。除此之外，GPU采用了靈活的存儲(chǔ)層次設(shè)計(jì)以及兩級(jí)編程編譯模型。［20］［21］

GPU和CPU的不同點(diǎn)［22］

不同的結(jié)構(gòu)設(shè)計(jì)使得GPU有了自己的專長(zhǎng)。GPU的頻率只有CPU的三分之一，但在每個(gè)clock周期中，它能夠并行執(zhí)行多于CPU將近100倍的計(jì)算，在大量并行度任務(wù)中，GPU比CPU快得多，對(duì)那些并行度很低的任務(wù)，顯現(xiàn)的速度就會(huì)慢得多。另外，相比CPU，GPU通常擁有5~10倍的內(nèi)存帶寬，但在訪問(wèn)數(shù)據(jù)時(shí)會(huì)有更長(zhǎng)的延遲，這就造成GPU在可預(yù)測(cè)的計(jì)算上做得更好，但在不可預(yù)測(cè)的計(jì)算上做得更差。［23］

由此可見(jiàn)，CPU和GPU是互補(bǔ)且不沖突的，前者專注串行運(yùn)算，后者專注并行運(yùn)算。打個(gè)比方來(lái)說(shuō)，可以將CPU理解為博士，不僅知識(shí)淵博，諸多問(wèn)題也鉆研得很深，沒(méi)有他許多難題都沒(méi)有辦法解決。而GPU就是上萬(wàn)個(gè)初高中生，只會(huì)簡(jiǎn)單的算術(shù)，但無(wú)論博士有多強(qiáng)大，也不可能在一瞬間計(jì)算出上萬(wàn)道簡(jiǎn)單的算術(shù)運(yùn)算。［24］

CPU和GPU間的不同［22］

翻開(kāi)計(jì)算簡(jiǎn)史，誕生了豐富多樣的數(shù)字芯片，每種數(shù)字芯片都有一段沉淀良久的發(fā)展史。計(jì)算機(jī)背后就是計(jì)算問(wèn)題，無(wú)外乎標(biāo)量、矢量、矩陣、空間幾種數(shù)據(jù)類型，GPU與其他數(shù)字芯片難免會(huì)產(chǎn)生交集和重合?，F(xiàn)在，CPU依然還是那個(gè)CPU，GPU卻可以不是GPU了。

長(zhǎng)久以來(lái)，GPU與FPGA、ASIC的爭(zhēng)議不斷，它們可分別構(gòu)成“CPU+GPU”“CPU+FPGA”“CPU+ASIC”的異構(gòu)計(jì)算系統(tǒng)，同時(shí)FPGA和ASIC廠商時(shí)常將自家產(chǎn)品與GPU算力平行對(duì)比，如NVIDIA Tesla A100時(shí)常成為“戰(zhàn)力計(jì)量單位”，CPU的搶婚者們都在訴說(shuō)著自己的優(yōu)勢(shì)。

理性而言，GPU、FPGA、ASIC都是配合CPU計(jì)算的好能手，對(duì)廠商還是下游使用者而言，三者的特性截然不同，雖然可能會(huì)在部分應(yīng)用場(chǎng)景下表現(xiàn)出更強(qiáng)的算力或更好的功耗，但部署過(guò)程難免要綜合考慮TCO（總擁有成本）、構(gòu)建難度、系統(tǒng)兼容度等，很難評(píng)判孰強(qiáng)孰弱。

不同計(jì)算器件的對(duì)比，制表丨果殼硬科技

不過(guò)，GPU相對(duì)產(chǎn)品成熟，峰值計(jì)算能力優(yōu)異，同時(shí)在圖形顯示的地位無(wú)可撼動(dòng)，順理成章地搭上半導(dǎo)體熱潮，成為市場(chǎng)追捧的寵兒。

數(shù)據(jù)顯示，AI訓(xùn)練階段，GPU約占64%市場(chǎng)份額，而FPGA和ASIC分別占比22%和14%；推理階段，GPU約占42%市場(chǎng)，而FPGA和ASIC則分別占比34%和24%。［25］

不同應(yīng)用場(chǎng)景AI芯片性能需求和具體指標(biāo)［25］

被國(guó)外壟斷的格局

GPU不僅在當(dāng)下是一門空間廣闊的生意，未來(lái)更是潛力無(wú)限。

根據(jù)Verified Market Research數(shù)據(jù)顯示，從2021年到2030年，GPU將以33.3%的年復(fù)合成長(zhǎng)率，從330億美元成長(zhǎng)至4773億美元。［26］

GPU會(huì)按照平臺(tái)對(duì)功耗負(fù)載要求不同，制作成各種規(guī)格，如手機(jī)中GPU典型功耗為5W，筆記本電腦中典型功耗為150w，臺(tái)機(jī)能夠到達(dá)400W，數(shù)據(jù)中心全力追求性能。根據(jù)功耗大小，市場(chǎng)主要?jiǎng)澐譃樽烂婕?jí)和移動(dòng)級(jí)兩種應(yīng)用。

兩個(gè)市場(chǎng)均呈現(xiàn)三足鼎立的態(tài)勢(shì)：桌面級(jí)GPU市場(chǎng)被英偉達(dá)、AMD和英特爾所壟斷，移動(dòng)級(jí)GPU市場(chǎng)被Arm、Imagination和高通所壟斷。在軟件層面，上述國(guó)外公司也對(duì)如CUDA和OpenCL等一系列異構(gòu)計(jì)算標(biāo)準(zhǔn)提供了支持。［27］

桌面級(jí)產(chǎn)品方面，面向PC或游戲的圖形卡占大多數(shù)市場(chǎng)，擁有50%以上的份額，數(shù)據(jù)中心。

Jon Peddie Research（JPR）數(shù)據(jù)顯示，2022年Q2，PC使用的GPU出貨量（包括集成和獨(dú)立顯卡）為8400萬(wàn)塊，其中英特爾GPU市場(chǎng)份額高達(dá)68%，主要?dú)w功于英特爾在臺(tái)式機(jī)/筆記本電腦CPU集成大量核顯；AMD以17%份額居于第二，這家公司既有核顯也有獨(dú)顯，但核顯明顯占大頭，獨(dú)顯只占整體PC市場(chǎng)約3%；英偉達(dá)則主攻獨(dú)顯市場(chǎng)，所以雖然看似只有15%市場(chǎng)份額，但基本稱霸獨(dú)顯市場(chǎng)。［28］

2022年Q2 PC市場(chǎng)GPU供應(yīng)情況［28］

英偉達(dá)是全球獨(dú)立GPU的絕對(duì)領(lǐng)導(dǎo)者。初期，英偉達(dá)的重心是PC圖形處理業(yè)務(wù)，此后乘著GPU通用的熱潮，拓展至智能終端、自動(dòng)駕駛、AI算法等領(lǐng)域。從2022年Q2財(cái)報(bào)來(lái)看，英偉達(dá)的主營(yíng)業(yè)務(wù)包括游戲GPU、數(shù)據(jù)中心GPU、專業(yè)視覺(jué)設(shè)計(jì)GPU、智能駕駛GPU以及OEM和其他業(yè)務(wù)，占比依次為30.5%、56.8%、7.4%、3.3%、2%。［29］

為了更好地應(yīng)對(duì)競(jìng)爭(zhēng)，英偉達(dá)每一代顯卡的架構(gòu)設(shè)計(jì)變化都非常大。經(jīng)過(guò)統(tǒng)計(jì)英偉達(dá)每一代架構(gòu)情況來(lái)看，性能提升的核心兩要素流處理器（Streaming Multiprocessor，SM）和緩存（Cache）都有較大設(shè)計(jì)改動(dòng)，這是為了在芯片有限的面積、功耗下，不斷調(diào)整各種組件配置比例，通過(guò)制程工藝迭代，尋求最優(yōu)解法。［30］

英偉達(dá)架構(gòu)變化［30］

英偉達(dá)是GPU概念的提出者，幾乎每一款產(chǎn)品都會(huì)引起游戲愛(ài)好者、設(shè)計(jì)者大規(guī)模討論。尤其在40系使用了全新Ada Lovelace架構(gòu)，采用TSMC 4N定制工藝，著色器能力高達(dá)83TFlops，有效光線追蹤計(jì)算能力達(dá)到191TFlops，是上一代產(chǎn)品2.8倍。另有第四代Tensor Cores，F(xiàn)P8張量處理性能高達(dá)1.32PFlops，是上一代的5倍。［31］

英偉達(dá)30系和40系顯卡匯總，制表丨果殼硬科技

與此同時(shí)，英偉達(dá)還是數(shù)據(jù)中心GPU的倡導(dǎo)者。不僅在業(yè)界最先推出通用GPU產(chǎn)品，還在2006年發(fā)布并行編程模型CUDA。通用GPU與CUDA組成的軟硬件底座，構(gòu)成了英偉達(dá)引領(lǐng)AI計(jì)算的根基。［6］

不過(guò)，英偉達(dá)的這幾個(gè)月也不好過(guò)。受半導(dǎo)體產(chǎn)業(yè)需求持續(xù)下滑影響，一度出現(xiàn)財(cái)報(bào)雪崩、股價(jià)大跌的情況。而新發(fā)布的40系顯卡也爭(zhēng)議滿滿，導(dǎo)致黃仁勛取消RTX 4080 12GB版本。［32］

AMD的GPU以性價(jià)比為主要競(jìng)爭(zhēng)力。在獨(dú)立GPU上，同類產(chǎn)品價(jià)格普遍低于英偉達(dá)30%左右，在集成GPU上，其包含核顯的APU產(chǎn)品比包含核顯的英特爾CPU更便宜。［33］

核顯方面，據(jù)Tom‘s Hardware測(cè)試數(shù)據(jù)顯示，AMD銳龍系列的核顯在諸多游戲中表現(xiàn)優(yōu)異。［34］

核心顯卡部分性能對(duì)比［34］

獨(dú)顯方面，AMD一直是英偉達(dá)的追趕者，僅從浮點(diǎn)算力來(lái)看，與英偉達(dá)有一定差距；從性能實(shí)際表現(xiàn)來(lái)看，與英偉達(dá)平分秋色。要說(shuō)N卡（英偉達(dá)）和A卡（AMD）孰強(qiáng)孰弱，暫且沒(méi)有任何人能給出定論。［35］

獨(dú)立顯卡部分性能對(duì)比［35］

在大家的認(rèn)知中，英特爾跟GPU似乎完全搭不上邊，但實(shí)際上它在GPU出貨量上卻是實(shí)實(shí)在在的老大，得益于其CPU在全球PC市場(chǎng)占據(jù)將近七成（包括移動(dòng)筆記本、臺(tái)式機(jī)、服務(wù)器），其核顯也被順帶進(jìn)入千行百業(yè)。

2009年Q2~2022年Q1全球PC圖形處理單元（GPU）出貨份額（按供應(yīng)商劃分）［36］

但強(qiáng)如英特爾，也在獨(dú)立GPU上屢次折戟。

英特爾在GPU絕對(duì)不是新手或是業(yè)余選手。這家公司擁有業(yè)內(nèi)最優(yōu)秀的GPU工程師、最好的晶圓廠、別人只能幻想的銀行賬戶和響徹全球的品牌，甚至已經(jīng)坐擁全球最大的GPU銷售商的稱號(hào)，出貨量比競(jìng)爭(zhēng)對(duì)手的總和還要多。也許，對(duì)其他公司來(lái)說(shuō)，有這樣的成就就已經(jīng)很滿足了，但英特爾20年來(lái)，在獨(dú)立GPU上的屢屢失意讓這家公司意難平。［12］

1998年，英特爾就曾發(fā)布過(guò)一款產(chǎn)品Intel i740，這款產(chǎn)品的3D性能表現(xiàn)還不錯(cuò)，但在ATI、英偉達(dá)、S3 Graphics等一眾產(chǎn)品中，只能算合格，無(wú)奈也只得暫時(shí)放棄獨(dú)顯之路。

之后在2009年，英特爾并沒(méi)有放棄獨(dú)顯的夢(mèng)，計(jì)劃打造Larrabee圖形處理器。要知道，當(dāng)時(shí)的GPU就是將簡(jiǎn)單的小計(jì)算核心組合起來(lái)，而英特爾也剛好手握當(dāng)年的奔騰一代處理器核心P54C。將這款在當(dāng)時(shí)已有20多年歷史的核心集成起來(lái)做成顯卡聽(tīng)起來(lái)容易，但顯然Larrabee研究項(xiàng)目還是給英特爾帶來(lái)諸多煩惱，無(wú)數(shù)次的跳票和研究經(jīng)費(fèi)不足的新聞之后，最終計(jì)劃宣告失敗。不過(guò)，英特爾在Larrabee研究基礎(chǔ)上，發(fā)展出了眾核架構(gòu)（MIC）的Xeon Phi協(xié)處理器，并被天河2號(hào)所選用，因此英特爾這次也不算白忙活。［37］

2020年，英特爾浴火重生，把獨(dú)立顯卡的一切都押注在了新推出的Xe架構(gòu)上。2022年，英特爾Arc（銳炫）系列顯卡橫空出世，移動(dòng)、桌面、工作站、數(shù)據(jù)中心全覆蓋。這次英特爾能不能成功，還是要看后續(xù)的市場(chǎng)反饋。

移動(dòng)級(jí)產(chǎn)品方面的故事就不像桌面級(jí)GPU那樣豐富多彩了，尤其是在手機(jī)、平板、可穿戴設(shè)備上，GPU與架構(gòu)高度綁定，Arm、Imagination、高通Adreno等IP架構(gòu)各有擁躉，格局恐難巨變。［38］

從產(chǎn)品上來(lái)看，聯(lián)發(fā)科、三星的手機(jī)SoC所用GPU IP大部分來(lái)自于Arm；蘋果和高通的GPU IP則為自研（蘋果的GPU較大程度沿襲自Imagination）；紫光展銳的手機(jī)SoC則使用了Imagination的GPU IP。［39］

智能手機(jī)和平板GPU基準(zhǔn)測(cè)試排名［40］

國(guó)產(chǎn)GPU有什么機(jī)會(huì)？

“英偉達(dá)的數(shù)據(jù)中心GPU的價(jià)格，貴得驚人，國(guó)產(chǎn)還替代不了?！苯?jīng)濟(jì)觀察網(wǎng)此前援引從業(yè)者的話表示，英偉達(dá)A100 GPU售價(jià)要三千美金左右，還沒(méi)有什么替代，并且在今年6月，英偉達(dá)通知對(duì)A100 80G GPU芯片漲價(jià)20%。

行業(yè)早已苦壟斷久矣，近兩年，國(guó)內(nèi)掀起GPU融資潮，項(xiàng)目一個(gè)接一個(gè)地融資。

從2020年開(kāi)始，GPU行業(yè)融資總額已超過(guò)200億元。僅2020年~2021年，通用GPU領(lǐng)域就有近20起融資事件發(fā)生，這些公司所追求則主要是桌面級(jí)的獨(dú)立顯卡市場(chǎng)。據(jù)Verified Market Research數(shù)據(jù)顯示，2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億美元，預(yù)計(jì)2027年將超過(guò)345.57億美元。［41］

為什么國(guó)內(nèi)新創(chuàng)企業(yè)獨(dú)愛(ài)獨(dú)立顯卡？一方面，集成型GPU與CPU高度綁定，基本都是CPU廠商進(jìn)行設(shè)計(jì)生產(chǎn)，如英特爾和AMD兩家公司的核顯，再如國(guó)產(chǎn)CPU廠商龍芯7A2000內(nèi)部集成的自研GPU［42］；另一方面，獨(dú)立顯卡屬高性能器件賽道，不僅技術(shù)領(lǐng)先于集成顯卡，而且應(yīng)用面更寬，反觀集成顯卡大多是作為亮機(jī)卡或低負(fù)荷的日常卡使用。

目前來(lái)看，獲融的初創(chuàng)公司如芯瞳半導(dǎo)體、芯動(dòng)科技、摩爾線程、天數(shù)智芯、壁仞科技均已陸續(xù)推出產(chǎn)品，甚至已進(jìn)入一些整機(jī)，龍芯中科、海光信息、寒武紀(jì)、芯原股份幾家上市公司也持續(xù)耕耘GPU業(yè)務(wù)（包括集顯和獨(dú)顯）。

但總體來(lái)看，國(guó)產(chǎn)GPU產(chǎn)品仍處在起步階段，缺乏應(yīng)用場(chǎng)景，產(chǎn)品性能與英偉達(dá)、AMD產(chǎn)品有一定差距，軟件和生態(tài)較難競(jìng)爭(zhēng)。雖然優(yōu)勢(shì)并不明顯，但在國(guó)際間不可抗力因素驅(qū)使下，國(guó)內(nèi)不得不考慮國(guó)產(chǎn)平替問(wèn)題。

國(guó)內(nèi)GPU融資上市情況，制表丨果殼硬科技參考資料丨《科創(chuàng)板日?qǐng)?bào)》［43］、首創(chuàng)股份［44］

為什么GPU會(huì)如此吸金？因?yàn)镚PU真的很難設(shè)計(jì)和制造，它與CPU并稱兩大最難芯片。行業(yè)人士一致認(rèn)為，造GPU比造CPU還難，對(duì)運(yùn)算性能、安全性、穩(wěn)定性要求極高，要復(fù)雜完整的系統(tǒng)設(shè)計(jì)，才可能完成。［45］

國(guó)產(chǎn)GPU還有哪些困境和機(jī)遇？果殼硬科技團(tuán)隊(duì)認(rèn)為：

先確定做什么

實(shí)際上，GPU在不同應(yīng)用場(chǎng)景，也有不同的要求，選好切入點(diǎn)至關(guān)重要。目前來(lái)說(shuō)，主要包括AI人工智能、FP雙精度浮點(diǎn)運(yùn)算和圖形渲染三類產(chǎn)品，其中圖形渲染最難。［46］

另外，還要考慮算力成本。在如今動(dòng)不動(dòng)幾納米的制程工藝下，半導(dǎo)體生產(chǎn)必然存在良率問(wèn)題，很難做到分毫不差?？紤]到納米制程越小代工難度越大，全部都追求最好最穩(wěn)定并不現(xiàn)實(shí)，同時(shí)最終成本也會(huì)反應(yīng)在消費(fèi)端，想立足市場(chǎng)就要考慮算力成本，為不同需求的客戶提供多種可選項(xiàng)。［47］

英偉達(dá)以刀法精準(zhǔn)著稱。其GPU會(huì)在生產(chǎn)初始階段，掃描流處理器壞區(qū)并將這些電路關(guān)閉，根據(jù)壞區(qū)多少分為三六九等，質(zhì)量高且穩(wěn)定的核心便是價(jià)格更高的數(shù)據(jù)中心處理器，質(zhì)量不錯(cuò)但相對(duì)次之的便分別出貨給4090、4080［30］。這樣的好處是既能做到數(shù)據(jù)中心、工作站、個(gè)人計(jì)算機(jī)的低中高端全覆蓋，又能給不同需求的提供不同的成本選項(xiàng)。

英特爾、AMD、英偉達(dá)官網(wǎng)顯示，三家的產(chǎn)品不僅價(jià)格檔位分類清晰，也覆蓋諸多場(chǎng)景。反觀國(guó)內(nèi)GPU廠商，也主要分為數(shù)據(jù)中心GPU和消費(fèi)級(jí)GPU兩個(gè)檔位，但起步階段尚不能覆蓋全部場(chǎng)景。

比CPU更難

為什么國(guó)產(chǎn)難以攻破GPU？

首先，GPU專利壁壘極高，專利全球布局重心在美國(guó)，國(guó)際巨頭可以通過(guò)規(guī)模效應(yīng)分?jǐn)傃邪l(fā)成本，不斷在專利上埋雷，限制競(jìng)爭(zhēng)對(duì)手發(fā)展。

其次，由于GPU沒(méi)有控制器，需要依賴CPU控制調(diào)用，無(wú)法單獨(dú)工作，因此國(guó)產(chǎn)GPU必須與國(guó)產(chǎn)CPU同頻共振。

從技術(shù)實(shí)現(xiàn)難度來(lái)看，GPU是一種比CPU還要難開(kāi)發(fā)的芯片，國(guó)內(nèi)缺乏領(lǐng)軍人物和工程師，一個(gè)經(jīng)驗(yàn)豐富的工程師至少要在大廠鍛煉10年以上。從目前國(guó)產(chǎn)企業(yè)情況來(lái)看，創(chuàng)始團(tuán)隊(duì)基本均有英偉達(dá)、AMD的工作經(jīng)驗(yàn)。［25］

除此之外，軟件生態(tài)也是GPU的另一個(gè)門檻，軟件決定了GPU生態(tài)的能力上限，也是充分釋放硬件能力的必要條件［47］。英特爾也有類似的觀點(diǎn)，他們表示基于GPU構(gòu)建的軟件生態(tài)，將為不同負(fù)載開(kāi)發(fā)芯片提供解決之道，考慮到高性能計(jì)算、人工智能和游戲等諸多領(lǐng)域需求，軟件生態(tài)需要以高度協(xié)同的方式不斷演進(jìn)。［47］

芯片可編程性不是決定性因素

《中國(guó)科學(xué)》一篇論文中指出［48］，有人將芯片可編程性當(dāng)作芯片普及的重要指標(biāo)，并表示不容易編程的芯片就不會(huì)在市場(chǎng)上取得成功。判斷邏輯就是簡(jiǎn)單的“編程性不好=不好用=用的人少=市場(chǎng)小=失敗”。

實(shí)際上，DSP也好、NPU也好、還是以CUDA為代表的GPU等處理器芯片，在編程上都是有具有門檻的，但這并不妨礙它們擁有每年數(shù)千萬(wàn)顆的出貨量和數(shù)百億美金的市場(chǎng)容量。

編程本來(lái)就是專業(yè)人士才要考慮的問(wèn)題，對(duì)GPU來(lái)說(shuō)，編程的難易程度不會(huì)直接影響市場(chǎng)需求的規(guī)模，性能、功耗、性價(jià)比才是拿下市場(chǎng)的關(guān)鍵。

消費(fèi)電子需求下行影響

半導(dǎo)體行業(yè)在近期已進(jìn)入第十七次下行階段，市場(chǎng)對(duì)GPU需求走弱，英偉達(dá)、AMD獨(dú)立GPU均受到較大波及。

除此之外，GPU在此前之所以出現(xiàn)價(jià)格瘋漲和缺貨漩渦，一方面，是線上辦公模式的興起，另一方面，是它不務(wù)正業(yè)的應(yīng)用，挖礦。反觀現(xiàn)在發(fā)展態(tài)勢(shì)，線上辦公紅利期早已結(jié)束，加之加密貨幣亂象已終止，AMD也在財(cái)報(bào)中坦言其獨(dú)立GPU業(yè)務(wù)受挖礦影響較大。

按照這種邏輯來(lái)看，國(guó)產(chǎn)GPU大多數(shù)量產(chǎn)時(shí)間均處于下行周期內(nèi)，且缺乏大規(guī)模應(yīng)用契機(jī)，將會(huì)迎接不小的市場(chǎng)考驗(yàn)。

何解？

一種解法是劍走偏鋒，逆向投資。果殼硬科技曾在歷史文章《半導(dǎo)體跑步進(jìn)入大過(guò)剩時(shí)代》中提到，半導(dǎo)體行業(yè)存在逆向投資的策略。如三星半導(dǎo)體三次在全球半導(dǎo)體市場(chǎng)走弱的情況下逆向投資，擴(kuò)大產(chǎn)能，擊敗美國(guó)、日本、歐洲玩家，在DRAM芯片市場(chǎng)拿下超40%份額，穩(wěn)坐頭把交椅。

另一種解法是抓住現(xiàn)有空間，撐到市場(chǎng)反漲。現(xiàn)如今，算力成為重要生產(chǎn)力，每12個(gè)月便會(huì)增長(zhǎng)一倍，同時(shí)每投入1元在算力上，就能帶動(dòng)3～4元的GDP經(jīng)濟(jì)增長(zhǎng)，因此才會(huì)有東數(shù)西算這種重要策略。國(guó)產(chǎn)需要抓住現(xiàn)有機(jī)遇，期待下一個(gè)半導(dǎo)體上行周期。［49］

國(guó)產(chǎn)GPU需要更多時(shí)間沉淀

與此同時(shí)，國(guó)內(nèi)GPU也存在一些有趣的現(xiàn)象。

科工力量曾指出，為了在宣傳中超越英偉達(dá)，國(guó)產(chǎn)GPU存在田忌賽馬式比拼，如某款標(biāo)榜超越國(guó)際旗艦級(jí)算力的GPU，卻不支持雙精度浮點(diǎn)運(yùn)算，只能用于人工智能方向。［50］

問(wèn)芯Voice指出，號(hào)稱國(guó)產(chǎn)GPU有名不副實(shí)的情況，一種是內(nèi)建AI加速器來(lái)跑個(gè)別性能指標(biāo)的分?jǐn)?shù)，并以此宣傳超過(guò)英偉達(dá)，但實(shí)際上AI應(yīng)用覆蓋的是千行百業(yè)，不可能只為了跑一兩個(gè)性能指標(biāo)，一顆好芯片的關(guān)鍵是通用性［51］；另一種是使用第三方的GPU IP授權(quán)，并宣稱是自研自主可控。［52］

事實(shí)上，半導(dǎo)體行業(yè)從來(lái)都不是浮躁心態(tài)的短線交易，而是一個(gè)需要長(zhǎng)期技術(shù)沉淀與大魚(yú)吞小魚(yú)式洗牌的過(guò)程。對(duì)于難度極高的GPU，國(guó)產(chǎn)更需平心靜氣，超越英偉達(dá)并非一兩日的易事。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴