一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU競爭壁壘:微架構(gòu)和平臺生態(tài)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:架構(gòu)師技術(shù)聯(lián)盟 ? 2023-05-15 11:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)Global Market Insights 數(shù)據(jù),全球 GPU 市場預(yù)計將以 CAGR 25.9%持續(xù)增長,至 2030 年達到 4000 億美元規(guī)模。其中 AI 領(lǐng)域大語言模型的持續(xù)推出以及參數(shù)量的不斷增長有望驅(qū)動模型訓(xùn)練端、推理端 GPU 需求快速增長。

近年來,國產(chǎn) GPU 廠商在圖形渲染 GPU 和高性能計算 GPGPU 領(lǐng)域上均推出了較為成熟的產(chǎn)品,在性能上不斷追趕行業(yè)主流產(chǎn)品,在特定領(lǐng)域達到業(yè)界一流水平。生態(tài)方面國產(chǎn)廠商大多兼容英偉達 CUDA,融入大生態(tài)進而實現(xiàn)客戶端不斷導(dǎo)入。在高端GPU 芯片進口受限的背景下,國產(chǎn) GPU 廠商預(yù)計將乘政策東風(fēng),抓住國產(chǎn)替代契機快速成長。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(圖形處理器)最初是為了解決 CPU 在圖形處理領(lǐng)域性能不足的問題而誕生。CPU 作為核心控制計算單元,高速緩沖存儲器(Cache)、控制單元(Control)在 CPU 硬件架構(gòu)設(shè)計中所占比例較大,主要為實現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在,而計算單元(ALU)所占比例較小,這使得 CPU 的大規(guī)模并行計算表現(xiàn)不佳。GPU 架構(gòu)內(nèi)主要為計算單元,采用極簡的流水線進行設(shè)計,適合處理高度線程化、相對簡單的并行計算,在圖像渲染等涉及大量重復(fù)運算的領(lǐng)域擁有更強運算能力。 GPGPU脫胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 異構(gòu)計算解決多元化計算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大語言模型開啟 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常見的AI 加速芯片主要為GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大語言模型有望拉動 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架構(gòu)是用以實現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計 以 Nvidia 第一個實現(xiàn)統(tǒng)一著色器模型的 Tesla 微架構(gòu)為例,從頂層 Host Interface 接受來自 CPU 的數(shù)據(jù),藉由 Vertex(頂點)、Pixel(片元)、Compute(計算著色器)分發(fā)給各 TPC(Texture Processing Clusters 紋理處理集群)進行處理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流處理器、特殊函數(shù)計算單元構(gòu)成計算核心 在單個 TPC 中主要的運算結(jié)構(gòu)為SM(Streaming Multiprocessor 流式多處理器),其內(nèi)在蘊含 I Cache(指令緩存)、C Cache(常量緩存)以及核心的計算單元 SP(Streaming Processor 流處理器)和 SFU(Special Function Unit 特殊函數(shù)計算單元),外加 Texture Unit(紋理單元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦計算單元,擁抱通用計算 由于圖形渲染流管線相對固定,Nvidia 在 Tesla構(gòu)中將部分重要環(huán)節(jié)剝離并實現(xiàn)可編程,解耦出 SM 計算單元用于通用計算,即可實現(xiàn)根據(jù)具體任務(wù)需要分配相應(yīng)線程實現(xiàn)通用計算處理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

計算核心、紋理單元增加, GPC 功能更加完整,Nvidia Fermi 架構(gòu)奠定完整GPU 計算架構(gòu)基礎(chǔ)。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一個完整的 GPU 計算架構(gòu) Fermi通過制程微縮增加更多計算核心、紋理單元,并且通過增加 PolyMorph Engine(多形體引擎)和 Raster Engine(光柵引擎)使得原來 TPC 升級成為擁有更加完整功能的 GPC(Graphics Processing Clusters 圖形處理器集群)。Fermi 架構(gòu)共包含 4 個 GPC,16 個 SM,512 個CUDA Core。

英偉達GPU從最初 Fermi 架構(gòu)到最新的 Ampere 架構(gòu)和 Hopper 架構(gòu)

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一階段都在性能和能效比方面得到提升,引入了新技術(shù),如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在圖形渲染、科學(xué)計算和深度學(xué)習(xí)等領(lǐng)域發(fā)揮重要作用。最新一代 Hopper 架構(gòu)在 2022 年 3 月推出,旨在加速 AI 模型訓(xùn)練,使用 Hopper Tensor Core 進行 FP8 和 FP16 的混合精度計算,以大幅加速Transformer 模型的 AI 計算。與上一代相比,Hopper 還將 TF32、FP64、FP16 和INT8 精度的每秒浮點運算(FLOPS)提高了 3 倍。

AMD 作為全球第二大GPU廠商,亦通過持續(xù)的架構(gòu)演進保持其市場領(lǐng)先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

從2010年以來,AMD 相繼推出:GCN 架構(gòu)、RDNA 架構(gòu)、RDNA 2 架構(gòu)、RDNA 3 架構(gòu)、CDNA 架構(gòu)和 CDNA 2 架構(gòu)。最新一代面向高性能計算和人工智能 CDNA 2 架構(gòu)于架構(gòu)采用增強型 Matrix Core 技術(shù),支持更廣泛的數(shù)據(jù)型和應(yīng)用,針對高性能計算工作負載帶來全速率雙精度和全新 FP64 矩陣運算。基于 CDNA2 架構(gòu)的 AMD Instinct MI250X GPU FP64 雙精度運算算力最高可達 95.7 TFLOPs。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4925

    瀏覽量

    130925
  • 微架構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    7174

原文標(biāo)題:GPU競爭壁壘:微架構(gòu)和平臺生態(tài)

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 架構(gòu)分析」書中的芯片知識是比較接近當(dāng)前的頂尖芯片水平的,同時包含了芯片架構(gòu)的基礎(chǔ)知識,但該部分知識比較晦澀難懂,或許是由于我一
    發(fā)表于 06-18 19:31

    從封閉到開放:聚徽解碼安卓工控機如何打破工業(yè)軟件生態(tài)壁壘

    、模塊化設(shè)計與生態(tài)協(xié)同能力,正成為破解工業(yè)軟件生態(tài)壁壘的關(guān)鍵突破口。 一、開源架構(gòu):重構(gòu)工業(yè)軟件開發(fā)范式 安卓系統(tǒng)的開源特性徹底顛覆了傳統(tǒng)工業(yè)軟件開發(fā)模式。傳統(tǒng)工控系統(tǒng)依賴廠商封閉AP
    的頭像 發(fā)表于 06-09 15:42 ?199次閱讀

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強大的并行計算引擎,廣泛應(yīng)用于人工智能、科學(xué)計算
    的頭像 發(fā)表于 05-30 10:36 ?291次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>深度解析

    ARM Mali GPU 深度解讀

    ARM Mali GPU 深度解讀 ARM Mali 是 Arm 公司面向移動設(shè)備、嵌入式系統(tǒng)和基礎(chǔ)設(shè)施市場設(shè)計的圖形處理器(GPU)IP 核,憑借其異構(gòu)計算架構(gòu)、能效優(yōu)化和生態(tài)協(xié)同,
    的頭像 發(fā)表于 05-29 10:12 ?760次閱讀

    iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    性能強 iTOP-3588S開發(fā)板采用瑞芯RK3588S處理器,是全新一代AloT高端應(yīng)用芯片,搭載八核64位CPU,四核Cortex-A76和四核Cortex-A55架構(gòu)主頻高達2.4GHZ
    發(fā)表于 05-15 10:36

    GPU加速計算平臺的優(yōu)勢

    傳統(tǒng)的CPU雖然在日常計算任務(wù)中表現(xiàn)出色,但在面對大規(guī)模并行計算需求時,其性能往往捉襟見肘。而GPU加速計算平臺憑借其獨特的優(yōu)勢,吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面,AI部落小編為大家分享GPU加速計算
    的頭像 發(fā)表于 02-23 16:16 ?397次閱讀

    《算力芯片 高性能 CPUGPUNPU 架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    在數(shù)據(jù)挖掘工作中,我經(jīng)常需要處理海量數(shù)據(jù)的深度學(xué)習(xí)任務(wù),這讓我對GPU架構(gòu)和張量運算充滿好奇。閱讀《算力芯片》第7-9章,讓我對這些關(guān)鍵技術(shù)有了全新認識。 GPU架構(gòu)從早期的固定功能流
    發(fā)表于 11-24 17:12

    GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

    眾所周知,在大型模型訓(xùn)練中,通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對GPU
    的頭像 發(fā)表于 11-05 16:20 ?1151次閱讀
    <b class='flag-5'>GPU</b>服務(wù)器AI網(wǎng)絡(luò)<b class='flag-5'>架構(gòu)</b>設(shè)計

    【「算力芯片 | 高性能 CPU/GPU/NPU 架構(gòu)分析」閱讀體驗】--了解算力芯片GPU

    本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進及CPGPU存儲體系與線程管理 █從圖形到計算的GPU架構(gòu)演進 GPU圖像計算發(fā)展 ●從三角形開始
    發(fā)表于 11-03 12:55

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學(xué)計算、數(shù)據(jù)分析、機器學(xué)習(xí)等復(fù)雜計算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?568次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 架構(gòu)分析」閱讀體驗】--全書概覽

    、GPU、NPU,給我們剖析了算力芯片的架構(gòu)。書中有對芯片方案商處理器的講解,理論聯(lián)系實際,使讀者能更好理解算力芯片。 全書共11章,由淺入深,較系統(tǒng)全面進行講解。下面目錄對全書內(nèi)容有一個整體了解
    發(fā)表于 10-15 22:08

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

    算法的引擎GPU、GPU硬件架構(gòu)剖析、GPU服務(wù)器的設(shè)計與實現(xiàn)、GPU集群的網(wǎng)絡(luò)設(shè)計與實現(xiàn)、GPU
    發(fā)表于 10-08 10:40

    名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 架構(gòu)分析

    ,即大模型專用AI超級計算機的中樞核心。 作者介紹: 濮元愷,曾就職于中關(guān)村在線核心硬件事業(yè)部,負責(zé)CPU和GPU類產(chǎn)品評測,長期關(guān)注GPGPU并行計算相關(guān)芯片架構(gòu)。目前在量化金融領(lǐng)域,主要負表
    發(fā)表于 09-02 10:09

    ALINX FPGA+GPU架構(gòu)視頻圖像處理開發(fā)平臺介紹

    Alinx 最新發(fā)布的新品 Z19-M 是一款創(chuàng)新的 FPGA+GPU 異構(gòu)架構(gòu)視頻圖像處理開發(fā)平臺,它結(jié)合了 AMD Zynq UltraScale+ MPSoC(FPGA)與 NVIDIA Jetson Orin NX(
    的頭像 發(fā)表于 08-29 14:43 ?2039次閱讀

    中科馭數(shù)HADOS 3.0:以四大架構(gòu)革新,全面擁抱敏捷開發(fā)理念,引領(lǐng)DPU應(yīng)用生態(tài)

    一家成功的大算力芯片公司,其核心壁壘必須是軟硬兼?zhèn)涞?,既要有芯?b class='flag-5'>架構(gòu)的強大技術(shù)壁壘,更要有持久投入的、生態(tài)兼容完備的軟件護城河。HADOS,就是中科馭數(shù)的軟件護城河。
    的頭像 發(fā)表于 07-09 14:26 ?641次閱讀
    中科馭數(shù)HADOS 3.0:以四大<b class='flag-5'>架構(gòu)</b>革新,全面擁抱敏捷開發(fā)理念,引領(lǐng)DPU應(yīng)用<b class='flag-5'>生態(tài)</b>