一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談GPU: 衡量計(jì)算效能的正確姿勢(shì)(3)

Linux閱碼場(chǎng) ? 來(lái)源:面包板社區(qū) ? 作者:Linux閱碼場(chǎng) ? 2021-04-16 11:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上期我們講了現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu)通過(guò)處理器(CPU/GPU)和內(nèi)存的交互來(lái)執(zhí)行計(jì)算程序,處理輸入數(shù)據(jù),并輸出結(jié)果。實(shí)際上,由于CPU是高速器件,而內(nèi)存訪問(wèn)速度往往受限(如圖所示,CPU和內(nèi)存的性能差距從上個(gè)世紀(jì)80年代開始,不斷拉大),為解決速度匹配的問(wèn)題,在CPU和內(nèi)存之間設(shè)置了高速緩沖存儲(chǔ)器Cache。

04180576-9e23-11eb-8b86-12bb97331649.png

而且Cache往往分幾個(gè)層級(jí),與內(nèi)存以及其它外部存儲(chǔ)器共同構(gòu)成計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器層次結(jié)構(gòu)(Memory Hierarchy),如下圖所示,使得整個(gè)系統(tǒng)在性能,成本和制造工藝達(dá)到平衡。

045341ae-9e23-11eb-8b86-12bb97331649.jpg

我們可以看到,各個(gè)存儲(chǔ)層次在訪問(wèn)時(shí)間上存在數(shù)量級(jí)別的差異,訪問(wèn)速度越快,單位制造成本越高,容量越小。在這里,我們并不打算討論Cache具體設(shè)計(jì)和實(shí)現(xiàn),只是希望針對(duì)Cache及其命中率對(duì)性能的影響有一個(gè)直觀的認(rèn)識(shí)。為了簡(jiǎn)化討論問(wèn)題的復(fù)雜性,我們這里做如下假設(shè)。

整個(gè)流水線分為5個(gè)階段,分別為《1》取指、《2》譯碼、《3》運(yùn)算執(zhí)行、《4》訪存讀寫 (可選)、《5》寫回結(jié)果至寄存器

這里只考慮一級(jí)Cache,而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下,每個(gè)階段都是1個(gè)時(shí)鐘(cycle),而cache不命中的情況,階段《1》,《5》各耗時(shí)100個(gè)時(shí)鐘(cycles)。

訪存指令占所有指令1/3。下面我們來(lái)分別計(jì)算3種情況下的CPI。

= 100 cycles + 3 * (1 cycle) + ((1 cycle * 2/3) + (100 cycles * 1/3))

= 137 cycles.

= (1 cycle * 0.9 + 100 cycles * (1 - 0.9)) + (3 cycles) + ((1 cycle * (2/3 + 0.9/3)) + (100cycles * (1 - 0.9) * 1/3))

= 18.2 cycles.

= (1 cycle * (0.99) + 100 cycles * (1 - 0.99)) + (3 cycles) + ((1 cycle * (2/3 + 0.99/3)) + (100 cycles * (1 - 0.99) * 1/3))

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到90%。

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到99%

CPI = 《1》階段的時(shí)鐘+《2, 3, 5》階段的時(shí)鐘+《4》階段的時(shí)鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問(wèn),DRAM的耗能是SRAM的百倍(640pJ vs 5pJ)。完全可見正確配置Cache對(duì)高能效高性能計(jì)算的重要作用。

值得一提的是,由于CPU和GPU設(shè)計(jì)面向的差異,他們的Memory Hierarchy存在明顯的區(qū)別,一個(gè)典型的對(duì)比如下圖,可以看到GPU的Memeory Hierarchy設(shè)計(jì)的時(shí)候更注意帶寬或者說(shuō)Throughput,而相比之下對(duì)Latency就沒(méi)有CPU重視, GPU Cache容量也相對(duì)比較小。

045d4bae-9e23-11eb-8b86-12bb97331649.png

那我們不禁要問(wèn),GPU的Latency指標(biāo)這么糟糕,按照我們先前的計(jì)算,Cache不命中的后果是不是很嚴(yán)重?不過(guò)不要擔(dān)心,CPU的Cache不命中可能會(huì)導(dǎo)致叫停流水線的嚴(yán)重后果,而對(duì)GPU,只要計(jì)算任務(wù)量足夠,它的硬件調(diào)度器(Hardware Scheduler)能夠自動(dòng)在不同的任務(wù)間無(wú)縫切換,來(lái)掩藏特定任務(wù)訪問(wèn)memory帶來(lái)的延遲。關(guān)于GPU的Latency hiding,值得大書特書,我們以后會(huì)詳細(xì)討論。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11080

    瀏覽量

    217089
  • Cache
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    29076

原文標(biāo)題:GPU: 衡量計(jì)算效能的正確姿勢(shì)(3)

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何選擇合適的電池電量計(jì)

    最優(yōu)的電池性能依賴于驅(qū)動(dòng)電量計(jì)算法的高精度的電池模型?;ㄙM(fèi)大量時(shí)間進(jìn)行定制特征分析能夠獲得高精度電池性能、最大程度減小電池電量的(SOC)誤差,以及正確預(yù)測(cè)電池何時(shí)接近空電量。
    發(fā)表于 07-10 14:23 ?0次下載

    常見傳動(dòng)機(jī)構(gòu)負(fù)載慣量計(jì)算方法及實(shí)例

    傳動(dòng)機(jī)構(gòu)負(fù)載慣量計(jì)算方法 1. 絲桿傳動(dòng)機(jī)構(gòu) 絲桿傳動(dòng)機(jī)構(gòu)廣泛應(yīng)用于精密定位系統(tǒng)中。其負(fù)載慣量的計(jì)算需要考慮負(fù)載質(zhì)量、絲桿導(dǎo)程、絲桿直徑以及摩擦系數(shù)等因素。 假設(shè)負(fù)載質(zhì)量為m,絲桿導(dǎo)程為Pb,絲桿直徑為Db,負(fù)載移動(dòng)速度為
    的頭像 發(fā)表于 04-23 17:38 ?949次閱讀
    常見傳動(dòng)機(jī)構(gòu)負(fù)載慣<b class='flag-5'>量計(jì)算</b>方法及實(shí)例

    GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)

    傳統(tǒng)的CPU雖然在日常計(jì)算任務(wù)中表現(xiàn)出色,但在面對(duì)大規(guī)模并行計(jì)算需求時(shí),其性能往往捉襟見肘。而GPU加速計(jì)算平臺(tái)憑借其獨(dú)特的優(yōu)勢(shì),吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面,AI部落小編為
    的頭像 發(fā)表于 02-23 16:16 ?431次閱讀

    GPU計(jì)算服務(wù)怎么樣

    在當(dāng)今數(shù)字化快速發(fā)展的時(shí)代,高性能計(jì)算需求日益增長(zhǎng)。為滿足這些需求,GPU計(jì)算服務(wù)應(yīng)運(yùn)而生。那么,GPU計(jì)算服務(wù)怎么樣呢?接下來(lái),AI部
    的頭像 發(fā)表于 02-05 15:01 ?477次閱讀

    調(diào)理電路的噪聲余量計(jì)算如何計(jì)算

    調(diào)理電路的噪聲余量計(jì)算 請(qǐng)問(wèn)各位,在數(shù)據(jù)采集系統(tǒng)中,2Msps要達(dá)到12bit分辨率,選用14bit的ADC。前端調(diào)理電路的噪聲理論余量如何計(jì)算。根據(jù)什么條件確定前端調(diào)理放大器的噪聲指標(biāo)。。。比如調(diào)理電路的總噪聲不能夠超過(guò)多少?該如何
    發(fā)表于 01-21 07:55

    算智算中心的算力如何衡量

    (ComputationalPower)是指智算中心通過(guò)其內(nèi)部的計(jì)算設(shè)備(如CPU、GPU、AI芯片等)對(duì)數(shù)據(jù)進(jìn)行處理和計(jì)算的能力。它體現(xiàn)了智算中心在單位時(shí)間內(nèi)能夠完成的計(jì)算任務(wù)量,
    的頭像 發(fā)表于 01-16 14:03 ?2502次閱讀
    算智算中心的算力如何<b class='flag-5'>衡量</b>?

    電磁流量計(jì)正確調(diào)試步驟

    電磁流量計(jì)在自來(lái)水、生活用水、制藥等行業(yè)有著非常多的應(yīng)用,但是很多用戶們采購(gòu)后根據(jù)專業(yè)復(fù)雜的說(shuō)明書并不能正確的調(diào)試好產(chǎn)品并使用它。經(jīng)過(guò)我司售后部門的統(tǒng)計(jì)。百分之七十及以上的客戶朋友們收到貨后都會(huì)致電
    的頭像 發(fā)表于 01-12 09:19 ?1526次閱讀

    芯原發(fā)布新一代Vitality架構(gòu)GPU IP系列

    上實(shí)現(xiàn)了顯著提升,并支持多核擴(kuò)展,為用戶提供更加出色的性能體驗(yàn)。該架構(gòu)集成了諸多先進(jìn)功能,如一個(gè)可配置的張量計(jì)算核心(Tensor Core)AI加速器,以及一個(gè)容量高達(dá)32MB至64MB的三級(jí)(L3)緩存,這些配置共同保證了強(qiáng)大的處理能力和卓越的能效表現(xiàn)。 針對(duì)云游戲領(lǐng)
    的頭像 發(fā)表于 12-24 10:55 ?928次閱讀

    芯原推出新一代高性能Vitality架構(gòu)GPU IP系列

    原新一代Vitality GPU架構(gòu)顯著提升了計(jì)算性能,并支持多核擴(kuò)展,以進(jìn)一步提升性能。該GPU架構(gòu)集成了諸多先進(jìn)功能,如一個(gè)可配置的張量計(jì)算核心(Tensor Core)AI加速器
    的頭像 發(fā)表于 12-19 15:55 ?493次閱讀

    云端超級(jí)計(jì)算機(jī)使用教程

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過(guò)網(wǎng)絡(luò)向用戶提供按需的計(jì)算服務(wù)。下面,AI部落小編為
    的頭像 發(fā)表于 12-17 10:19 ?550次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    。 2. 操作系統(tǒng)支持:CST Studio Suite在不同操作系統(tǒng)上持續(xù)測(cè)試,可在支持的操作系統(tǒng)上使用GPU計(jì)算,具體參考相關(guān)文檔。 3. 許可證:GPU
    發(fā)表于 12-16 14:25

    平衡流量計(jì)計(jì)算公式

    量計(jì)計(jì)算公式的重要性及應(yīng)用你了解嗎? 一、管道流速公式 這是平衡流量計(jì)中最基本的計(jì)算公式之一,它基于流體的質(zhì)量守恒定律。通過(guò)測(cè)量管道中的壓力差和密度,可以
    的頭像 發(fā)表于 10-25 14:14 ?766次閱讀
    平衡流<b class='flag-5'>量計(jì)</b><b class='flag-5'>計(jì)算</b>公式

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來(lái)加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜
    的頭像 發(fā)表于 10-25 09:23 ?597次閱讀

    GPU計(jì)算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計(jì)算主板 信號(hào)計(jì)算主板 視頻處理 相機(jī)信號(hào)

    GPU計(jì)算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計(jì)算主板 信號(hào)計(jì)算
    的頭像 發(fā)表于 10-23 10:09 ?654次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>計(jì)算</b>主板學(xué)習(xí)資料第735篇:基于<b class='flag-5'>3</b>U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計(jì)算</b>主板 信號(hào)<b class='flag-5'>計(jì)算</b>主板 視頻處理 相機(jī)信號(hào)

    云端超級(jí)計(jì)算機(jī)怎么用

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過(guò)網(wǎng)絡(luò)向用戶提供按需的計(jì)算服務(wù)。
    的頭像 發(fā)表于 10-18 10:14 ?481次閱讀