久久爽av亚洲精品天堂,亚洲成人一二三区

上期我們講了現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu)通過(guò)處理器（CPU/GPU）和內(nèi)存的交互來(lái)執(zhí)行計(jì)算程序，處理輸入數(shù)據(jù)，并輸出結(jié)果。實(shí)際上，由于CPU是高速器件，而內(nèi)存訪問(wèn)速度往往受限（如圖所示，CPU和內(nèi)存的性能差距從上個(gè)世紀(jì)80年代開始，不斷拉大），為解決速度匹配的問(wèn)題，在CPU和內(nèi)存之間設(shè)置了高速緩沖存儲(chǔ)器Cache。

而且Cache往往分幾個(gè)層級(jí)，與內(nèi)存以及其它外部存儲(chǔ)器共同構(gòu)成計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器層次結(jié)構(gòu)（Memory Hierarchy），如下圖所示，使得整個(gè)系統(tǒng)在性能，成本和制造工藝達(dá)到平衡。

我們可以看到，各個(gè)存儲(chǔ)層次在訪問(wèn)時(shí)間上存在數(shù)量級(jí)別的差異，訪問(wèn)速度越快，單位制造成本越高，容量越小。在這里，我們并不打算討論Cache具體設(shè)計(jì)和實(shí)現(xiàn)，只是希望針對(duì)Cache及其命中率對(duì)性能的影響有一個(gè)直觀的認(rèn)識(shí)。為了簡(jiǎn)化討論問(wèn)題的復(fù)雜性，我們這里做如下假設(shè)。

整個(gè)流水線分為5個(gè)階段，分別為《1》取指、《2》譯碼、《3》運(yùn)算執(zhí)行、《4》訪存讀寫（可選）、《5》寫回結(jié)果至寄存器。

這里只考慮一級(jí)Cache，而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下，每個(gè)階段都是1個(gè)時(shí)鐘（cycle），而cache不命中的情況，階段《1》，《5》各耗時(shí)100個(gè)時(shí)鐘（cycles）。

訪存指令占所有指令1/3。下面我們來(lái)分別計(jì)算3種情況下的CPI。

= 100 cycles + 3 * （1 cycle） + （（1 cycle * 2/3） + （100 cycles * 1/3））

= 137 cycles.

= （1 cycle * 0.9 + 100 cycles * （1 - 0.9）） + （3 cycles） + （（1 cycle * （2/3 + 0.9/3）） + （100cycles * （1 - 0.9） * 1/3））

= 18.2 cycles.

= （1 cycle * （0.99） + 100 cycles * （1 - 0.99）） + （3 cycles） + （（1 cycle * （2/3 + 0.99/3）） + （100 cycles * （1 - 0.99） * 1/3））

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時(shí)鐘+《2， 3， 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到90%。

CPI = 《1》階段的時(shí)鐘+《2， 3， 5》階段的時(shí)鐘+《4》階段的時(shí)鐘

Cache命中率達(dá)到99%

CPI = 《1》階段的時(shí)鐘+《2， 3， 5》階段的時(shí)鐘+《4》階段的時(shí)鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問(wèn)，DRAM的耗能是SRAM的百倍（640pJ vs 5pJ）。完全可見正確配置Cache對(duì)高能效高性能計(jì)算的重要作用。

值得一提的是，由于CPU和GPU設(shè)計(jì)面向的差異，他們的Memory Hierarchy存在明顯的區(qū)別，一個(gè)典型的對(duì)比如下圖，可以看到GPU的Memeory Hierarchy設(shè)計(jì)的時(shí)候更注意帶寬或者說(shuō)Throughput，而相比之下對(duì)Latency就沒(méi)有CPU重視， GPU Cache容量也相對(duì)比較小。

那我們不禁要問(wèn)，GPU的Latency指標(biāo)這么糟糕，按照我們先前的計(jì)算，Cache不命中的后果是不是很嚴(yán)重？不過(guò)不要擔(dān)心，CPU的Cache不命中可能會(huì)導(dǎo)致叫停流水線的嚴(yán)重后果，而對(duì)GPU，只要計(jì)算任務(wù)量足夠，它的硬件調(diào)度器（Hardware Scheduler）能夠自動(dòng)在不同的任務(wù)間無(wú)縫切換，來(lái)掩藏特定任務(wù)訪問(wèn)memory帶來(lái)的延遲。關(guān)于GPU的Latency hiding，值得大書特書，我們以后會(huì)詳細(xì)討論。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11080

瀏覽量
217089
Cache

Cache

+關(guān)注

關(guān)注
0

文章
130

瀏覽量
29076

原文標(biāo)題：GPU: 衡量計(jì)算效能的正確姿勢(shì)（3）

文章出處：【微信號(hào)：LinuxDev，微信公眾號(hào)：Linux閱碼場(chǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

淺談GPU: 衡量計(jì)算效能的正確姿勢(shì)（3）

評(píng)論