久久久久久久4区5区6区,色婷婷久久99999

持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落，截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡，相比上一代顯卡，RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升，新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor，雖然RTX 30系顯卡擁有諸多提升，但價(jià)格卻與上一代顯卡相同。

在9月2日發(fā)布會(huì)當(dāng)天，雖然過程僅有短短的40分鐘，卻震驚了全世界的用戶。

算力提升

下面我們就來看看，“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu)，做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么，相較于初代的Turing RTX架構(gòu)，NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng)，每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。

而Turing為1次，著色器性能達(dá)到30 TFLOPS單精度性能，而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量，RT Core達(dá)到58 RT TFLOPS，而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中，可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重，處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管，628平方毫米的面積，基于三星的8nm NVIDIA定制工藝，來自美光的GDDR6X顯存，以及我們上面說的，三大處理核心均為初代Turing的兩倍速率，構(gòu)成了有史以來性能最強(qiáng)大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就，可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒，下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個(gè)GPC（圖形處理集群）42個(gè)TPC（紋理處理集群）以及84個(gè)SM（流處理器）組成。

GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊，擁有所有的關(guān)鍵圖形處理單元，每個(gè)GPC包含一個(gè)專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中，每個(gè)GPC還包含了兩個(gè)ROP分區(qū)，每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來看看每個(gè)SM單元的變化。

在每個(gè)SM中，包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心，4個(gè)第三代Tensor Core，1個(gè)第二代RT Core，1個(gè)256 KB的緩存文件，1個(gè)128 KB的L1緩存，這個(gè)L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存，工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè)，而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。

但是大家要知道專業(yè)計(jì)算卡Tesla A100的GA100核心，擁有更大的核心面積，更多的晶體管數(shù)量，理論上只有8192個(gè)CUDA，那RTX 3080又是如何達(dá)到這種效果的呢？

其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。

我們?cè)诎l(fā)布會(huì)中經(jīng)常聽到性能翻倍的說法，其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍，同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計(jì)算顯卡的CUDA數(shù)量，并不是把SM中的所有單元加起來計(jì)數(shù)，而是只統(tǒng)計(jì)FP32單元的數(shù)量，所以這樣一來，SM中的【FP32 ： INT32】從 1:1 變?yōu)?2:1。

如RTX 3080的8704個(gè)CUDA，其實(shí)它只有4352個(gè)INT32單元，但由于內(nèi)部的FP32數(shù)量翻了一倍，所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎？

答案是有，不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多，圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令，而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中，NVIDIA官方宣布為第二代RT Core，它和第一代有什么不同呢。

首先要知道RT Core的工作原理是，著色器發(fā)出光線追蹤的請(qǐng)求，交給RT Core來處理，它將進(jìn)行兩種測(cè)試，分別為邊界交叉測(cè)試（Box Intersection testing）和三角形交叉測(cè)試（Triangle Intersection testing）。

基于BVH算法來判斷，如果是方形，那么就返回縮小范圍繼續(xù)測(cè)試，如果是三角形，則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時(shí)的正是求交計(jì)算，因此，要提升光線追蹤性能，主要是對(duì)兩種求交（BVH/三角形求交）進(jìn)行加速。

在Turing的RT Core中，可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊，這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行，進(jìn)行的光線追蹤越多，加速就越快，它將光線相交的處理性能提升了一倍，在渲染有動(dòng)態(tài)模糊的影像時(shí)，按照NVIDIA自己的實(shí)測(cè)，比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強(qiáng)化，Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng)，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自動(dòng)識(shí)別并消除不太重要的DNN（深度神經(jīng)網(wǎng)絡(luò)）權(quán)重，同時(shí)依然能保持不錯(cuò)的精度。

首先原始的密集矩陣會(huì)經(jīng)過訓(xùn)練，刪除掉稀疏矩陣，再經(jīng)過訓(xùn)練稀疏矩陣，從而實(shí)現(xiàn)稀疏優(yōu)化，進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間，對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提，但存放在硬盤中的數(shù)據(jù)，如果顯卡想要讀取到，需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù)，經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出，讀取速度相較機(jī)械硬盤能夠快20倍，但受制于傳統(tǒng)I/O限制，NVMe高達(dá)7GB/秒的高速讀寫對(duì)于CPU是極大的負(fù)擔(dān)。

在這個(gè)過程中，會(huì)占用多個(gè)CPU核心，壓力急劇增大，占用較多的內(nèi)存，而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步，直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù)，并且完成解壓，降低CPU占用，變向提升了性能。

當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變，還需要借助微軟發(fā)布的DirectStorage來實(shí)現(xiàn)，對(duì)于目前容量的游戲來說，RTX IO的改善效果有限，但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候，這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中，采用了GDDR6X顯存，GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度，與采用GDDR6的Turing相比可提升40%的速度，在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要，如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時(shí)搭配新增的HDMI2.1接口，可以支持單線8K的視頻輸出，而上一代HDMI2.0僅支持4K 98Hz的視頻輸出，如果想要連接8K電視，則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后，會(huì)有玩家會(huì)問，RTX 20系顯卡如此“短壽”算不算失敗的一代，我認(rèn)為不算。

Turing為我們開創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界，奠定了GPU未來的發(fā)展方向，真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀，將上一代的路走的更寬更扎實(shí)。

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5309

瀏覽量
106412
顯卡

顯卡

+關(guān)注

關(guān)注
16

文章
2505

瀏覽量
69542
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
528

瀏覽量
25986
Ampere

Ampere

+關(guān)注

關(guān)注
1

文章
81

瀏覽量
4711

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NVIDIA Ampere架構(gòu)解析：相比上一代做了哪些提升

評(píng)論