一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Ampere架構(gòu)解析:相比上一代做了哪些提升

工程師鄧生 ? 來源:中關(guān)村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價(jià)格卻與上一代顯卡相同。

在9月2日發(fā)布會(huì)當(dāng)天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng),每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。

而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來性能最強(qiáng)大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒,下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個(gè)GPC(圖形處理集群)42個(gè)TPC(紋理處理集群)以及84個(gè)SM(流處理器)組成。

GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊,擁有所有的關(guān)鍵圖形處理單元,每個(gè)GPC包含一個(gè)專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中,每個(gè)GPC還包含了兩個(gè)ROP分區(qū),每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來看看每個(gè)SM單元的變化。

在每個(gè)SM中,包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心,4個(gè)第三代Tensor Core,1個(gè)第二代RT Core,1個(gè)256 KB的緩存文件,1個(gè)128 KB的L1緩存,這個(gè)L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存,工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè),而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。

但是大家要知道專業(yè)計(jì)算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個(gè)CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?

其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。

我們?cè)诎l(fā)布會(huì)中經(jīng)常聽到性能翻倍的說法,其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍,同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計(jì)算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來計(jì)數(shù),而是只統(tǒng)計(jì)FP32單元的數(shù)量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。

如RTX 3080的8704個(gè)CUDA,其實(shí)它只有4352個(gè)INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多,圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請(qǐng)求,交給RT Core來處理,它將進(jìn)行兩種測(cè)試,分別為邊界交叉測(cè)試(Box Intersection testing)和三角形交叉測(cè)試(Triangle Intersection testing)。

基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續(xù)測(cè)試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時(shí)的正是求交計(jì)算,因此,要提升光線追蹤性能,主要是對(duì)兩種求交(BVH/三角形求交)進(jìn)行加速。

在Turing的RT Core中,可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊,這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動(dòng)態(tài)模糊的影像時(shí),按照NVIDIA自己的實(shí)測(cè),比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強(qiáng)化,Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng),在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動(dòng)識(shí)別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時(shí)依然能保持不錯(cuò)的精度。

首先原始的密集矩陣會(huì)經(jīng)過訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過訓(xùn)練稀疏矩陣,從而實(shí)現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間,對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù),經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機(jī)械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫對(duì)于CPU是極大的負(fù)擔(dān)。

在這個(gè)過程中,會(huì)占用多個(gè)CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。

當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變,還需要借助微軟發(fā)布的DirectStorage來實(shí)現(xiàn),對(duì)于目前容量的游戲來說,RTX IO的改善效果有限,但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候,這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時(shí)搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會(huì)有玩家會(huì)問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。

Turing為我們開創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來的發(fā)展方向,真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實(shí)。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106412
  • 顯卡
    +關(guān)注

    關(guān)注

    16

    文章

    2505

    瀏覽量

    69542
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    528

    瀏覽量

    25986
  • Ampere
    +關(guān)注

    關(guān)注

    1

    文章

    81

    瀏覽量

    4711
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    泰克示波器MSO6B與上一代MSO5對(duì)比

    作為電子測(cè)試與測(cè)量領(lǐng)域的領(lǐng)先品牌,泰克科技始終致力于為工程師提供更高效、精準(zhǔn)的測(cè)試工具。其最新推出的MSO6B系列混合信號(hào)示波器在繼承上一代MSO5系列優(yōu)點(diǎn)的基礎(chǔ)上,實(shí)現(xiàn)了多項(xiàng)關(guān)鍵技術(shù)的突破與升級(jí)
    的頭像 發(fā)表于 06-09 15:30 ?221次閱讀

    NVIDIA 采用納微半導(dǎo)體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級(jí)算力需求

    800V HVDC電源架構(gòu)開發(fā),旗下GaNFast?氮化鎵和GeneSiC?碳化硅技術(shù)將為Kyber機(jī)架級(jí)系統(tǒng)內(nèi)的Rubin Ultra等GPU提供電力支持。 ? NVIDIA推出的下一代800V
    發(fā)表于 05-23 14:59 ?1409次閱讀
    <b class='flag-5'>NVIDIA</b> 采用納微半導(dǎo)體開發(fā)新<b class='flag-5'>一代</b>數(shù)據(jù)中心電源<b class='flag-5'>架構(gòu)</b> 800V HVDC 方案,賦能下<b class='flag-5'>一代</b>AI兆瓦級(jí)算力需求

    NVIDIA NVLink 深度解析

    引言 NVIDIA NVLink 是種關(guān)鍵的高速互連技術(shù),專為加速計(jì)算而設(shè)計(jì),尤其是在多 GPU 系統(tǒng)以及 GPU 和支持 CPU 之間 ^1^。NVLink 的出現(xiàn)標(biāo)志著傳統(tǒng)互連瓶頸的突破,凸顯
    的頭像 發(fā)表于 05-06 18:14 ?1621次閱讀

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協(xié)議SoC的革新 Nordic Semiconductor最新發(fā)布的??nRF54H20??作為nRF54H系列首款SoC,標(biāo)志著低功耗無線技術(shù)的又次飛躍。這款采用??多核
    發(fā)表于 04-26 23:25

    使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu)
    的頭像 發(fā)表于 03-25 15:11 ?703次閱讀

    軟銀集團(tuán)將收購(gòu)Ampere Computing

    的全資子公司運(yùn)營(yíng)并保留其公司名稱。作為此次交易的部分,Ampere 的主要投資者 —— 凱雷投資集團(tuán)(NASDAQ:CG)和甲骨文公司(NYSE:ORCL)—— 將出售各自在 Ampere 的股份。
    的頭像 發(fā)表于 03-20 17:55 ?630次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?738次閱讀

    寶馬發(fā)布全新一代智能電子電氣架構(gòu)

    "超級(jí)大腦"賦能寶馬新世代車型智能駕駛樂趣 全新一代電子電氣架構(gòu)搭載新世代車型,覆蓋全動(dòng)力系統(tǒng)和全細(xì)分車型 全新一代電子電氣架構(gòu)集成算力提升
    的頭像 發(fā)表于 03-13 15:42 ?312次閱讀

    納芯微發(fā)布新一代CSP封裝MOSFET NPM12017A系列

    提升了電氣與極限能力。以首發(fā)產(chǎn)品NPM12017A為例,典型阻值相比上一代降低了26%,溫升降低近30%,極限耐受能力如短路及雪崩能力等提升近50%,達(dá)到國(guó)際領(lǐng)先水準(zhǔn)。同時(shí),憑借12寸COT工藝,NPM12017A在極具性價(jià)比的
    的頭像 發(fā)表于 03-12 10:33 ?2276次閱讀

    軟銀接近達(dá)成收購(gòu)Ampere協(xié)議

    近日,據(jù)報(bào)道,軟銀集團(tuán)目前正就收購(gòu)芯片設(shè)計(jì)公司Ampere Computing LLC進(jìn)行深入磋商。這消息引起了業(yè)界的廣泛關(guān)注。 據(jù)悉,軟銀集團(tuán)正在與Ampere進(jìn)行積極談判,旨在達(dá)成
    的頭像 發(fā)表于 02-06 14:19 ?432次閱讀

    天璣8400全大核、端側(cè)AI,續(xù)寫“神U”傳奇!

    的緩存大幅提升相比上一代,二級(jí)緩存增加倍,三級(jí)緩存增加50%。 ? 借助精準(zhǔn)的能效調(diào)控技術(shù),天璣8400 CPU的多核功耗相較上一代降低
    的頭像 發(fā)表于 12-24 15:15 ?1493次閱讀
    天璣8400全大核、端側(cè)AI,續(xù)寫“神U”傳奇!

    NVIDIA 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

    人群提供更強(qiáng)大的生成式 AI 功能與性能,目前建議零售價(jià) 2070 人民幣。 ? 該開發(fā)者套件現(xiàn)已上市,與上一代產(chǎn)品相比,其生成式
    發(fā)表于 12-18 17:01 ?723次閱讀
    <b class='flag-5'>NVIDIA</b> 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

    相比上一代低功耗藍(lán)牙芯片,CC2745P到底升級(jí)了什么?

    TI最近發(fā)布了新一代藍(lán)牙芯片CC2745P,那么相對(duì)于上一代CC2642芯片,做了哪些升級(jí),在實(shí)際應(yīng)用中有哪些優(yōu)勢(shì)?。CC2745P/CC2642基本參數(shù)對(duì)比如下:型號(hào)CC2745PCC2642
    發(fā)表于 11-15 14:11

    嵌入式MXM模塊(NVIDIA安培架構(gòu))

    電子發(fā)燒友網(wǎng)站提供《嵌入式MXM模塊(NVIDIA安培架構(gòu)).pdf》資料免費(fèi)下載
    發(fā)表于 10-09 11:09 ?0次下載

    支持電子設(shè)備進(jìn)步降低功耗的第5平面型肖特基勢(shì)壘二極管

    ROHM第5平面肖特基勢(shì)壘二極管的效率比上一代產(chǎn)品又提高了25%,有助于進(jìn)步提高開關(guān)電源的效率。
    的頭像 發(fā)表于 08-09 15:21 ?1.4w次閱讀
    支持電子設(shè)備進(jìn)<b class='flag-5'>一</b>步降低功耗的第5<b class='flag-5'>代</b>平面型肖特基勢(shì)壘二極管