AMD RDNA2 GPU架構擴展技術詳解

2019年，AMD 放棄了長期使用的 GCN 架構，轉而采用 RDNA。本文我們將來分析下RDNA 2，RDNA 2在RDNA 1基礎上進行了擴展，同時添加了光線追蹤支持和其他一些增強功能。 ? 在本文中，我們可以做一些有趣的事情，并從 RDNA 2 的角度來看一些游戲。 ?

架構

顧名思義，RDNA 2 建立在 RDNA 1 架構之上。AMD 進行了多項更改以提高效率并使硬件功能保持最新狀態(tài)，但基本的 WGP 架構仍然存在。每個 WGP 或工作組處理器都具有四個 SIMD。每個 SIMD 都有一個32寬的執(zhí)行單元，用于最常見的操作。RDNA 2 獲得一些額外的點積運算指令，以幫助加速機器學習。例如，V_DOT2_F32_F16 將成對的 FP16 值相乘、相加，然后添加一個 FP32 累加器。它不像Nvidia的張量核那樣，在Nvidia中，像HMMA這樣的指令直接處理8×8矩陣。但這些指令讓RDNA 2用更少的指令來做矩陣乘法，而不是使用普通的融合乘法-加法指令。 ?

每個 SIMD 都有 32 個寬度的執(zhí)行單元用于最常見的操作，一個 128 KB 的矢量寄存器文件，并且可以跟蹤多達 16 個波面。因此，AMD 減少了 RDNA 2 可以跟蹤的波面數(shù)量，從 RDNA 1 中的 20 個。GPU 不會像高性能 CPU 那樣進行亂序執(zhí)行。相反，它們保持大量線程處于運行狀態(tài)，并在線程之間切換以保持執(zhí)行單元被占用以隱藏延遲。在 RDNA 2 上，SIMD 基本上有 16 路 SMT，而在 RDNA 1 上有 20 路。 ?

RDNA 2 架構的 WGP 和 Nvidia Ampere 的 SM 的基本草圖 ? 這聽起來像是一種回歸（regression），但跟蹤更多的波陣面(類似于CPU線程)可能是昂貴的。線程或波面選擇邏輯必須解決與CPU調度器非常相似的問題。每個周期，每個條目都必須檢查，看它是否準備好執(zhí)行了。AMD可能希望將每個周期的檢查次數(shù)從20次減少到16次，以便在更低的功率下達到更高的時鐘速度。在相同的處理節(jié)點上，RDNA 2的時鐘比它的前身要高得多，所以AMD在這方面做得很好。 ? RDNA 2也比安培好。盡管這兩種架構都使用基本的構建模塊(SMs或WGP)，每個周期可以執(zhí)行128個FP32操作，但RDNA 2 WGP可以保持64個波陣面。Ampere SM只能保持飛行中的48個warp。RDNA 2也有更多的向量寄存器文件容量，這意味著編譯器可以在不減少占用的情況下在寄存器中保存更多的數(shù)據(jù)。 ?

? 這讓 RDNA 2 WGP 有更好的機會通過保持更多的工作在進行中來隱藏延遲。將其與更好的緩存相結合，每個 RDNA 2 WGP 都應該能夠比 Ampere SM 更有力。 ? WGP 的四個 SIMD 被組織成兩個一組，AMD 稱之為計算單元 (CU)。一個 CU 有自己的內存管道和 16 KB L0 向量緩存。在 CU 級別，AMD 增強了內存管道以添加硬件光線跟蹤加速。具體來說，紋理單元現(xiàn)在可以執(zhí)行射線相交測試，每個周期進行四次框測試或每個周期進行一次三角形測試。盒子測試發(fā)生在 BVH 的上層，而三角測試發(fā)生在最后一層。BVH，或有界頂點層次結構，使用分而治之的方法加速光線追蹤。因為檢查場景中的每個三角形都非常昂貴，盒子測試縮小了光線穿過的區(qū)域，理想情況下 GPU 最后只檢查一組狹窄的三角形。 ?

RDNA 2中引入的光線追蹤加速指令 ? 光線追蹤加速是通過一些新的紋理指令來訪問的。顯然，這些指令實際上并沒有做傳統(tǒng)的紋理工作，但是紋理單元是附加這個額外功能的一個方便的地方。新的指令本身只做交集測試。常規(guī)的計算著色器代碼處理遍歷BVH。它還必須計算逆射線方向，并將其提供給紋理單元，即使紋理單元本身有足夠的信息來計算。AMD可能想要最小化支持光線追蹤的硬件成本，并且認為他們有足夠的常規(guī)著色器來解決這個問題。 ?

緩存

除了在功能上與英偉達不相上下之外，RDNA 2還可以擴展到性能上。最高端的RDNA 1 GPU RX 5700 XT只有20個WGP。它也建立在一個251平方毫米的小芯片上，與英偉達的中端卡競爭，而不是挑戰(zhàn)他們的高端卡。RDNA 2的RX 6900 XT將WGP數(shù)翻了一番，并提高了時鐘速度，顯示了AMD想要挑戰(zhàn)英偉達最佳性能的雄心。但就像增加CPU的核心數(shù)量一樣，GPU的擴展也會產生更高的帶寬需求。英偉達選擇了耗電384位GDDR6X設置來為安培供電。AMD選擇了256位的GDDR6配置。為了避免內存帶寬瓶頸，RDNA 2獲得了額外級別的緩存。AMD將其命名為“無限緩存”，并在內部將其稱為MALL(內存連接最后一級)。 ?

RDNA 2和英偉達Ampere的緩存層次結構的簡化草圖 ? MALL的名稱是有意義的，因為所有的VRAM訪問都要經過它。RDNA 2的L2也是一個由整個GPU共享的緩存，但是如果虛擬內存頁面被設置為非緩存，就可以繞過它。同步屏障也可以刷新L2以確保一致性。這些訪問可以被RDNA 2上的無限緩存捕獲，而以前的AMD GPU將從VRAM中提供服務。 ? 因為L2應該足夠大以捕獲大量的內存訪問，無限緩存的性能并不是那么重要，AMD在一個單獨的時鐘域上運行無限緩存。這意味著它可以調得更低以節(jié)省電力。 ?

延遲

通過延遲測試，我們可以看到AMD復雜的四級緩存系統(tǒng)的運行情況。我們還可以看到英偉達更簡單的兩級緩存結構。Ampere的SMs具有更大的L1緩存容量，當RDNA WGP必須從較慢的每個SA L1緩存時，可以讓SM服務請求從其第一級緩存。在較大的測試規(guī)模下，RDNA 2具有明顯的延遲優(yōu)勢，特別是當測試規(guī)模溢出英偉達的L2時。 ?

? 與 RDNA 1 相比，前三個緩存級別的性能提升較小，主要來自時鐘速度的提高。然后 Infinity Cache 在更大的測試規(guī)模上產生巨大影響。對于如此大的緩存，延遲非常低。作為對比，RTX 3090 的 L2 有 140 ns 的延遲，但只有 6 MB 的容量。 ? 無限緩存延遲也值得仔細研究。AMD 的 Adrenaline Edition 軟件非常先進，可以讓用戶幾乎任意設置最大時鐘速度。我們可以使用它來查看緩存在 GPU 核心時鐘變化時的行為。 ?

? 在較低的時鐘下，RDNA 2 的 WGP 從 Infinity Cache 獲取數(shù)據(jù)所需的周期更少。這可能意味著在較低時鐘下提高著色器利用率。 ? 從矢量方面，我們看到了同樣的故事。RDNA 2 與速度更快的 RDNA 1 非常相似，帶有一個額外的巨大緩存。矢量訪問比標量訪問延遲更高。Nvidia 沒有單獨的標量內存層次結構。他們的架構確實有常量緩存，但那些是只讀的，并且比 AMD 的標量數(shù)據(jù)路徑服務的用途更有限。 ?

? Nvidia 受益于較小測試規(guī)模的較低延遲，而 RDNA 2 在較大測試規(guī)模上保持優(yōu)勢。AMD 的 L2 和 Infinity Cache 延遲看起來非常好，考慮到 RDNA 2 必須檢查比 Nvidia 更多的緩存級別。一旦我們到達 VRAM，情況就會逆轉。 ?

帶寬

帶寬也很重要，因為 GPU 旨在并行處理大量操作。讓我們從查看單個工作組的帶寬開始。運行單個工作組將我們限制在 AMD 上的單個 WGP，或 Nvidia 架構上的 SM。這是我們可以在 CPU 上獲得的最接近單核帶寬的值。與 CPU 上的單核帶寬一樣，此類測試并不特別代表任何現(xiàn)實世界的工作負載。但它確實讓我們從單個計算單元的角度了解了內存層次結構。 ?

不評論第一級緩存帶寬，因為由于地址生成和邊界檢查開銷，這很難測試 ? 通過一個WGP, RDNA 2通過高時鐘實現(xiàn)了非常高的緩存帶寬。這種優(yōu)勢在大型測試中尤其突出，其中128 MB無限緩存發(fā)揮了作用。AMD的緩存架構比英偉達的要好得多。在低占用時，即使是無限緩存也可以提供比安培L2更多的帶寬。 ? 隨著我們使用更多的工作組和加載更多的WGP或SMs，帶寬需求明顯上升。這對共享緩存提出了更大的要求。AMD在這方面做得很好。L2帶寬開始時非常出色，并且隨著我們加載更多WGPs而擴展得非常好。在我們開始獲得良好的帶寬之前，我們必須在Nvidia的RTX 3090上加載更多的SM。 ?

? Infinity Cache 帶寬擴展也非常好，實際上與 RDNA 1 的 L2 帶寬非常接近。它無法與 Nvidia 的 3090 上的 L2 帶寬相匹配，但它不需要，因為它前面的 4 MB L2 應該可以捕獲大量訪問。到目前為止，AMD 在緩存帶寬方面看起來相當不錯。然而，VRAM 是另一回事。 ?

? Nvidia 擁有巨大的 VRAM 帶寬優(yōu)勢。對于高速緩存無法容納的大量工作負載，Ampere 耗盡 VRAM 帶寬的可能性要小得多。然而，兩代 RDNA 都更善于利用它們擁有的 VRAM 帶寬。他們不需要那么多的工作來充分利用他們的可用帶寬。 ?

CU 和 WGP 模式

AMD RDNA 架構中的 WGP 可以在 WGP 模式和 CU 模式下運行。在 WGP 模式下，128 KB LDS 用作單個統(tǒng)一內存塊。WGP 中的所有四個 SIMD 都可以訪問整個 128 KB。在 CU 模式下，LDS 被分成兩個 64 KB 的一半，每個都與一對 SIMD 相關聯(lián)。 ? LDS延遲在兩種模式下保持相同，約為19.5 ns，即使CU模式應該簡化來自LDS的請求路由。這同樣適用于RDNA 1，它具有大約26.6 ns的LDS延遲。 ? LDS組織差異使我們能夠通過使用單個工作組進行測試來命中單個CU（WGP 的一半）。因為每個CU都有自己的內存管道和L0緩存，所以當我們在WGP中只使用一個CU 時，我們會看到 L0 帶寬下降。一旦我們到達 L2 之后，帶寬就不會下降。 ?

? 與RDNA 1相比，這是一個很大的改進，RDNA 1在緩存層次結構中看到了帶寬的顯著下降。帶寬通常取決于隊列隱藏延遲的能力，因此RDNA 2在分配隊列條目方面可能更靈活。也許L1和L2之間的一些隊列在RDNA 1中按CU分配，但在RDNA 2中按WGP分配。對于GPU工作負載，這意味著如果運行在WGP的一半中的波提前結束，RDNA 2會表現(xiàn)得更好。 ?

從游戲的角度

RDNA 2 是游戲優(yōu)先架構，所以讓我們看看 RX 6900 XT 在這些工作負載中必須處理什么。研究游戲也將幫助我們了解游戲工作負載是什么樣的。 ?

賽博朋克2077,RT On

CD Projekt Red的《賽博朋克2077》是現(xiàn)代GPU技術的展示。它使用帶有大量光線追蹤的DirectX 12來提供豐富的圖形效果。不幸的是，這些影響可能非常嚴重。光線追蹤對性能的影響尤其大。請記住，這個游戲的數(shù)字是在GPU的最大時鐘設置為1800mhz的一致性下獲得的。3950X禁用了boost。因此，這里的數(shù)字不應被視為股票業(yè)績數(shù)字，也不應與其他系統(tǒng)進行比較。我們只關注顯卡在做什么工作。在這場比賽中，我們將沿著Jig Jig街向下看。 ? ? ? RT 相關工作占用大約 21 毫秒的幀時間。其中超過 9 毫秒用于構建 BVH，因此優(yōu)化 BVH 構建時間幾乎與優(yōu)化 BVH 遍歷一樣重要。為了渲染光線追蹤效果，6900 XT 必須進行 5.8 億次方框相交測試和 1.095 億次三角形相交測試。以達到的 25.9 FPS，即每秒 150 億次盒子測試和 28 億次三角測試。 ?

使用 Radeon GPU Profiler 檢查幀。頂視圖在渲染框架時顯示占用情況 ? 除了光線追蹤，賽博朋克還大量使用計算。傳統(tǒng)的光柵化退居二線，也許顯示出尖端游戲的趨勢。因為大部分時間都花在了光線追蹤上，所以讓我們從運行時間最長的 DispatchRays 調用開始仔細看看。具體來說，讓我們看看單獨使用 7.2 毫秒的那個： ?

在我們正在查看的電話周圍放一個方框 ? 在內部，RDNA 2 將光線跟蹤內核視為計算著色器。這個特定的調用啟動了 32,400 個計算波陣面。6900 XT 的 40 個 WGP 總共可以保持 2560 個波面在飛行中，所以這足以填滿整個 GPU。然而，RDNA 2 無法讓這個內核的 2560 個波面保持在飛行狀態(tài)，因為它沒有足夠的向量寄存器文件容量。與 CPU 不同，GPU 可以靈活地分配向量寄存器文件容量。為每個線程（波面）提供更多寄存器有助于防止寄存器溢出，但也會減少它可以保持運行的線程數(shù)量。 ? 對于這個內核，編譯器選擇使用 96 個矢量寄存器，這意味著 RDNA 2 的矢量寄存器文件容量僅足以跟蹤每個 SIMD 的 10 個波面，或者整個 GPU 中的 1600 個。一方面，這意味著每個 SIMD 都無法通過在一個停頓時在波面之間切換來保持執(zhí)行單元忙碌。另一方面，使用更多的寄存器可以讓編譯器暴露更多的指令級并行性。從配置文件來看，RDNA 2 花費大量時間占用受向量寄存器容量限制，因此減少 RDNA 1的最大占用看起來是合理的。 ?

更多關于那次call的細節(jié) ? 在這種情況下，操作者可能做出了正確的權衡，或者至少沒有做出糟糕的決定。51%的矢量ALU使用率處于一個良好的位置。著色器沒有被充分利用。與此同時，利用率不會超過70-80%，這意味著只能使用計算方案。我們也看到少量的LDS使用。AMD使用LDS存儲BVH遍歷堆棧，使寫入和延遲敏感的讀取遠離未優(yōu)化的全局內存路徑。其他光線跟蹤調用顯示了類似的硬件使用模式。 ?

? 這是命中 RT 單元的著色器的基本塊。著色器必須使用三個額外的指令來計算光線方向的倒數(shù)，并將其與光線方向一起提供。三個額外的指令并不多，但這些相互指令相當昂貴，并且與更簡單的 FP32 操作相比只能以四分之一的速率執(zhí)行。最重要的是，編譯器必須使用三個額外的寄存器來保存反向光線方向。我不確定這會產生多大的影響，但還有改進的余地。 ? 不幸的是，AMD 沒有通過他們的分析工具公開 Infinity Cache 計數(shù)器。不過，我們還是可以看看前三級緩存是怎么做的。首先，L0 緩存命中率很差，略低于 55%。即使在 Bulldozer 等低于標準的實現(xiàn)中，CPU 通常也能看到超過 80% 的一級緩存命中率。128 KB 的中級緩存有助于捕捉其中的一些未命中，使累積的 L0+L1 命中率略低于 73%。我在這里的印象是L0和L1緩存太小了。4 MB L2 是這里的英雄，在進入更高延遲的 Infinity Cache 之前將累積命中率提高到 95.4%。 ? RDNA 2 的 16 KB 標量緩存實現(xiàn)了相對較好的命中率，剛好超過 90%，更重要的是從向量路徑卸載了一些請求。從指令方面看，L1i 的命中率超過 99%。GPU 程序的指令足跡似乎比 CPU 程序小，32 KB L1i 似乎足夠了。 ?

BVH建筑

RGP 將幾個部分注釋為對構建BVH的BuildRaytracingAccelerationStructure的調用。如前所述，這些部分占用了很大一部分光線追蹤時間，所以讓我們也看看其中的一個。最長的一個是調用號 4838，奇怪的是它是一個 DispatchRays 調用并顯示交叉測試活動。我不確定那是什么意思，所以我將轉到第二長的那個。 ? 調用4221對應于CmdDispatchBuildBVH，在計算隊列中運行。它的占用率很低，因為只有160個波陣面發(fā)射。這遠遠不足以填滿GPU，所以這部分可能會受到延遲的限制。同步障礙阻止GPU使用異步工作來保持執(zhí)行單元繁忙。幸運的是，這部分只持續(xù)1.7毫秒。 ?

? 與上面介紹的光線遍歷部分不同，AMD 的驅動程序選擇在這個 BVH 構建部分使用 wave64 模式。我懷疑這是最好的選擇。wave32 模式在占用率低的情況下應該更可取，因為它允許更多的線程級并行性。但 AMD 可能有充分的理由使用 wave64，所以我將不再是一個紙上談兵的四分衛(wèi)，而是轉向緩存。 ? 和以前一樣，指令緩存命中率非常高。標量緩存沒有足夠的標量內存訪問。在向量方面，16 KB L0 的性能非常差，命中率低于 25%，而 128 KB L1 也可能不存在。RDNA 的 L2 最終服務于大部分內存流量，并且以比光線遍歷部分更極端的方式。由于占用率很低，L0/L1 緩存命中率很低，L2 延遲很可能成為構建 BVH 時的限制因素。 ?

計算

除了光線追蹤（技術上被視為 RDNA 上的一種計算形式）之外，《賽博朋克 2077》還大量使用了計算著色器。該游戲中的非光線追蹤計算往往包含大量持續(xù)時間較短的調用，而不是一些非常繁重的調用。持續(xù)時間最長的計算調用（編號 4473）是為 wave32 模式編譯的，運行時間不到 0.7 毫秒。RDNA 2 午餐吃這個。著色器不使用大量矢量寄存器或 LDS 空間，并啟動 130,560 個波前。因此，入住率非常好。 ?

? 矢量ALU的利用也很好。事實上，這簡直太好了。再高一點，我們就稱這部分為有限計算。RDNA 2的標量數(shù)據(jù)路徑在卸載應用于波前的計算中起著關鍵作用。緩存命中率也有助于良好的計算利用率。大約94%的向量訪問是由L0和L1緩存提供服務的，其中大部分來自L0。L2使累積命中率超過98%。L1指令緩存和標量緩存的命中率如此之高，以至于失敗基本上是噪音。對于這個著色器，良好的緩存命中率和高占用率結合起來讓RDNA 2發(fā)光。 ? 第二長的計算著色器(編號4884)運行了不到半毫秒，并表現(xiàn)出不同的特征。它使用的是wave64，并且占用被矢量寄存器文件容量限制為每個SIMD只有四個波。盡管如此，RGP仍然報告了非常好的VALU利用率。這可能是因為這個內核絕大多數(shù)由矢量ALU指令組成。沒有太多的內存訪問，而且大量的內存訪問確實會發(fā)生在標量路徑上。 ?

? 此外，這個計算著色器的分支很少，RGP 沒有選擇任何已采用的分支。GPU 上的分支非常昂貴，GPU 沒有分支預測并且必須暫停線程直到分支條件得到解決。沒有采取的分支也意味著分歧不是一個大問題。總的來說，這個著色器主要由直線 FP32 spam組成。GPU 喜歡這些東西。RDNA 2 也不例外，盡管占用率低，但硬件利用率非常好。 ?

賽博朋克 2077，RT關閉

光線追蹤效果很酷，但Cyberpunk 2077在關閉 RT 的情況下看起來仍然非常好。如果美術師和開發(fā)人員擅長他們的工作，傳統(tǒng)的光柵化仍然可以渲染出令人印象深刻的場景，而 CP2077 的工作人員似乎絕對能勝任這項任務。 ?

開頭附近的大量空白區(qū)域沒有 GPU 活動表明我們受 CPU 限制 ? 如果沒有光線追蹤，傳統(tǒng)的頂點和像素著色器就會介入并發(fā)揮更大的作用。然而，該游戲仍然大量使用計算著色器，并且異步計算也出現(xiàn)了。三個持續(xù)時間最長的調用都是計算的，總結如下： ?

比較三個最長的GPU調用，這三個都是計算著色器 ? RDNA 2在這些計算內核中表現(xiàn)非常好，即使對于運行時間最長的內核來說，利用率處于較低的水平。矢量寄存器文件容量繼續(xù)限制架構可以利用的并行性，但這個問題并不是AMD獨有的。在緩存方面，128 KB L1通常表現(xiàn)不佳。我們看到256 KB的中級緩存對于cpu來說已經很普通了。GPU緩存就更難了。一次又一次，RDNA 2的L1錯過的比命中的多。我很高興AMD選擇在RDNA 3中增加L1緩存容量。好的一面是，標量緩存和指令緩存的命中率繼續(xù)保持良好。 ?

光柵化

與光線追蹤不同，傳統(tǒng)的柵格化管道非常高效。光柵化可以使用簡單的計算將3D點映射到2D屏幕空間，而不是到處發(fā)送光線并觀察它們擊中了什么。然后，GPU使用固定功能硬件將工作分配到像素著色器，這些著色器決定這些像素應該是什么顏色。像以前一樣，讓我們看看CP2077中幾個最長的柵格化調用。 ?

? 通過柵格化工作，L1緩存的顯示更加可信。hitrate仍然不是很好，但在某些情況下，它可以捕捉到足夠多的L0錯誤，以確保絕大多數(shù)請求不需要從L2或更高的地方得到滿足。這可能是一個很大的優(yōu)勢，因為L1的延遲和帶寬特性比L2要好得多。 ? 還有一組頂點著色器工作靠近幀的開始。這很難分析，因為有大量的微小呼叫，但窺探一些顯示，它們通常每次發(fā)射不到100個波陣面。從我們的延遲和帶寬縮放測試來看，RDNA 2在低占用率的情況下表現(xiàn)非常出色，可能比英偉達的Ampere更好地應對這些呼叫。 ?

泰坦尼克榮譽與榮耀，

Megademo 401(光柵化，4K)

擁有數(shù)百萬美元預算的大型工作室能夠制作出具有深刻故事情節(jié)和令人印象深刻的視覺效果的復雜游戲。但他們并沒有壟斷樂趣，獨立創(chuàng)作者用較小的預算也可以創(chuàng)造出沉浸式和視覺上令人驚嘆的東西。其中一個例子就是正在進行中的《泰坦尼克號榮譽與榮耀》項目，該項目專注于用3D技術重現(xiàn)泰坦尼克號。它使用虛幻引擎，并使用DirectX 12運行。 ? 與許多獨立游戲一樣，開發(fā)者花在優(yōu)化上的時間和資源較少。但也許是因為它還沒有經過優(yōu)化，演示文稿的細節(jié)水平令人驚嘆，即使在現(xiàn)代GPU上也非常沉重。 ? ? ? 在這里，我們俯視頭等艙休息室，游戲以 4K 分辨率運行，GPU/CPU 時鐘設置如前。像素著色器主導此工作負載，但計算著色器也發(fā)揮作用。異步計算使用率極低，幾乎所有調用都發(fā)生在圖形隊列上。 ?

? 最長的調用是事件 1325，一個以 wave64 模式運行的像素著色器。它發(fā)射了 129,652 個波前，或足以覆蓋 4K 分辨率下的每個像素的波。由于向量寄存器文件的限制，占用率很低。向量 ALU 的利用率也很低，這可能是由于占用率低和緩存命中率一般。 ?

長時間運行的像素著色器的分析器統(tǒng)計信息 ? 事件 1330 是第二長的調用，是一個啟動 16,320 個 wave32 波前的計算著色器。占用率再次受到向量寄存器文件的限制，但這次每個 SIMD 有 12 個波更好。著色器實現(xiàn)了 27.7% 的矢量 ALU 利用率，這是可以接受的，但仍然偏低。L0 命中率還不錯，為 59.69%，而 L1 命中率低得令人尷尬，只有13.11%。幸運的是，二級緩存以 99.82% 的命中率挽救了局面。計算利用率應該真的更好，因為每個 SIMD 12 個 wave 并不是很糟糕的占用率。但仔細觀察就會發(fā)現(xiàn)另一個問題。工作在線程之間分布不均，有些線程先于其他線程完成。 ?

放大該計算著色器，添加注釋并將著色設置為著色器引擎 ? 顯然，下一個調用需要計算著色器寫入的數(shù)據(jù)，因此同步屏障會阻止它執(zhí)行，直到計算著色器中的所有線程都完成執(zhí)行。最后，這意味著許多 6900 XT 的 WGP 處于空閑狀態(tài)或沒有足夠的線程級并行性來有效隱藏延遲。這對任何 GPU 來說都不是很好，但 RDNA 2 的高時鐘速度和在低占用率下更好的處理應該讓它比 Nvidia 的 Ampere 更好地應對。 ? 通過 THG，我們可以看到 DirectX12 在光柵化方面的作用。它不像《賽博朋克 2077》那樣進行光線追蹤，但兩種工作負載的緩存行為驚人地相似。 ?

槍手，熱火，PC

Gunner, HEAT, PC (GHPC) 是坦克模擬獨立游戲。它旨在準確描繪冷戰(zhàn)后期坦克上的火控系統(tǒng)和傳感器，同時比 DCS 之類的東西更容易獲得。與 THG 演示不同，GHPC 使用 Unity 引擎并運行 DirectX 11。不幸的是，AMD 的分析器不支持 DirectX 11。我使用 PIX 來分析游戲。但這一直很煩人，因為 PIX 有一個令人討厭的習慣，即它自己和它試圖分析的游戲都會崩潰。 ? GHPC 絕大多數(shù)使用傳統(tǒng)的像素和頂點著色器。我在 4K 下運行游戲，所以毫不奇怪，有很多像素著色器工作。使用計算著色器。但與上面的 DirectX 12 工作負載不同，它們所起的作用非常小。 ?

? GHPC 運行時間最長的像素著色器比 THG 的緩存友好得多。我們看到超過 90% 的 L0 命中率。L1 命中率最終在 70-80% 之間非常出色，L2 命中率在 90% 以上和 60% 左右之間波動。標量和指令緩存命中率基本上是 100%。不幸的是，PIX 沒有顯示有關執(zhí)行單元利用率的指標，但我希望它非常好。那是因為游戲往往會使卡產生大量熱量，即使在低于標準時鐘速度時也是如此。幸運的是，PIX 確實公開了比 RGP 多得多的計數(shù)器，因此我們可以研究光柵化管道的其他方面。 ? 長時間運行的像素著色器受計算限制，似乎要處理繪制煙霧效果。框架早期的調用主要處理繪圖對象，如房屋和道路。因為這些調用很短，而且經常相互重疊，所以我們看到一些光柵化瓶頸出現(xiàn)了?！癙AStalledOnRasterizer”意味著圖元組裝器生成圖元的速度快于光柵化器處理它們的速度。這可能表明光柵化器或之后的任何地方存在瓶頸。 ?

PAStalledOnRasterizer 為灰色， PSExportStalls 為紅色 ? 另一個指標是“PSExportStalls”，它表示像素著色器程序何時計算了顏色信息，但光柵化管道中的最后階段還沒有準備好接受數(shù)據(jù)。罪魁禍首之一是Z單元，它進行深度測試以確保只顯示未被遮擋的像素。例如，如果坦克的一半位于房屋后面，則 Z 單元部分將確保房屋的像素顯示在最終幀中。如果來自許多不同對象的大量像素必須經過這種深度測試，Z 單元可能很難跟上。 ? 但回過頭來看，最大的性能罪魁禍首肯定是煙霧和陰霾效果。繪制這些效果占用的 GPU 時間最多，并且像素著色器操作非常繁重。在這些著色器期間，紋理單元幾乎一直處于活動狀態(tài)，因此也可能存在紋理瓶頸。 ?

緩存評論

長期以來，GPU緩存一直落后于 CPU 緩存。在 2000 年代初期，GPU 沒有通用緩存層次結構。他們確實有專門的緩沖區(qū)，但在大多數(shù)情況下，他們依賴于顯式并行和高帶寬內存設置。到 2000 年代后期，內存帶寬限制促使 GPU 采用緩存。這些往往比 CPU 緩存小得多，兩級緩存設置是常態(tài)。CPU 大約在那個時候轉向三級設置，以便通過高核心數(shù)和大型共享緩存保持性能。 ?

曾幾何時，在 Geforce 4 時代，GPU 緩存是不切實際的。哦，時代變了…… ? RDNA 2 通過采用比我們在大多數(shù) CPU 上看到的更復雜和更高容量的緩存層次結構來扭轉一切。它使用令人難以置信的四級緩存，最后一級緩存有 128 MB 的容量。相比之下，即使是 AMD 的 VCache CPU 也只有 96 MB 的末級緩存，并且使用三級緩存設置。 ? 就像 CPU 一樣，DRAM 技術也在努力跟上 GPU 性能的提升。但與 CPU 不同的是，GPU 對延遲不太敏感，這使得這種緩存設置變得實用（延遲似乎是 L4 緩存不受 CPU 歡迎的主要原因）。很高興看到 GPU 全面發(fā)展并比 CPU 更頻繁地使用緩存。 ?

整體命中率，對于整個幀的所有訪問 ? 但是更復雜的緩存設置不一定好。更多級別的緩存意味著您可能會檢查更多標簽的命中。如果緩存級別沒有捕獲大量內存訪問，它最終可能會延遲對數(shù)據(jù)最終來自何處的訪問。因此，RDNA 2 的 L1 緩存令人失望，與其他緩存級別相比命中率較低。它要么需要變得更大，要么應該放棄以支持更大的 L0 緩存。 ?

假設每個標量緩存訪問都獲得一個 64 位值。讓我們暫停片刻，欣賞 GPU 緩存必須處理的海量數(shù)據(jù)。 ? 緩存還有助于提高帶寬，這對 GPU 來說更為重要。L1 緩存確實減少了進入 L2 的流量，但我懷疑 L2 是否需要這種幫助。AMD 的 RX 6900 XT 已經擁有大量的 L2 帶寬，甚至與 Nvidia 更大的 RTX 3090 相比也是如此。因此，L1 最終僅用于整合來自多個 WGP 的請求，從而簡化了 L2 路由。 ? 縮小范圍，我們可以查看請求計數(shù)，乘以請求大小，然后乘以實現(xiàn)的幀率，以估計 GPU 從其緩存中提取了多少數(shù)據(jù)。L0 緩存每秒提供數(shù) TB 的數(shù)據(jù)，如果我以標準時鐘運行我的 6900 XT 而不是將其限制在 1800 MHz，這個數(shù)字會更高。即使在 L2，我們也看到超過 1.5 TB/s 的帶寬需求。沒有數(shù)兆字節(jié)緩存的現(xiàn)代 GPU 將非常缺乏帶寬，即使我們?yōu)樗峁┫?Nvidia A100 上那樣的六堆棧 HBM2E 設置。 ?

游戲趨勢

從我看過的一小部分游戲來看，計算似乎正在發(fā)揮更大的作用。計算著色器在 Cyberpunk 2077 中尤為突出，這是一款以大量預算開發(fā)的現(xiàn)代 AAA 游戲。我將光線追蹤視為一種計算形式。RDNA 2 將光線追蹤視為計算。我不確定 Nvidia 做了什么，但 Pascal 使用計算著色器處理光線追蹤。即使沒有光線追蹤，賽博朋克也會在傳統(tǒng)光柵化的同時使用大量計算。 ? 預算較小的獨立游戲往往更強調光柵化管道，但仍會利用計算。他們這樣做的程度可能在很大程度上取決于游戲引擎，因為獨立開發(fā)者通常沒有時間從頭開始創(chuàng)建自己的游戲引擎。Titanic Honor and Glory 使用的 Unreal Engine 具有大量計算能力。GHPC 使用 Unity 引擎，計算量很小。雖然傳統(tǒng)的光柵化管道仍然非常重要，但我們可能會看到它越來越多地在新游戲中得到計算的補充。 ?

對虛幻引擎的城市演示中的幀進行分析，顯示大量使用計算和光線追蹤 ? 因此，現(xiàn)代視頻卡需要具有良好的計算能力，而 RDNA 2 不會讓人失望。它可能沒有 Nvidia 的 Ampere 架構的大量 FP32 吞吐量，但它處于更好地利用其現(xiàn)有執(zhí)行單元的有利位置。 ?

結論

RDNA 2 對 AMD 來說是一個重要時刻。在過去十年左右的時間里，Nvidia 普遍主導著高性能 GPU 市場。AMD（和 ATI）偶爾會生產出可以與 Nvidia 的最佳產品正面交鋒的顯卡，但這種情況似乎永遠不會持續(xù)很長時間?；?RDNA 2 的 RX 6900 XT 就是其中之一，其重要性與基于 Terascale 2 的 HD 5800 相同。Terascale 2 提供了 Nvidia Fermi 卡的大部分性能，但功耗要低得多。同樣，RDNA 2 提供了 Ampere 的大部分性能，但電源效率更高。至少部分原因在于 RDNA 2 對緩存的使用，而不是大型 GDDR6X 設置。因此，RDNA 2 代表了 GPU 緩存策略的轉折點。 ?

該緩存設置以另一種方式使 RDNA 2 具有重要意義。它代表了 GPU 緩存策略向優(yōu)先考慮一般計算性能的轉折點。濫發(fā)更多的著色器，然后構建一個巨大的 VRAM 子系統(tǒng)來提供它的日子似乎已經一去不復返了。這同樣適用于基于圖塊的渲染，它試圖通過優(yōu)化光柵化順序來優(yōu)化緩存占用空間。隨著計算變得越來越重要，基于光柵化的技巧開始產生較小的影響。

與 CPU 一樣，答案似乎是更多緩存。AMD的下一代GPU架構，RDNA 3采用了類似的四級緩存子系統(tǒng)。Nvidia 同樣正在擺脫對巨大 VRAM 配置的依賴。Ada Lovelace大大增加了 L2 緩存容量，RTX 4090 獲得了 72 MB 的 L2。即使更大的 GDDR6X 設置或 HBM 可以提供足夠的帶寬來僅使用 4 MB 或 6 MB 的緩存，這樣的解決方案也會太耗電或太昂貴。

? RDNA 2 還為 AMD 的 GPU 陣容帶來了硬件光線追蹤加速。與 Nvidia 的全力以赴的方法相反，AMD 可能試圖以最低的硬件成本獲得可接受的性能。我認為這是一個明智之舉，因為常規(guī)計算和光柵化仍然主導著很多工作負載，并且絕對不需要光線追蹤來產生良好的視覺效果。此外，即使 GPU 功率和裸片面積達到極限，未來的光線追蹤工作負載也不太可能通過當今的技術實現(xiàn)。那是因為我們離使用純光線追蹤渲染 AAA 標題還差得很遠，即使是有限的光線追蹤效果也會帶來如此大的性能損失，以至于 Nvidia 和 AMD 求助于使用升級技術。 ? 但重要的是，RDNA 2 的光線追蹤實現(xiàn)為 AMD 提供了一些可以構建的東西。緩存設置也是如此。在為未來的成功奠定基礎方面，RDNA 2 幾乎與 RDNA 1 相似。 ?

編輯：黃飛

閱讀全文

cpu(206162) cpu(206162)
gpu(126253) gpu(126253)
光線追蹤(21330) 光線追蹤(21330)
RDNA(1839) RDNA(1839)

AMD首席執(zhí)行官：下一代Zen和rDNA核心重點是架構，而不是制程技術

AMD首席執(zhí)行官Lisa Su在最近的財報電話會議上表示，即將推出的Zen和rDNA內核將更多地關注系統(tǒng)架構，而不是制程技術。該聲明是在AMD 7納米產品上市首個完整季度之后發(fā)布的，其中包括

2019-11-05 16:31:27

5414

AMD GPU翻車？三星Exynos 2200實測竟被驍龍8甩開30%！

同被定位為手機旗艦平臺，其最大的亮點可能就是與AMD合作，采用了RDNA2架構的GPU，型號為Samsung Xclipse 920。 ? 那么AMD的GPU在手機SoC上的首次亮相，會對

2022-02-18 09:32:59

3297

7900XTX與AMD的RDNA 2架構相比差異

測試緩存和內存延遲讓我們可以很好地了解 RDNA 3 的緩存和內存設置。延遲測試在后 GCN AMD 圖形架構上也很復雜，因為全局內存層次結構可以通過標量或矢量數(shù)據(jù)路徑訪問，它們具有不同的一級緩存。

2023-01-10 10:55:30

1054

詳解AMD RDNA2 GPU架構設計方案

與 RDNA 1 相比，前三個緩存級別的性能提升較小，主要來自時鐘速度的提高。然后 Infinity Cache 在更大的測試規(guī)模上產生巨大影響。

2023-03-08 14:18:00

866

AMD首個RDNA 2 架構 GPU市場成為AI必爭地

一、AMD RDNA 2 光線追蹤效果演示，下一代顯卡將支持 3月20日消息根據(jù)外媒WCCFTECH的報道，AMD發(fā)布了首個RDNA 2 架構 GPU 在微軟DXR API下的光線追蹤演示視頻

2020-03-21 09:16:19

4428

手機端最強GPU成了，還要搭上特斯拉的車？

AMD于6月1日的臺北電腦展上公布了兩款新產品和兩項新技術，分別是基于RDNA2架構的筆記本顯卡Radeon RX 6000M系列和搭載Zen 3核心的銳龍5000G臺式機APU，還有超采樣技術

2021-06-02 09:33:54

5384

AMD擴展x86并行指令集

為了減輕多核心處理器的編程工作，AMD已經出版了擴展其x86指令集的若干計劃中的第一份計劃。通過這個行動，AMD再次把它的規(guī)則用在了跟英特爾公司的競爭上，從而在技術上推進其CPU架構領先于它的最大競爭對手。

2019-07-26 07:34:13

AMD迎頭猛追Intel 全球首發(fā)7nm GPU很威風！

Instinct加速器解決各種嚴峻與矚目的挑戰(zhàn)，包括大規(guī)模模擬、氣候變遷、計算生物學以及疾病預防等。AMD Radeon繪圖技術事業(yè)群工程部全球資深副總裁David Wang（王啟尚）表示，傳統(tǒng)GPU

2018-11-20 11:35:12

ARM架構的GPU和臺式機的GPU有什么區(qū)別

達或者AMD的獨立顯卡則是需要很高端的才支持4K的分辨率。這樣的話投入完全不是一個級別。2：移動GPU的能耗比是否比獨立的PC的GPU高？3：支持2K分辨率和4K顯示的市面上的ARM處理器的GPU

2020-07-18 08:04:38

Arm架構的擴展詳解

對Arm架構的補充以版本增量的形式提供，稱為擴展。擴展允許我們根據(jù)合作伙伴的需求定期發(fā)布新功能，而無需制作主要架構的主要變化。 Arm每年都會發(fā)布一個新的擴展。Cortex cpu，它是arm的實現(xiàn)

2023-08-02 06:08:30

HSA----CPU+GPU異構系統(tǒng)架構詳解

解析HSA----CPU+GPU異構系統(tǒng)架構

2021-02-03 07:07:34

inter,amd,arm公司以及x86,arm,mips等架構的關系

芯片設計公司市場：微處理器（單片機等），手機移動市場處理器（cotex-a77等）和gpu mail，主要以出售芯片技術授權（高通，華為）2.amd: pc市場的cpu,和顯卡3.inter:電腦cpu注：arm總是分不清，記一下arm 公司arm公司設計的arm架構，類似x86架構基于arm

2021-07-01 06:01:26

【技術系列】淺談GPU虛擬化技術（第一章）

“。但是隨著云計算場景的普及，概念的深入人心，慢慢地大家都對云計算有一個較清晰的概念和實例化的理解。自然，隨著應用場景從單一依賴CPU的計算單元的應用擴展到多種體系架構，異構計算場景的應用上來后，對GPU

2018-04-16 10:51:32

AMD銳龍3000封裝揭秘

AMD近日在美國洛杉磯舉辦年度技術大會，正式發(fā)布了包括16核心銳龍9 3950X在內的第三代銳龍3000系列處理器、RX 5700系列顯卡，并首次深度揭秘了Zen 2 CPU架構、RDNA GPU架構。

2019-06-14 15:22:47

2597

基于7nm RDNA架構的顯卡將取代北極星產品線

根據(jù)消息報道，AMD的Navi 14 GPU已經出現(xiàn)在Compubench上，基于7nm RDNA架構，將取代入門級北極星產品線。

2019-08-29 14:02:00

1659

進軍移動端，RDNA架構手機GPU將在2021年之后登場

具體到架構方面，RDNA中每一對CU共享L1緩存，從而減少讀寫次數(shù)進而降低功耗，L2緩存可在64KB~512KB之間配置。工作機制上，AMD將工作負載分配到更多的核心上，原來GCN是單核64次并行計算，RNDA收窄到32次，更有利于省電、降低最帶寬的侵占。

2019-08-28 11:33:00

2654

AMD Radeon Pro 5000M系列移動顯卡為蘋果全新16英寸MacBook Pro帶來高性能的RDNA架構

AMD Radeon Pro 5000M系列移動顯卡采用全新的AMD RDNA架構打造，從一開始就為卓越的性能、可擴展性和高能效而設計。

2019-11-14 10:07:00

2369

AMD或在CES2020展會上宣布RDNA2架構再次用上HBM2顯存

今年7月份首發(fā)RX 5700系列顯卡之后，AMD的7nm RDNA架構顯卡已經小有成就，再加上即將上市的RX 5500及RX 5300系列，中低端的布局差不多了，下一步就是真正的高端顯卡——7nm+工藝的RDNA2架構顯卡了。

2019-11-19 14:28:43

970

采用全新的7nm架構，AMD RDNA架構的解析

隨著AMD的全新7nm制程工藝的RDNA架構推出，代表著AMD在未來的GPU市場上將有一番大作為，在過去的幾代中，AMD的GPU已經利用了很久的基于GCN架構的計算單元。

2019-12-10 17:06:40

2957

AMD RDNA2架構顯卡能否正面剛RTX系列顯卡

AMD的7nm Navi家族顯卡日前又出新品，CES展會上AMD發(fā)布了RX 5600 XT顯卡，Navi 12核心，保留了2304個流處理器單元，顯存閹割到192bit 6GB 12Gbps，售價279美元，國內2099元。

2020-01-10 09:23:40

6087

AMD的RDNA 2圖形架構性能最高可提高50%，預計將在2020年夏天發(fā)布

根據(jù)消息報道，AMD的RDNA 2圖形架構將為玩家?guī)硇阅苌系闹卮箫w躍，在不增加功耗的情況下，RDNA 2的性能最高可提高50%。

2020-01-14 14:26:10

4894

AMD蘇姿豐宣布采用RDNA2構架能效比將獲大幅提升

北京時間3月6日凌晨，AMD CEO 蘇姿豐在AMD財務分析師大會上宣布，采用下一代的RDNA2構架的Radeon RX GPU能效比將比現(xiàn)有的RDNA GPU提升50%。

2020-03-06 11:30:38

1786

AMD公布GPU發(fā)展的線路圖

按照傳統(tǒng)，AMD今天向金融分析師公布了GPU發(fā)展的線路圖。線路圖中不僅包含了去年夏天發(fā)布的Radeon RX 5700 XT RDNA，范圍還涵蓋了RDNA 2以及RDNA 3。

2020-03-06 14:59:31

2605

AMD宣布全新GPU架構“CDNA” 將專注于計算/張量操作性能

AMD CPU架構這幾年發(fā)展的順風順水，Zen、Zen+、Zen 2、Zen 3、Zen 4每一代都表現(xiàn)驚艷，GPU架構就相對暗淡一些了：GCN已經服役多年廉頗老矣，RDNA閃亮登場但依然無法和對手全面抗衡。

2020-03-06 15:35:13

2356

索尼PS5和微軟Xbox Series X都會搭載AMD GPU

AMD今天在財務分析師大會上暗示，索尼PS5和微軟Xbox Series X均會搭載基于RDNA2架構的GPU，從而實現(xiàn)硬件級的光追支持。

2020-03-07 09:07:23

2020

AMD確認索尼和微軟新主機均支持基于RDNA2架構的光追

最近圍繞新一代主機索尼PS5、微軟Xbox Series X（簡稱XSX）的光追問題產生了分歧，不過兩家主機的粉絲不用擔心了，AMD確認它們都支持基于RDNA2架構的光追。

2020-03-07 09:16:13

2024

RDNA2架構能效比進步了50%，big Navi顯卡要漲價了

AMD今天上午發(fā)布了RDNA2架構，能效比現(xiàn)在的RDNA一代架構還要高50%，堪稱10年來AMD顯卡最大的進步。

2020-03-07 09:39:26

2053

AMD RDNA2架構發(fā)布相比一代能效比提升50%堪稱10年來最大進步

AMD發(fā)布了RDNA2架構，能效比現(xiàn)在的RDNA一代架構還要高50%，堪稱10年來AMD顯卡最大的進步。

2020-03-07 10:17:51

2934

AMD高管確認新主機將如期在今年圣誕節(jié)前上市

AMD今天在財務分析師大會上暗示，索尼PS5和微軟Xbox Series X均會搭載基于RDNA2架構的GPU，從而實現(xiàn)硬件級的光追支持。

2020-03-07 11:00:58

1481

AMD RDNA 2架構顯卡光線追蹤圖公布，在上代基礎上提高50%每瓦性能

在昨天AMD的財務分析日上，官方簡要介紹了一下RDNA 2架構顯卡技術的方面的信息，并公布了一張硬件光線追蹤的效果圖。

2020-03-07 16:50:10

2763

RX 6000系列或成為首個使用雙風扇的AMD公版卡散熱效果將更好

AMD前兩天在分析師大會上正式宣布了RDNA2 GPU架構，不出意外的話下一代顯卡RX 6000系列就會用上這個架構。此外，RX 6000公版卡的設計也會改變，單風扇變成雙風扇設計。

2020-03-08 15:20:12

1716

RDNA 3和Navi 3X蓄勢待發(fā)，AMD的GPU線路圖已公布

2020-03-08 20:01:37

3152

A卡的翻身之仗，RDNA2支持硬件光追且提升50%性能

自從AMD推出了專為7nm工藝設計的RDNA架構的顯卡RX5700系列之后，一改原先舊GCN架構的能效低、發(fā)熱大、功耗大之類的毛病。

2020-03-08 21:14:15

2554

AMD放棄渦輪散熱，RX 6000顯卡將用上雙風扇

AMD 前兩天在分析師大會上正式宣布了 RDNA2 GPU 架構，不出意外的話下一代顯卡 RX 6000 系列就會用上這個架構。

2020-03-08 22:37:24

1812

AMD放棄渦輪散熱 RX 6000顯卡單風扇變成雙風扇設計

2020-03-09 08:47:20

2809

AMD模糊RDNA3架構顯卡工藝的說法

上周的財務分析師大會上，AMD干貨滿滿，宣布了5nm Zen4架構，同時還推出了新一代的RDNA2架構，能效比RDNA第一代提升了50%，堪稱AMD GPU十年來最大變革。

2020-03-11 08:53:07

2145

RDNA3架構到底會用上什么工藝？蘇姿豐回應還不到時候

2020-03-11 09:59:42

2032

AMD下一代RDNA3架構或將采用5nm工藝，官方暫沒透露

2020-03-11 15:23:04

2762

AMD RDNA2圖形架構與RDNA相比，每瓦性能提高50％

在2019年7月亮相的7 nm RDNA架構，AMD的性能/瓦數(shù)比以前的“ Vega”架構提高了近50％。

2020-03-11 17:01:11

3981

AMD對未來感到更加興奮將繼續(xù)致力于成為高性能計算的領導者

在上周的財務分析師大會上，AMD宣布了5nm Zen4處理器及RDNA2 GPU，同時確認計算GPU與游戲GPU分家，前者將使用CDNA架構。

2020-03-11 17:11:26

2268

RX 7000系列顯卡能不能用的上5nm工藝

財務分析師會議上，AMD充滿了干貨，宣布了5nmZEN4的架構，還引入了新一代RDNA2的架構，能效比第一代高50%，AMD GPU十年最大的變化就是它。

2020-03-13 14:38:49

1774

AMD RX 5600顯卡搭載最新7nm RDNA架構，性能如何

RDNA架構,擁有36個計算單元,1357Mhz的基礎頻率,1560MHz的加速頻率,并且搭載了6GB GDDR6顯存。

2020-03-16 20:56:30

4290

微軟虛擬機采納AMD Radeon Instinct計算卡

微軟Xbox Series X、索尼PS5都采用了定制的AMD RDNA2 GPU架構，搭檔定制的AMD Zen2架構，成為AMD的又一個高光時刻，而在其他領域，AMD CPU/GPU也是頻頻獲得青睞。

2020-03-20 08:47:33

1628

AMD稱在11月份將上市RDNA2架構的big Navi家族顯卡

之前爆料稱，RDNA3之所以這么模糊，是AMD官方故意的，因為這一代很可能采用小芯片設計，類似CPU中的Zen2一樣，將CU單元及IO單元分離，以便靈活提升CU計算單元的規(guī)模。

2020-08-10 14:02:49

2231

AMD RDNA2架構RX 6000系列顯卡細節(jié),熱設計功耗220~238瓦

眼看就要進入10月份，NVIDIA RTX 3070將要發(fā)售，3060等也許也會伺機登場。對于10月28日的RDNA2架構RX 6000系列顯卡來說，壓力不小。

2020-09-27 15:17:29

2577

AMD宣布了Ryzen ZEN3處理器和Radeon RDNA2 GPU的主題演講日期

在萬眾期待中，AMD宣布了Ryzen ZEN3處理器和Radeon RDNA2 GPU的主題演講日期。AMD首席執(zhí)行官蘇姿豐博士表示：對于游戲玩家來說這將是一個令人激動的秋天是時候用AMD

2020-09-27 15:49:01

2129

AMD申請CDNA商標成功，CDNA顯卡即將到來

10月8日發(fā)布Zen3架構的銳龍5000處理器之后，這個月底AMD還會有RDNA2架構的RX 6000系列顯卡，主要跟RTX 3080系列顯卡競爭。大家知道GPU不止是用于游戲卡，現(xiàn)在還是數(shù)據(jù)中心

2020-10-19 17:38:28

1384

AMD 6nm“倫勃朗”APU曝光：Zen3+RDNA2架構、支持DDR5和USB4

元luan的局面。根據(jù)3DCenter的整理，Zen2、Zen3將配合Vega與RDNA2 GPU，組合帶來四套新的APU產品。首先是Zen2+Vega的Lucienne，和當前的Renoir

2020-10-22 17:06:30

2418

AMD揭曉： Zen3銳龍5000處理器可解鎖RX 6000顯卡更強性能

今天凌晨，AMD終于揭曉了基于RDNA2架構的RX 6000系列顯卡，首發(fā)RX 6800、RX 6800 XT和RX 6900 XT三款，分別對標取代RTX 2080 Ti、RX 3080和RTX

2020-10-29 09:37:38

1428

索尼發(fā)布唯一能完整支持RDNA2先進功能的主機—Xbox Series X|S

在RX 6000發(fā)布之后，微軟Xbox官網也發(fā)了一篇文章，宣布旗下的Xbox Series X|S是唯一能完整支持RDNA2先進功能的主機。

2020-10-29 10:28:51

1375

逆襲RTX 3090 蘇媽笑了 AMDRX 6900XT史上最強A卡

6800XT與同為7nm工藝的5700XT相比，也有高達54%的每瓦性能提升。 RDNA2架構還支持全新AMD Infinity Cache技術，與僅支持GDDR6的AMD RDNA架構設計相比，可提供多達2.4倍的帶

2020-10-29 18:09:32

2269

未來AMD CPU配合AMD顯卡真的會有巨大加成？

所有顯卡都在同一平臺上進行測試，平臺采用了AMD自家的“Zen3”Ryzen 9 5900X CPU。通過BIOS啟用了Smart Access Memory（在發(fā)布RDNA2時提出的新技術，用戶在同時使用AMD的CPU和GPU時，CPU可以直接與顯存?zhèn)鬏敂?shù)據(jù)）技術，但未啟用“一鍵超頻”模式。

2020-11-02 11:40:07

13766

特斯拉盯上AMD，欲把RDNA2架構用于車載系統(tǒng)

AMD全新推出的RDNA2架構已經有桌面顯卡（Radeon RX 6900 XT/6800XT/6800）、索尼PS5、微軟Xbox Series X主機等產品，可這僅僅是個開始。

2020-11-10 09:47:00

1691

AMD RDNA3圖形架構性能將再提升50%左右

在承諾Zen4架構將有著和Zen3不相上下的架構改進細節(jié)后，AMD執(zhí)行副總裁Rick Bergman也不忘聊聊顯卡。這一代RDNA2頂著NVIDIA Ampere架構的巨大壓力問世，沒想到做到

2020-11-11 18:06:34

1654

RDNA2頂著NVIDIA Ampere架構的巨大壓力問世

在承諾Zen4架構將有著和Zen3不相上下的架構改進細節(jié)后，AMD執(zhí)行副總裁Rick Bergman也不忘聊聊顯卡。

2020-11-12 09:52:11

1317

AMD下一代RDNA3會使用新的工藝

雖然說AMD剛推出了Zen 3架構的銳龍5000系列處理器以及RDNA 2架構的RX 6000系列顯卡，但大家總會對廠家未來的產品充滿興趣。TheStreet的記者近日訪問了AMD執(zhí)行副總裁Rick

2020-11-12 11:44:31

1482

RDNA2架構的RX 6000系列顯卡即將上市

Zen3架構的銳龍5000系列處理器上市快兩周了，RDNA2架構的RX 6000系列顯卡馬上也上市了。今天微星也發(fā)布了適用于500系主板的新BIOS，支持SMART ACCESS MEMORYG功能，性能可提升10%以上，3A平臺這一波完美了。

2020-11-19 08:59:48

1487

AMD Radeon RX6000系列顯卡上市

Cache 和最高可達 16GB 的 GDDR6 顯存。 AMD 表示，全新 RDNA2 架構提供了很多強大的性能，包括： AMD 高速緩存技術（Infi

2020-11-19 10:42:06

2069

RDNA2架構的6900XT下個月即將發(fā)布

基于RDNA2架構的AMD RX 6800、6800 XT已經發(fā)售，6900XT則要等到12月2日。

2020-11-20 09:29:02

4837

AMD Radeon RX 6000系列顯卡特性及游戲性能一覽

芯品上市 RADEON 2020年11月18日發(fā)售 AMD Radeon RX 6000系列顯卡，基于突破性的AMD RDNA2游戲架構，支持高帶寬PCIe 4.0技術和16GB GDDR6顯存

2020-11-20 14:12:51

3700

解讀AMD RDNA2顯卡內核的靈魂之Zen2

RX 6800正式解禁上市的時候，我們曾經解析過其幕后的RDNA 2架構的設計與特性?，F(xiàn)在，國外大神又根據(jù)RNDA 2的內核圖，繪制了各個模塊的分布。

2020-11-23 09:33:45

1549

AMD RDNA2架構GPU采用全新圖形緩存方法的原因是什么?

與RDNA 2架構一起引入的Infinity Cache是一個新的緩存系統(tǒng)，它與 RX 6800 XT 和RX 6800中的GDDR6存儲器接口一起運行。對于AMD來說，這也是一筆不小的數(shù)目，其工程師告訴我們，這是將游戲性能從1080p解鎖到4K的關鍵，否則它將被龐大而耗電的選擇所困擾。

2020-11-23 10:44:31

1376

AMD欲推出Radeon RX 6000M移動GPU

AMD 內部似乎正在測試基于 RDNA2 的 Radeon RX 6000M 移動 GPU，針對于筆記本電腦市場的 Navi 23/24 早期信息已經被泄露。根據(jù)網友在 Twitter 上爆料

2020-12-10 14:48:24

1578

AMD RDNA2顯卡等加入光追陣營

從上一代Turing圖靈顯卡開始，NVIDIA在GPU單元中引入RT Core，專門負責光線追蹤。

2020-12-14 08:59:46

1978

AMD RX 6000系列顯卡性能測試

如果說Zen3架構的AMD銳龍5000系列桌面處理器的優(yōu)異表現(xiàn)、大獲成功還在意料之中，那么RDNA2架構的AMD RX 6000系列顯卡的高光閃現(xiàn)，就超出了幾乎所有人的預料。

2020-12-18 10:03:09

3520

傳AMD明年的7nm晶圓訂單暴漲80%

AMD今年推出了7nm工藝的銳龍5000、RDNA2架構的RX 6000系列顯卡，不過上市一兩個月來還是在缺貨，原因是7nm產能緊張，這個問題可能要到明年才能緩解了。

2020-12-21 11:17:07

1377

AMD新一代撕裂者處理器將明年發(fā)布

2020行將結束，對于AMD來說，可以說是收獲的一年。年初，第三代線程撕裂者發(fā)布上市，下半年則是Zen3架構處理器和RDNA2圖形顯卡的主場，期間，AMD還重磅收購了賽靈思。

2020-12-25 15:42:31

1639

AMD Zen3架構的新一代處理器或明年登場

2020-12-25 15:39:06

1937

AMD即將推出RDNA3架構顯卡

AMD的RX 6000系列顯卡用上了7nm RDNA2架構，能效比再次提升50%，性能也摸到了RTX 3090的水平，而今天預計會推出RDNA3架構顯卡了。

2021-01-05 09:48:41

1756

RDNA3顯卡或使用小芯片堆核良率大幅提升

AMD的RX 6000系列顯卡用上了7nm RDNA2架構，能效比再次提升50%，性能也摸到了RTX 3090的水平，而今天預計會推出RDNA3架構顯卡了。 RDNA3架構會有什么樣的改進？性能

2021-01-05 10:00:23

1496

RDNA3顯卡或采用小芯片堆核

AMD的RX 6000系列顯卡用上了7nm RDNA2架構，能效比再次提升50%，性能也摸到了RTX 3090的水平，而今天預計會推出RDNA3架構顯卡了。

2021-01-05 09:55:02

1403

AMD RDNA2 架構中端顯卡上半年發(fā)布：雙風扇標準尺寸顯卡和單風扇ITX 顯卡

在今天的發(fā)布會上，AMD 透露新款 RDNA2 架構的中端顯卡將于上半年發(fā)布，包括一款雙風扇標準尺寸顯卡和一款單風扇的 ITX 顯卡。 ? 雙風扇版可能是 Radeon RX 6700 系列

2021-01-13 14:02:48

2261

AMD或于7月前推出RDNA 2 GPU驅動筆記本電腦

AMD今天在CES 2021新聞發(fā)布會上透露，渴望購買新游戲筆記本電腦的客戶應該能夠在7月之前的某個時候購買第一款RDNA 2 GPU驅動筆記本電腦。

2021-01-13 16:55:06

1407

AMD的RDNA3架構詳細細節(jié)

進入2021年了，AMD的下一代顯卡是時候曝光了，接替去年RDNA2的應該是研發(fā)中的RDNA3架構，代號Navi 3X，其中大核旗艦Navi 31有可能使用MCM多芯片架構，2倍規(guī)模。

2021-01-24 09:24:46

3840

AMD下代旗艦核心Navi 31顯卡規(guī)格曝光

2021-01-24 09:40:23

2315

AMD新款 “核彈”顯卡曝光：雙芯片設計

，Navi 31 采用雙芯片設計，每個芯片有 80 個 CU，總流處理器數(shù)量將達到 10240 。 IT之家了解到，AMD 去年發(fā)布了 RDNA2 架構的 RX 6000 系列。最高型號 R

2021-01-25 10:12:13

1990

AMD GPU首次殺入三星手機SoC

AMD RDNA系列GPU架構在性能、能效方面表現(xiàn)不俗，也得到了三星、特斯拉的青睞，轉戰(zhàn)進入手機、汽車行業(yè)。

2021-01-30 10:05:10

1580

AMD新品發(fā)布會將在3月3日舉行

AMD官方賬號日前確認，定于北京時間3月3月24點舉辦發(fā)布活動，推出RDNA2新卡。

2021-02-25 09:52:34

1103

RX 6700 XT公版和非公版即將解禁上市

今晚24點，AMD將發(fā)布基于Navi 22核心的RDNA2架構新顯卡，不出意外的話就是RX 6700系列。

2021-03-04 09:11:09

3432

AMD SAM顯存智取技術可漲處理器性能16%

今天凌晨，AMD RX 6700 XT顯卡發(fā)布，這是目前最便宜的RDNA2架構光追卡，建議零售479美元，國行3699元，18號開賣。

2021-03-04 14:42:59

2587

AMD承諾不會砍掉Infinity Cache緩存技術

昨晚AMD發(fā)布了RX 6700 XT顯卡，這是RDNA2架構家族第二波產品，國內售價3699元，針對友商的RTX 3070顯卡。

2021-03-05 09:35:24

4168

AMD或推RDNA架構礦卡以對抗NVIDIA

近期在AMD的GPU更新Linux驅動程序里，極大機會包含了基于RDNA架構的專用礦卡信息。據(jù)Phoronix報道，這次AMD的Linux驅動程序里有確切指出Navi 12核心，而且使用這款核心的顯卡是不帶視頻輸出功能的，通俗地說，就是從驅動程序層面就不支持視頻輸出功能。

2021-03-07 10:42:36

1772

兩種GPU之間的延遲對比 AMD RDNA2完勝NVIDIA安培

CPU緩存與內存延遲測試，相信大家都有所耳聞，但是GPU同樣的測試卻幾乎沒人做過。 ChipsAndCheese就做了一次特別的測試，對比考察了AMD、NVIDIAGPU架構的緩存、顯存

2021-04-21 13:51:20

1701

兩項合作達成，AMD正在肆意成長

在近日的臺北電腦展上，AMD宣布了其最新的兩個合作。一是與特斯拉的合作，即特斯拉的新款旗艦轎車和SUV將采用AMD的RDNA 2 GPU架構。二是AMD公布了他們正在與三星合作開發(fā)

2021-06-18 11:48:00

3246

AMD突破性的RDNA 2架構

動力，帶來高幀率的游戲樂趣和先進的內容創(chuàng)建功能。突破性的RDNA 2架構 AMD Radeon RX 6000M系列移動顯卡建立在突破性的AMD RDNA 2游戲架構上，與AMD RDNA架構相比，可提供高達1.5倍的性能提升，或在相同的性能水平[1]上降低高達43%的功耗。專為發(fā)燒友而設計，無論

2021-09-07 15:51:48

3741

AMD顯存智取技術工作原理

在2020年發(fā)布AMD Radeon RX 6000系列顯卡的時候，AMD不僅為玩家?guī)砹祟I先的7nm工藝制程和最新的RDNA2架構，還同步搭載了一項關注度很高的全新技術——AMD 顯存智取技術

2021-09-22 09:49:14

5589

AMD全新銳龍6000處理器Zen3+核心與RDNA2顯卡融

新的AMD銳龍6000系列處理器全線產品,將高效且強悍的新“Zen 3+”核心架構與基于全新AMD RDNA 2架構的內置顯卡

2022-01-05 17:42:21

522

AMD發(fā)布基于CDNA 2架構的Instinct MI210 GPU

基于AMD CDNA 2架構并由ROCm 5提供支持，AMD Instinct MI210 GPU幫助主流用戶加速洞察和發(fā)現(xiàn)。

2022-03-26 09:53:19

1526

高通擴展驍龍計算生態(tài)系統(tǒng) 基于AMD RDNA 2架構的GPU推出

　　AMD（超威，納斯達克股票代碼：AMD）宣布推出基于最新AMD RDNA 2架構的AMD Radeon PRO V620 GPU，可為當今苛刻的云工作負載提供高性能的GPU加速，包括沉浸式AAA游戲體驗、密集型3D工作負載以及大規(guī)模云端現(xiàn)代辦公生產力應用程序。

2022-03-28 10:15:28

1066

AMD RDNA 3/Navi 3X GPU升級

但盡管如此，目前單節(jié)點跳轉本身無法提供50%的單位性能提升(RIP Dennard縮放)。因此，計劃對RDNA 3進行幾項架構改進。這包括AMD的下一代片上無限緩存，以及AMD所說的優(yōu)化圖形管道。據(jù)該公司稱，GPU計算單元(CU)也在進行重構，不過重構的程度還有待觀察。

2022-07-25 09:43:57

761