AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
這次 RDNA 2 在效能、功耗以及功能上都比前一代有很大的進步。

在 Radeon RX6900XT 顯示卡實測效能解禁之後(請見:AMD Radeon RX6900XT 顯示卡開箱實測 追擊消費顯卡王座的紅軍主帥),可以看到這次 AMD Radeon RX6000 系列顯示卡在效能上的確較前一世代有大幅度的進步,尤其在遊戲效能上具備了可以與競爭對手同級產品纏鬥的實力,也讓大家都很好奇 RDNA 2 架構背後的研發過程,AMD 特別在 RX6900XT 測試時,安排了一場與這次 RDNA 2 的研發主管:AMD Radeon 繪圖技術事業群工程部全球資深副總裁王啟尚(David Wang)先生的線上媒體專訪,解答了許多對於這次 Radeon RX6000 系列顯示卡的疑問。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
AMD Radeon 繪圖技術事業群工程部全球資深副總裁王啟尚(David Wang)先生。

首先在整體架構部分,David Wang 表示這次 RDNA 2 架構的開發主要圍繞一個主軸路線:『PPA』,Power(功耗)、Performance(效能)、Area(晶片面積),要在同樣的效能點降低產品功耗、在同樣的功耗點提高效能、並且在前兩者的目標下降低晶片所佔的面積,要在跟 RDNA 同樣的 7nm 製程下,要達到這三個目標,其實是相當大的挑戰。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
RDNA 2(與)RDNA 的頻率/功耗曲線比較。

不過這三個目標其實跟 CPU(尤其是伺服器)的發展方向相當類似,所以 David 第一步就向 CPU 部門借將,請 EPYC 部門處理器架構師來協助 RDNA 2 架構的開發,而最大的成果這次 RDNA 2 上的 Infinity Cache 快取設計。

Infinity Cache 快取設計


AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍

David 提到,其實 Infinity Cache 基本上是利用 Zen 架構(尤其是伺服器導向的 EPYC 處理器)的 L3 快取演進而來。在 RDNA(Radeon RX5000 系列)GPU 中,GPU 透過 4MB 的 L2 快取連接 64bit 記憶體控制器,但這樣的做法雖然讓 GPU 有高達 448 GB/s 的記憶體頻寬,但是因為 L2 快取僅有 4MB,在存取資料時的命中率過低導致存取延遲。傳統的解決方式是加大 L2 快取記憶體的容量。不過一昧加大 L2 快取記憶體,對於消費等級的 GPU 成本來說又太高,在一定容量後效能提升的幅度也不高,所以並不是可行的方案。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
快取大小對資料存取命中率(hit rate)的關係,可以看到在 HD、1440p 解析度下,超過 120 MB 的快取對資料存取命中率的提升幅度有限。

而在聽取了 EPYC 部門的建議後,Radeon 部門決定在 RDNA 2 架構上再多加一層大容量的快取(L3),也就是 Infinity Cache,並且直接擴大到 128 MB 的容量,以滿足 HD、1440p 解析度下,GPU 在對快取記憶體提取資料時的命中率,間接減少直接對顯示記憶體的存取頻率,這樣一來即便沒有使用更大頻寬的記憶體控制器或是更高速的顯示記憶體,也能夠增加 GPU 與記憶體的頻寬效能以及降低存取延遲,David 表示這也是為什麼 RX6000 顯示卡在顯示記憶體部分,仍然維持 GDDR6 規格,沒有採用較貴的 HBM 或是 GDDR6x。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
AMD Radeon RX6000 顯示卡的 Infinity Cache 設計概念。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
在提高了 hitrate 之後,可說變相的提高了顯示卡的記憶體頻寬。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
在同樣的時脈下,加入 Infinity Cache 的 RDNA 2 架構效能提升的更為顯著。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍
另外跟 RDNA 相比,RDNA 2 的記憶體延遲平均減少了 34%。

Ray Accelerator 光線加速器


而這次 RDNA 2 另一個令人好奇之處,就是在 AMD 首度導入的 Raytracing 光線追蹤設計上。AMD 並未如 NVIDIA 般採用獨立的 RT Core 核心,而是在每個運算單元(CU)內設置了一個 Ray Accelerator 加速器,在一個 clock 內提供 4 個方形交互運算以及一個三角交互運算。

AMD RDNA 2 GPU 架構剖析!由 Zen EPYC 借鏡而來的效能飛躍

而採用將 Ray Accelerator 設置在 CU 內的方式,David 坦言主要是為了功耗考量,將 Ray Accelerator 設置在 CU 內,除了透過重新設計將 CU 配置最佳化外,也可以減少 GPU 核心內節點的數目,進一步減少 GPU 內的虛功浪費,也讓 RDNA 2 不需要提高電壓就能夠提高運作時脈,讓 Radeon 6000 系列顯示卡在遊戲效能的表現上有大幅度的增加。

另外在光追性能部分,David 也坦言目前處於第一代光追產品的 RDNA 2,在這部分的性能有很大的增進空間,不過 David 表示,光線追蹤的效能表現並不全靠硬體設計,軟體部分也佔有很大因素,尤其是相關遊戲/軟體的支援,可以讓光線追蹤具有更好的呈現效果,在這部分由於新一代家用遊戲主機均採用 RDNA 2 架構,相信未來將有更多遊戲針對 RDNA 2 提供最佳化處理,因此在光追效能方面RDNA 2架構仍有很大的發展空間和潛力。
講白話點就是藉由改進記憶體子系統的效率來提升效能嘛
這點跟自家CPU的Zen家族還真是有異曲同工之妙
所以說Infinity Cache可以當成一種L3來看待囉?
01上面糟糕的傢伙越來越多了,害我愈來越提不起勁留言了......
huaing123 wrote:
講白話點就是藉由改進...(恕刪)


基本上概念是一樣的.....
陳拔 wrote:
RDNA 2 上的 Infinity Cache

RDNA 2 Infinity Cache 128MB L3 大幅提升遊戲效能很有用
第一代光線追蹤仍然弱勢
即便硬體效能提升 遊戲或是軟體優化沒做好的話 感覺也是白搭......
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!