
神魔亂舞 wrote:
Ti有嗎怎麼翻倍了(恕刪)
Super跟Ti都有,聯想那個拿掉是因為還沒到時間不能公布
有GDDR6版本和GDDR6X版本
GDDR6是庫存跟上一代GTX106系列一樣
GDDR5X用完才會使用GDDR6用完才會使用GDDR6X
Marx Wang wrote:
就這張規格表來看2080...(恕刪)
20全系列完全跳水
3070Super、3070Ti將會取代20系列泰坦RTX
3060、3060Super、3060Ti將會取代2070Super、2080、2080Super
如果有3050、3050Super、3050Ti的話,將會取代2060、2060Super
2021年正式進入光追時代
高階玩家進入解析度8K時代
中階玩家進入解析度4K時代
低階玩家進入解析度2K時代
時間永恆 wrote:
1.30 系列 CUDA 數可能要除以二才是真的 ... 請參考
...(恕刪)
基本上大部分繪圖運算都是浮點運算(Floating Point operation),Ampere這代的設計等於讓浮點運算單元(CUDA cores)翻倍
FP32 (32-bit/Single-precision Floating Point operation)
INT32(32-bit Integer operation)
傳統的顯示卡架構只能選擇執行浮點或是整數運算,大部分的軟體會避免干擾GPU工作而把整數運算交給CPU
Pascal CUDA = 1 FP32 or INT32/cycle
圖靈架構為了要實現real-time ray tracing會需要用到整數運算,不可能每次需要用到時都要等CPU回應或是打斷GPU 整條資料路徑(datapath)的工作,所以專門多開了一條資料路徑給新增加的整數運算單元,讓兩者可以同時執行
Turing CUDA = 1 FP32/cycle + 1 INT32/cycle
但我一開頭就提到繪圖運算幾乎都是浮點運算,就算光追也大多是在浮點運算中參雜一些簡單的整數運算,大部分時間整數運算單元都會被閒置在一旁,安培架構讓這第二條資料路經中同時擁有專門的浮點運算單元,等同第二個CUDA cores
Ampere 1st CUDA = 1 FP32/cycle + 2nd CUDA = 1 FP32 or INT32/cycle
用reddit上有人提到的例子,假設今天有一個100個浮點運算和10個整數運算的工作
Pascal 的CUDA core 要花100個cycles算完浮點運算,總共所花時間是100個clock cycles加上等待CPU算完10個整數運算的時間
Turing 的CUDA core 可以同時在10個cycles算10個浮點運算和10個整數運算,剩下的90個浮點運算會在90個cycles算完,10+90=100,所以總共所花時間為100個clock cycles
Ampere 的兩個CUDA cores可以同時在10個cycles算10個浮點運算和10個整數運算,剩下的90個浮點運算會平分給兩個CUDA cores在45個cycles算完,10+45=55 ,所以總共所花時間為55個clock cycles
所以Ampere的浮點運算單元(CUDA cores)實際上的確有翻倍,理論上在處理大部分的繪圖工作也的確效能接近翻倍,說是灌水是非常不妥的。當然實際性能不會因爲運算單元翻倍就馬上翻倍,整體的架構要有辦法提供資料餵飽這些運算單元才能有相應的效能,NVIDIA也做出相對應的調整,安培的L1快取和共享記憶體的性能是圖靈的兩倍,整體佈置架構也有做出調整,ROPs (Raster Operators)數量上也翻倍
來源:官方Q&A
小惡魔市集
關閉廣告