Çok Yongalı Tasarım: AMD RDNA 3 Grafik Mimarisi Hakkında Her Şey

Adanali

Member
AMD, 3 Kasım 2022’de Radeon RX 7900 serisi ekran kartlarına ait temel detayları deklare etti. Sunumda yeni ekran kartları ve yeni RDNA 3 mimarisi hakkında kimi bilgiler verildi lakin birden fazla şey eksikti. Artık RDNA 3 mimarisinin bilgilerina derinlemesine bakış atacağız.

Kırmızılılar yeni mimarisiyle bir arada rakibi NVIDIA’ya bir adım daha yaklaştı. En kıymetli ayrıntıya baştan değinecek olursak, fazlaca yongalı yapısı yardımıyla GPU tasarımı baştan aşağı değişti.

Daha evvel birfazlaca sefer belirttiğimiz üzere, RX 7900 serisinde Navi 31 isimli üst sınıf bir GPU kullanılıyor. Navi 31, Grafik Süreç Kalıbı (GCD) ve Bellek Önbellek Kalıbı (MCD-Memory Cache Dies) olmak üzere iki temel kesimden meydana geliyor. AMD’nin Zen 2/3/4 işlemcilerinde benimsenen çiplet dizaynla benzerlikler var, fakat her şey grafik dünyasının gereksinimlerine uyacak biçimde tasarlanmış. Diğer bir deyişle, kırmızı ekip işlemci tarafındaki tecrübelerini grafik cephesine aktarmayı başarmış.

Navi 21 GPU özellikleri

AMD Zen Mimarisinin Temeli

AMD, Zen 2 ve daha sonrasındaki işlemcilerde sistem belleğine bağlanan ve PCIe Express arayüzü, USB irtibat noktaları ve entegre grafik işlemcisi (Zen 4 ile geldi) üzere üniteleri barındıran bir Giriş/Çıkış Kalıbı (IOD) kullanıyor. İçerisinde biroldukca başka ünite barındıran bu yonga, AMD’nin Infinity Fabric teknolojisiyle bir yahut birden çok CCD’ye (Core Compute Die yahut Core Complex Die) bağlanıyor. Bu CCD’ler ise CPU çekirdeklerini, önbellek ünitesini ve farklı bileşenleri içeriyor.


Çekirdekleri ortasında barındıran üniteler küçük yapıdayken, IOD yaklaşık 125 mm² (Ryzen 3000) ile 416 125 mm² (EPYC xxx2 nesil) içinde değişkenlik gösterebiliyor. En son teknolojileri barındıran Zen 4 mimarisinde işler biraz daha değişti. Ryzen 7000 işlemcilerde CCD’ler TSMC N5 (5nm), IOD TSMC N6 (6nm) teknolojisine dayanıyor. Yani bu biçimde yapılarda gereksinime ve maliyetlere nazaran kullanılan teknolojiler farklılık gösterebiliyor. Bu da aslında üreticiler için kıymetli bir avantaj.

RDNA 3 Mimarisine Derinlemesine Dalış

Şimdi gelelim asıl mevzumuza. GPU’lar bildiğiniz üzere farklı ihtiyaçlara sahip ve fazlaca farklı yapıda. Grafik süreç üniteleri, tüm GPU çekirdeklerini beslemek için bol bol bellek bant genişliğine gereksinim duyar. Örneğin, 12 kanallı DDR5 yapılandırmasına sahip devasa EPYC 9654 bile ‘yalnızca’ 460,8 GB/s’ye kadar bant genişliği sunuyor. RTX 4090 ve RTX 3090 Ti üzere ekran kartları ise bu ölçüleri ikiye katlarken 1 TB/sn düzeyinde bant genişliğine sahip.


GPU yongalarının tesirli bir biçimde çalışması için AMD’nin farklı bir şey yapması gerekiyordu. Şirket mühendisleri tahlili CPU yapılandırmasının tam karşıtını uygulamakta buldu: ana süreç merkezi olarak GCD kullanılırken, bellek denetimcileri ve önbellek birden çok küçük yongaya yerleştirildi.

GCD ismi verilen ünite görüntü kodlama donanımı, ekran arayüzleri ve PCIe ilişkisi üzere öbür temel fonksiyonlarla bir arada Bilgi Süreç Ünitelerini (Compute Unit olarak biliniyor) ortasında barındırıyor. Navi 31 GCD, tipik grafik sürece vazifelerini üstlenmek üzere 96 adede kadar CU barındırabiliyor. AMD, GCD’yi gelişmiş Infinity Fabric teknolojileriyle çipin etrafına yayılan MCD’lere ve kartın geri kalanına bağlıyor.

Adından da anlaşılacağı üzere, MCD’ler (bellek kalıpları) büyük L3 önbellek bloklarını (Infinity Cache) ve fizikî GDDR6 bellek arayüzünü içeriyor. birebir vakitte, MCD’lerin GCD’ye bakan tarafında Infinity Fabric kontakları yer alıyor.


AMD, TSMC’nin N5 teknolojisini kullanarak 300 mm² boyutundaki Navi 31 GCD’ye 45.7 milyar transistör entegre etmeyi başardı. TSMC N6 bandından çıkan 37 mm² boyutundaki MCD’lerde ise 2.05 milyar transistör bulunmakta.

Yüksek Performanslı Orta Temas Teknolojileri: Fanout

Çipler ortası ara ilişki teknolojileri kelam konusu olduğunda birfazlaca kaygı ortaya çıkar. Bu noktada birinci vakit içinderda Infinity Fabric irtibatlarının gerektirdiği güç (harici çipler neredeyse her vakit daha fazla güç kullanır) akıllara geliyor. Bunun yanında, irtibat teknolojisinin verimliliği ve suratı hayli kıymetlidir.

1 – 3










Örnek olarak, Zen CPU’larda üretimi nispeten ucuz olan organik bir alt katman orta kesimi var, fakat 1,5 pJ/b (bit başına pikojul) tüketmekte. Misal bir yaklaşımı 384 bitlik arayüzde kullanmak çok yüksek güç tüketimine yol açacaktı, bu niçinle AMD Navi 31 ile arayüzü geliştirmek için fazlaca gayret harcadı.

Sonuç olarak ortaya “Fanout” orta ilişkisi olarak isimlendirilen bir tahlil çıktı. Slaytlar her şeyi kapsamlı biçimde açıklamıyor, fakat sunum görsellerinde CPU’lar (CPU chiplet bandwidth) ve GPU’larda (MCD bandwidth) sunulan bant genişliğinin farkını nazaranbilirsiniz.

AMD RDNA 3 mimarisi.

İşlemcilerde 25 orta temas bulunurken, GPU’lar için kullanılan 50 orta ilişki daha küçük bir alana yerleştiriliyor. Bu da güç ihtiyaçlarını kıymetli ölçüde azaltıyor. AMD, tüm Infinity Fanout kontakları toplamda 3,5 TB/s aktif bant genişliği sağlarken toplam GPU güç tüketiminin sadece %5’inden azını oluşturduğunu söylüyor.

Bit başına pikojul (pJ/b)
On-die0.1
Foveros0.2
EMIB0.3
UCIe0.25-0.5
Infinity Fabric (Navi 31)0.4
TSMC CoWoS0.56
Bunch of Wires (BoW)0.5-0.7
Infinity Fabric (Zen 4)?
NVLink-C2C1.3
Infinity Fabric (Zen 3)1.5 (?)

Burada enteresan bir nokta var: hem GCD tıpkı vakitte MCD’lerdeki Infinity Fabric mantığı yongalarda büyük bir alan kaplıyor. GCD’deki altı Infinity Fabric arayüzü kalıp alanının yaklaşık %9’unu kullanırken, arayüzler MCD’lerdeki toplam kalıp boyutunun yaklaşık %15’ini oluşturuyor.


Infinity Fabric arayüzünü ortadan kaldırıp çipi tek bir kesim halinde TSMC 5nm teknolojiyle inşa etselerdi, GPU boyutu muhtemelen 400-425 mm² ölçülerinde olacaktı. TSMC N5’in maliyeti TSMC N6’dan epey daha yüksek olacak ki AMD epey yongalı dizayna geçiş yapmayı göze almış.

Şimdi GPU’nun çeşitli kısımlarındaki mimari değişikliklere geçelim. Değişimi dört ana başlığa ayırabiliriz: çip dizaynında genel değişiklikler, GPU gölgelendiricilerinde (Stream Processors) geliştirmeler, ışın izleme performansını uygunlaştırmak için güncellemeler ve matris süreç donanımında iyileştirmeler.

İlk başta saat suratları konusunda baş karışıklığı yaratan ayrıntılar vardı. Artık frekans suratlarına ait daha net bilgiler sağlandı. AMD tarafınca sağlanan bilgilere gelince, RX 7900 XT 2.4 GHz, RX 7900 XTX ise 2.5 GHz yükseltilmiş saat suratına sahip. Lakin şirket RDNA 3 GPU’ların 3.0 GHz sürate ulaşacak biçimde tasarlandığını söylüyor. Referans saatler 500 MHz kadar daha düşük. Bu noktada kırmızı grubun verimliliği üst seviyeye çıkarmak istediğini düşünüyoruz. MSI ve ASUS üzere üretim ortakları güç limitlerini, voltajları ve saat suratlarını isteğine bakılırsa yükseltebilir.


AMD’ye bakılırsa RDNA 3 GPU’lar yarı güç kullanırken RDNA 2 GPU’larla birebir frekansa ulaşabiliyor yahut birebir gücü kullanırken 1.3 kat daha yüksek frekans sunabiliyor. AMD en uygun tecrübesi sağlamak üzere frekans ve gücü dengelemek istiyor. Bilhassa amiral gemisi RX 7900 XTX’in yüksek güç limitleriyle bir arada yüksek frekanslara eriştiğini bakılırsabiliriz.

GPU tasarımcısının dikkat çektiği bir başka nokta ise silikon kullanmasını yaklaşık %20 oranında güzelleştirmiş olması. RDNA 2 GPU’larda kart tam yük altındayken bile çipin kesimlerinin çoğunlukla boşta kaldığı fonksiyonel üniteler vardı. AMD’nin kelamlarına nazaran bu bahiste değerli geliştirmeler yapıldı.

Hesaplama Üniteleri (CU)

Çiplet tasarımı bir kenara, en kıymetli değişiklikler Hesaplama Üniteleri (Compute Unit-CU) ve Çalışma Kümesi İşlemcileri (Workgroup Processor-WGP) tarafında gerçekleştirildi. Bunlar içinde L0/L1/L2 önbellek boyutlarında güncellemeler, FP32 ve matris iş yükleri için daha fazla SIMD32 kaydı ve birtakım öğeler içinde daha geniş ve daha süratli arayüzler yer alıyor.

RDNA 3, RDNA yongaların ana yapı taşı haline gelen Hesaplama Üniteleri açısından değerli (çiftli süreç birimleri) geliştirmelerle geliyor. Görsellerde RDNA 3 ve RDNA 2 pek farklı görünmeyebilir, lakin vakit içindeyıcı ve Vektör GPR’leri için birinci blokta “Float / INT / Matrix SIMD32” ve akabinde “Float / Matrix SIMD32” ibarelerini gorebilirsiniz. Bu ikinci blok RDNA 3 mimarisinde yeni ve temel olarak kayan nokta randımanının iki katına çıkarılması manasına gelmekte.

1 – 4











Resmiyette her bir Hesaplama Ünitesi’nde 64 Akış İşlemcisi (Stream Processor) yer alıyor. Her şey RDNA 2 mimarisiyle tıpkı görünebilir, lakin yeni yapılandırma yardımıyla aslında toplam 12.288 ALU (Aritmetik Mantık Birimleri-gölgelendirici) elde ediyoruz.

Yeni RDNA 3 birleşik Hesaplama Birimi’nde 64 adet çift çıkışlı (dual-issue) Akış İşlemcisi (GPU gölgelendiricileri) bulunuyor. Bu RDNA 2 mimarisine kıyasla iki katlık bir fark demek. AMD, her SIMD ünitesine farklı iş yükleri gönderebiliyor yahut her ikisinin de tıpkı komut çeşidi üzerinde çalışmasını sağlayabiliyor.

Aslında bu mevzu herkeste baş karışıklığı yaratmıştı. Kimi yerlerde Navi 31’in 6.144, kimi yerlerde ise 12.288 gölgelendiriciye sahip olduğu söyleniyordu. Baş GPU mimarı ve RDNA 3 dizaynının gerisindeki ana isim olan Mike Mantor, bu mevzu sorulduğunda 12.288 sayısını verdi. Lakin AMD sunumlarında düşük sayıları kullanmayı seçiyor.

Önbellek ve Orta Bağlantı

Önbellekler ve sistemin geri kalanı içindeki arabirimleri tümünde geliştirmeler yapıldı. Örneğin L0 önbellek 32 KB’a (RDNA 2’nin iki katı), L2 önbellek 6 MB’a (RDNA 2’den 1.5 kat daha büyük) ve L2 önbellek bir daha 6 MB’a (1.5 kat) yükseltildi. Ek olarak, ana süreç üniteleri ile L1 önbellek içindeki temas artık 1ç5 kat daha geniş ve saat başına 6144 bayt randıman sağlıyor. Birebir biçimde, L1 ve L2 önbellek içindeki ilişki da 1.5 kat daha geniş (saat başına 3072 bayt).

Infinity Cache olarak da isimlendirilen L3 önbellek Navi 21’e göre (96 MB’a karşı 128 MB) küçüldü. Buna karşılık L3’ten L2’ye irtibat artık 2.25 kat daha geniş (saat başına 2304 bayt) ve toplam transfer suratı fazlaca daha yüksek.


Son olarak, GDDR6 bellek yapılandırmasında toplam 384 bit irtibat için artık 6 adede kadar 64 bit GDDR6 arabirimi var. VRAM toplam 960 GB/sn’lik bant genişliğini ortaya çıkarırken 20 Gbps (RX 6×50 kartlarda 18 Gbps ve yepyeni RDNA 2 yongalarında 16 Gbps) suratında çalışıyor.

Başka bir noktaya parmak basacak olursak, GDDR6 ve GDDR6X içindeki fark da yeni jenerasyonla bir arada daraldı. 960 GB/sn bant genişliği sunan RX 7900 XTX, 1008 GB/sn bant genişliğine sahip RTX 4090’a hayli yakın. RTX 3090 (936 GB/sn) ve RX 6900 XT’nin (512 GB/sn) içindeki fark ise hayli daha fazlaydı.

2. Jenerasyon Ray Tracing (Işın İzleme)

Işın Hızlandırıcı (Ray Accelerator) üniteleri ikinci kuşağa geçiş yapıyor. Bu ünitelerin sayısı birebir kalmış. Yani tıpkı RDNA 2 mimarisinde olduğu üzere, her Süreç Birimi’nde (Compute Unit) birer Ray Accelerator yer alıyor.

AMD RDNA 3 ışın izleme teknolojileri.

Kırmızı kadro, çekirdeklerin ışın izleme senaryolarında 1.5 kat daha fazla ışın üretebilecek kapasiteye ulaştığını belirtiyor. Ayrıyeten GPU’ya ışın izlemeyle ilgili yeni komut setleri de eklenmiş. Her bir CU’da bir RA olduğunu söylemiştik. AMD’ye bakılırsa bu üniteler eskisine bakılırsa %50 daha performanslı.

Yapay Zeka Hızlandırıcı

Bildiğiniz üzere ekran kartları artık biroldukça alanda değerli rol oynuyor. AMD de her bir Süreç Birimi’ne iki adet Yapay Zeka Hızlandırıcı (AI Accelerator) dahil etmiş. Yapay zeka iş yüklerinde verimlilik artarken performansın 2.7 kata kadar arttığı argüman edilmiş.


Ham süreç gücünden emin değiliz, lakin AI hızlandırıcıların hem INT8 tıpkı vakitte BF16 (brain-float 16-bit) süreçlerini desteklediğini biliyoruz. Yani muhtemelen NVIDIA’nın Tensor çekirdeklerine emsal bir yapı var, lakin desteklenen toplam komut seti sayısı birebir değil. Ne olursa olsun, AMD yeni yapay zeka hızlandırıcılarının 2,7 kata kadar uygunlaştırma sağladığını argüman ediyor. Hızlandırıcı sayısının artması, daha fazla Hesaplama Ünitesi ve artan verimlilik bir ortaya gelerek bu performans artışını sağlıyor.

Diğer İyileştirmeler

Komut İşlemcisi (CP) güncellemeleri, makul iş yükleri için performansı artırırken şoför ve API tarafındaki CPU darboğazlarını da azaltacak. Donanım tabanlı ayıklama performansı da geometri tarafında %50 daha süratli ve saat başına en yüksek rasterleştirilmiş piksel sayısında %50 artış var.

Yeni mimariyle birlikte kullanıma sunulan Dual Media Engine, AMD’yi görüntü tarafında NVIDIA ve Intel ile birebir düzeye getirecek. Lakin kalite ve performansı görmek için ayrıntılı testler gerekli.


AMD ayrıyeten yeni RX 7000 ekran kartlarıyla DisplayPort 2.1 dayanağı sunmaya başlıyor. Intel de Arc GPU’larında DP2 dayanağı sunmuştu, lakin bu dayanak 40 Gbps (UHBR 10) ile sonluydu. AMD’nin teması 54 Gbps (UHBR 13.5) sürate erişebiliyor.

AMD RDNA Mimarileri


RDNA

RDNA 2

RDNA 3
Hesaplama Birimleri
Ray Tracing2. nesil
AMD Infinity Cache2. nesil
AI Acceleration
(Yapay Zeka Hızlandırma)
AMD Radiance Display Engine
Chiplet Tasarımı




Ekran KartıRX 7900 XTXRX 7900 XTRX 6950 XTRTX 4090RTX 4080RTX 3090 Ti
GPUNavi 31Navi 31Navi 21AD102AD103GA102
Üretim TeknolojisiTSMC N5 + N6TSMC N5 + N6TSMC N7TSMC 4NTSMC 4NSamsung 8N
Transistörler58 milyar58 milyar26.8 milyar76.3 milyar45.9 milyar28.3 milyar
Kalıp Boyutu300 + 222 mm²300 + 185 mm²519 mm²608.4 mm²378.6 mm²628.4 mm²
SM / CU / Xe-Core9684801287684
GPU Çekirdeği (Shader)61445376512016384972810752
Tensor
Çekirdeği
512304336
Ray Tracing
Çekirdeği
9684801287684
Boost Saati2500 MHz2400 MHz2310 MHz2520 MHz2505 MHz1860 MHz
Bellek Hızı20 Gbps20 Gbps18 Gbps21 Gbps22.4 Gbps21 Gbps
Bellek Kapasitesi24 GB GDDR620 GB GDDR616 GB GDDR624 GB GDDR6X16 GB GDDR6X24 GB GDDR6X
Bellek Bilgi Yolu384-bit320-bit256-bit384-bit256-bit384-bit
L2 / Infinity Cache – Önbellek96 MB80 MB128 MB72 MB64 MB6 MB
ROP192192128176112112
TMU384336320512304336
TFLOPS FP3256.543.023.782.648.740.0
TFLOPS FP16 (FP8)1138647.4661 (1321)390 (780)160 (320)
Bant Genişliği960 GBps800 GBps576 GBps1008 GBps717 GBps1008 GBps
Etkin Bant Genişliği?2900 GB/sn1728.2 GB/sn1664.2 GB/sn
TDP/TBP355W300W335W450W320W450W
Liste Fiyatı999$899$1099$1599$1199$1999$