Çok Yongalı Tasarım: AMD RDNA 3 Grafik Mimarisi Hakkında Her Şey

Adanali · 26 Kas 2022

AMD, 3 Kasım 2022’de Radeon RX 7900 serisi ekran kartlarına ait temel detayları deklare etti. Sunumda yeni ekran kartları ve yeni RDNA 3 mimarisi hakkında kimi bilgiler verildi lakin birden fazla şey eksikti. Artık RDNA 3 mimarisinin bilgilerina derinlemesine bakış atacağız.

Kırmızılılar yeni mimarisiyle bir arada rakibi NVIDIA’ya bir adım daha yaklaştı. En kıymetli ayrıntıya baştan değinecek olursak, fazlaca yongalı yapısı yardımıyla GPU tasarımı baştan aşağı değişti.

Daha evvel birfazlaca sefer belirttiğimiz üzere, RX 7900 serisinde Navi 31 isimli üst sınıf bir GPU kullanılıyor. Navi 31, Grafik Süreç Kalıbı (GCD) ve Bellek Önbellek Kalıbı (MCD-Memory Cache Dies) olmak üzere iki temel kesimden meydana geliyor. AMD’nin Zen 2/3/4 işlemcilerinde benimsenen çiplet dizaynla benzerlikler var, fakat her şey grafik dünyasının gereksinimlerine uyacak biçimde tasarlanmış. Diğer bir deyişle, kırmızı ekip işlemci tarafındaki tecrübelerini grafik cephesine aktarmayı başarmış.

Navi 21 GPU özellikleri

AMD Zen Mimarisinin Temeli

AMD, Zen 2 ve daha sonrasındaki işlemcilerde sistem belleğine bağlanan ve PCIe Express arayüzü, USB irtibat noktaları ve entegre grafik işlemcisi (Zen 4 ile geldi) üzere üniteleri barındıran bir Giriş/Çıkış Kalıbı (IOD) kullanıyor. İçerisinde biroldukca başka ünite barındıran bu yonga, AMD’nin Infinity Fabric teknolojisiyle bir yahut birden çok CCD’ye (Core Compute Die yahut Core Complex Die) bağlanıyor. Bu CCD’ler ise CPU çekirdeklerini, önbellek ünitesini ve farklı bileşenleri içeriyor.

Çekirdekleri ortasında barındıran üniteler küçük yapıdayken, IOD yaklaşık 125 mm² (Ryzen 3000) ile 416 125 mm² (EPYC xxx2 nesil) içinde değişkenlik gösterebiliyor. En son teknolojileri barındıran Zen 4 mimarisinde işler biraz daha değişti. Ryzen 7000 işlemcilerde CCD’ler TSMC N5 (5nm), IOD TSMC N6 (6nm) teknolojisine dayanıyor. Yani bu biçimde yapılarda gereksinime ve maliyetlere nazaran kullanılan teknolojiler farklılık gösterebiliyor. Bu da aslında üreticiler için kıymetli bir avantaj.

RDNA 3 Mimarisine Derinlemesine Dalış

Şimdi gelelim asıl mevzumuza. GPU’lar bildiğiniz üzere farklı ihtiyaçlara sahip ve fazlaca farklı yapıda. Grafik süreç üniteleri, tüm GPU çekirdeklerini beslemek için bol bol bellek bant genişliğine gereksinim duyar. Örneğin, 12 kanallı DDR5 yapılandırmasına sahip devasa EPYC 9654 bile ‘yalnızca’ 460,8 GB/s’ye kadar bant genişliği sunuyor. RTX 4090 ve RTX 3090 Ti üzere ekran kartları ise bu ölçüleri ikiye katlarken 1 TB/sn düzeyinde bant genişliğine sahip.

GPU yongalarının tesirli bir biçimde çalışması için AMD’nin farklı bir şey yapması gerekiyordu. Şirket mühendisleri tahlili CPU yapılandırmasının tam karşıtını uygulamakta buldu: ana süreç merkezi olarak GCD kullanılırken, bellek denetimcileri ve önbellek birden çok küçük yongaya yerleştirildi.

GCD ismi verilen ünite görüntü kodlama donanımı, ekran arayüzleri ve PCIe ilişkisi üzere öbür temel fonksiyonlarla bir arada Bilgi Süreç Ünitelerini (Compute Unit olarak biliniyor) ortasında barındırıyor. Navi 31 GCD, tipik grafik sürece vazifelerini üstlenmek üzere 96 adede kadar CU barındırabiliyor. AMD, GCD’yi gelişmiş Infinity Fabric teknolojileriyle çipin etrafına yayılan MCD’lere ve kartın geri kalanına bağlıyor.

Adından da anlaşılacağı üzere, MCD’ler (bellek kalıpları) büyük L3 önbellek bloklarını (Infinity Cache) ve fizikî GDDR6 bellek arayüzünü içeriyor. birebir vakitte, MCD’lerin GCD’ye bakan tarafında Infinity Fabric kontakları yer alıyor.

AMD, TSMC’nin N5 teknolojisini kullanarak 300 mm² boyutundaki Navi 31 GCD’ye 45.7 milyar transistör entegre etmeyi başardı. TSMC N6 bandından çıkan 37 mm² boyutundaki MCD’lerde ise 2.05 milyar transistör bulunmakta.

Yüksek Performanslı Orta Temas Teknolojileri: Fanout

Çipler ortası ara ilişki teknolojileri kelam konusu olduğunda birfazlaca kaygı ortaya çıkar. Bu noktada birinci vakit içinderda Infinity Fabric irtibatlarının gerektirdiği güç (harici çipler neredeyse her vakit daha fazla güç kullanır) akıllara geliyor. Bunun yanında, irtibat teknolojisinin verimliliği ve suratı hayli kıymetlidir.

1 – 3

Örnek olarak, Zen CPU’larda üretimi nispeten ucuz olan organik bir alt katman orta kesimi var, fakat 1,5 pJ/b (bit başına pikojul) tüketmekte. Misal bir yaklaşımı 384 bitlik arayüzde kullanmak çok yüksek güç tüketimine yol açacaktı, bu niçinle AMD Navi 31 ile arayüzü geliştirmek için fazlaca gayret harcadı.

Sonuç olarak ortaya “Fanout” orta ilişkisi olarak isimlendirilen bir tahlil çıktı. Slaytlar her şeyi kapsamlı biçimde açıklamıyor, fakat sunum görsellerinde CPU’lar (CPU chiplet bandwidth) ve GPU’larda (MCD bandwidth) sunulan bant genişliğinin farkını nazaranbilirsiniz.

AMD RDNA 3 mimarisi.

İşlemcilerde 25 orta temas bulunurken, GPU’lar için kullanılan 50 orta ilişki daha küçük bir alana yerleştiriliyor. Bu da güç ihtiyaçlarını kıymetli ölçüde azaltıyor. AMD, tüm Infinity Fanout kontakları toplamda 3,5 TB/s aktif bant genişliği sağlarken toplam GPU güç tüketiminin sadece %5’inden azını oluşturduğunu söylüyor.

Bit başına pikojul (pJ/b)
On-die	0.1
Foveros	0.2
EMIB	0.3
UCIe	0.25-0.5
Infinity Fabric (Navi 31)	0.4
TSMC CoWoS	0.56
Bunch of Wires (BoW)	0.5-0.7
Infinity Fabric (Zen 4)	?
NVLink-C2C	1.3
Infinity Fabric (Zen 3)	1.5 (?)

Burada enteresan bir nokta var: hem GCD tıpkı vakitte MCD’lerdeki Infinity Fabric mantığı yongalarda büyük bir alan kaplıyor. GCD’deki altı Infinity Fabric arayüzü kalıp alanının yaklaşık %9’unu kullanırken, arayüzler MCD’lerdeki toplam kalıp boyutunun yaklaşık %15’ini oluşturuyor.

Infinity Fabric arayüzünü ortadan kaldırıp çipi tek bir kesim halinde TSMC 5nm teknolojiyle inşa etselerdi, GPU boyutu muhtemelen 400-425 mm² ölçülerinde olacaktı. TSMC N5’in maliyeti TSMC N6’dan epey daha yüksek olacak ki AMD epey yongalı dizayna geçiş yapmayı göze almış.

Şimdi GPU’nun çeşitli kısımlarındaki mimari değişikliklere geçelim. Değişimi dört ana başlığa ayırabiliriz: çip dizaynında genel değişiklikler, GPU gölgelendiricilerinde (Stream Processors) geliştirmeler, ışın izleme performansını uygunlaştırmak için güncellemeler ve matris süreç donanımında iyileştirmeler.

İlk başta saat suratları konusunda baş karışıklığı yaratan ayrıntılar vardı. Artık frekans suratlarına ait daha net bilgiler sağlandı. AMD tarafınca sağlanan bilgilere gelince, RX 7900 XT 2.4 GHz, RX 7900 XTX ise 2.5 GHz yükseltilmiş saat suratına sahip. Lakin şirket RDNA 3 GPU’ların 3.0 GHz sürate ulaşacak biçimde tasarlandığını söylüyor. Referans saatler 500 MHz kadar daha düşük. Bu noktada kırmızı grubun verimliliği üst seviyeye çıkarmak istediğini düşünüyoruz. MSI ve ASUS üzere üretim ortakları güç limitlerini, voltajları ve saat suratlarını isteğine bakılırsa yükseltebilir.

AMD’ye bakılırsa RDNA 3 GPU’lar yarı güç kullanırken RDNA 2 GPU’larla birebir frekansa ulaşabiliyor yahut birebir gücü kullanırken 1.3 kat daha yüksek frekans sunabiliyor. AMD en uygun tecrübesi sağlamak üzere frekans ve gücü dengelemek istiyor. Bilhassa amiral gemisi RX 7900 XTX’in yüksek güç limitleriyle bir arada yüksek frekanslara eriştiğini bakılırsabiliriz.

GPU tasarımcısının dikkat çektiği bir başka nokta ise silikon kullanmasını yaklaşık %20 oranında güzelleştirmiş olması. RDNA 2 GPU’larda kart tam yük altındayken bile çipin kesimlerinin çoğunlukla boşta kaldığı fonksiyonel üniteler vardı. AMD’nin kelamlarına nazaran bu bahiste değerli geliştirmeler yapıldı.

Hesaplama Üniteleri (CU)

Çiplet tasarımı bir kenara, en kıymetli değişiklikler Hesaplama Üniteleri (Compute Unit-CU) ve Çalışma Kümesi İşlemcileri (Workgroup Processor-WGP) tarafında gerçekleştirildi. Bunlar içinde L0/L1/L2 önbellek boyutlarında güncellemeler, FP32 ve matris iş yükleri için daha fazla SIMD32 kaydı ve birtakım öğeler içinde daha geniş ve daha süratli arayüzler yer alıyor.

RDNA 3, RDNA yongaların ana yapı taşı haline gelen Hesaplama Üniteleri açısından değerli (çiftli süreç birimleri) geliştirmelerle geliyor. Görsellerde RDNA 3 ve RDNA 2 pek farklı görünmeyebilir, lakin vakit içindeyıcı ve Vektör GPR’leri için birinci blokta “Float / INT / Matrix SIMD32” ve akabinde “Float / Matrix SIMD32” ibarelerini gorebilirsiniz. Bu ikinci blok RDNA 3 mimarisinde yeni ve temel olarak kayan nokta randımanının iki katına çıkarılması manasına gelmekte.

1 – 4

Resmiyette her bir Hesaplama Ünitesi’nde 64 Akış İşlemcisi (Stream Processor) yer alıyor. Her şey RDNA 2 mimarisiyle tıpkı görünebilir, lakin yeni yapılandırma yardımıyla aslında toplam 12.288 ALU (Aritmetik Mantık Birimleri-gölgelendirici) elde ediyoruz.

Yeni RDNA 3 birleşik Hesaplama Birimi’nde 64 adet çift çıkışlı (dual-issue) Akış İşlemcisi (GPU gölgelendiricileri) bulunuyor. Bu RDNA 2 mimarisine kıyasla iki katlık bir fark demek. AMD, her SIMD ünitesine farklı iş yükleri gönderebiliyor yahut her ikisinin de tıpkı komut çeşidi üzerinde çalışmasını sağlayabiliyor.

Aslında bu mevzu herkeste baş karışıklığı yaratmıştı. Kimi yerlerde Navi 31’in 6.144, kimi yerlerde ise 12.288 gölgelendiriciye sahip olduğu söyleniyordu. Baş GPU mimarı ve RDNA 3 dizaynının gerisindeki ana isim olan Mike Mantor, bu mevzu sorulduğunda 12.288 sayısını verdi. Lakin AMD sunumlarında düşük sayıları kullanmayı seçiyor.

Önbellek ve Orta Bağlantı

Önbellekler ve sistemin geri kalanı içindeki arabirimleri tümünde geliştirmeler yapıldı. Örneğin L0 önbellek 32 KB’a (RDNA 2’nin iki katı), L2 önbellek 6 MB’a (RDNA 2’den 1.5 kat daha büyük) ve L2 önbellek bir daha 6 MB’a (1.5 kat) yükseltildi. Ek olarak, ana süreç üniteleri ile L1 önbellek içindeki temas artık 1ç5 kat daha geniş ve saat başına 6144 bayt randıman sağlıyor. Birebir biçimde, L1 ve L2 önbellek içindeki ilişki da 1.5 kat daha geniş (saat başına 3072 bayt).

Infinity Cache olarak da isimlendirilen L3 önbellek Navi 21’e göre (96 MB’a karşı 128 MB) küçüldü. Buna karşılık L3’ten L2’ye irtibat artık 2.25 kat daha geniş (saat başına 2304 bayt) ve toplam transfer suratı fazlaca daha yüksek.

Son olarak, GDDR6 bellek yapılandırmasında toplam 384 bit irtibat için artık 6 adede kadar 64 bit GDDR6 arabirimi var. VRAM toplam 960 GB/sn’lik bant genişliğini ortaya çıkarırken 20 Gbps (RX 6×50 kartlarda 18 Gbps ve yepyeni RDNA 2 yongalarında 16 Gbps) suratında çalışıyor.

Başka bir noktaya parmak basacak olursak, GDDR6 ve GDDR6X içindeki fark da yeni jenerasyonla bir arada daraldı. 960 GB/sn bant genişliği sunan RX 7900 XTX, 1008 GB/sn bant genişliğine sahip RTX 4090’a hayli yakın. RTX 3090 (936 GB/sn) ve RX 6900 XT’nin (512 GB/sn) içindeki fark ise hayli daha fazlaydı.

2. Jenerasyon Ray Tracing (Işın İzleme)

Işın Hızlandırıcı (Ray Accelerator) üniteleri ikinci kuşağa geçiş yapıyor. Bu ünitelerin sayısı birebir kalmış. Yani tıpkı RDNA 2 mimarisinde olduğu üzere, her Süreç Birimi’nde (Compute Unit) birer Ray Accelerator yer alıyor.

AMD RDNA 3 ışın izleme teknolojileri.

Kırmızı kadro, çekirdeklerin ışın izleme senaryolarında 1.5 kat daha fazla ışın üretebilecek kapasiteye ulaştığını belirtiyor. Ayrıyeten GPU’ya ışın izlemeyle ilgili yeni komut setleri de eklenmiş. Her bir CU’da bir RA olduğunu söylemiştik. AMD’ye bakılırsa bu üniteler eskisine bakılırsa %50 daha performanslı.

Yapay Zeka Hızlandırıcı

Bildiğiniz üzere ekran kartları artık biroldukça alanda değerli rol oynuyor. AMD de her bir Süreç Birimi’ne iki adet Yapay Zeka Hızlandırıcı (AI Accelerator) dahil etmiş. Yapay zeka iş yüklerinde verimlilik artarken performansın 2.7 kata kadar arttığı argüman edilmiş.

Ham süreç gücünden emin değiliz, lakin AI hızlandırıcıların hem INT8 tıpkı vakitte BF16 (brain-float 16-bit) süreçlerini desteklediğini biliyoruz. Yani muhtemelen NVIDIA’nın Tensor çekirdeklerine emsal bir yapı var, lakin desteklenen toplam komut seti sayısı birebir değil. Ne olursa olsun, AMD yeni yapay zeka hızlandırıcılarının 2,7 kata kadar uygunlaştırma sağladığını argüman ediyor. Hızlandırıcı sayısının artması, daha fazla Hesaplama Ünitesi ve artan verimlilik bir ortaya gelerek bu performans artışını sağlıyor.

Diğer İyileştirmeler

Komut İşlemcisi (CP) güncellemeleri, makul iş yükleri için performansı artırırken şoför ve API tarafındaki CPU darboğazlarını da azaltacak. Donanım tabanlı ayıklama performansı da geometri tarafında %50 daha süratli ve saat başına en yüksek rasterleştirilmiş piksel sayısında %50 artış var.

Yeni mimariyle birlikte kullanıma sunulan Dual Media Engine, AMD’yi görüntü tarafında NVIDIA ve Intel ile birebir düzeye getirecek. Lakin kalite ve performansı görmek için ayrıntılı testler gerekli.

AMD ayrıyeten yeni RX 7000 ekran kartlarıyla DisplayPort 2.1 dayanağı sunmaya başlıyor. Intel de Arc GPU’larında DP2 dayanağı sunmuştu, lakin bu dayanak 40 Gbps (UHBR 10) ile sonluydu. AMD’nin teması 54 Gbps (UHBR 13.5) sürate erişebiliyor.

AMD RDNA Mimarileri

RDNA	RDNA 2	RDNA 3
Hesaplama Birimleri
Ray Tracing	2. nesil
AMD Infinity Cache	2. nesil
AI Acceleration (Yapay Zeka Hızlandırma)
AMD Radiance Display Engine
Chiplet Tasarımı

Ekran Kartı	RX 7900 XTX	RX 7900 XT	RX 6950 XT	RTX 4090	RTX 4080	RTX 3090 Ti
GPU	Navi 31	Navi 31	Navi 21	AD102	AD103	GA102
Üretim Teknolojisi	TSMC N5 + N6	TSMC N5 + N6	TSMC N7	TSMC 4N	TSMC 4N	Samsung 8N
Transistörler	58 milyar	58 milyar	26.8 milyar	76.3 milyar	45.9 milyar	28.3 milyar
Kalıp Boyutu	300 + 222 mm²	300 + 185 mm²	519 mm²	608.4 mm²	378.6 mm²	628.4 mm²
SM / CU / Xe-Core	96	84	80	128	76	84
GPU Çekirdeği (Shader)	6144	5376	5120	16384	9728	10752
Tensor Çekirdeği	–	–	–	512	304	336
Ray Tracing Çekirdeği	96	84	80	128	76	84
Boost Saati	2500 MHz	2400 MHz	2310 MHz	2520 MHz	2505 MHz	1860 MHz
Bellek Hızı	20 Gbps	20 Gbps	18 Gbps	21 Gbps	22.4 Gbps	21 Gbps
Bellek Kapasitesi	24 GB GDDR6	20 GB GDDR6	16 GB GDDR6	24 GB GDDR6X	16 GB GDDR6X	24 GB GDDR6X
Bellek Bilgi Yolu	384-bit	320-bit	256-bit	384-bit	256-bit	384-bit
L2 / Infinity Cache – Önbellek	96 MB	80 MB	128 MB	72 MB	64 MB	6 MB
ROP	192	192	128	176	112	112
TMU	384	336	320	512	304	336
TFLOPS FP32	56.5	43.0	23.7	82.6	48.7	40.0
TFLOPS FP16 (FP8)	113	86	47.4	661 (1321)	390 (780)	160 (320)
Bant Genişliği	960 GBps	800 GBps	576 GBps	1008 GBps	717 GBps	1008 GBps
Etkin Bant Genişliği	?	2900 GB/sn	1728.2 GB/sn	1664.2 GB/sn	–	–
TDP/TBP	355W	300W	335W	450W	320W	450W
Liste Fiyatı	999$	899$	1099$	1599$	1199$	1999$

Çok Yongalı Tasarım: AMD RDNA 3 Grafik Mimarisi Hakkında Her Şey

Adanali

Member