Auf der Hot Chips 34 gab AMD Details zu den Serverbeschleunigern der Instinct MI200-Serie auf Basis von Aldebaran CDNA 2-GPUs bekannt, die die ersten Grafiklösungen von AMD sind, die einen Multi-Chip-Stack verwenden, auch bekannt als MCM-Layout.
Einige der Hauptmerkmale des Instinct MI200 sind:
CDNA 2-Architektur mit Matrixkernen der zweiten Generation zur Beschleunigung von FP64- und FP32-Berechnungen. Sie bieten im Vergleich zur vorherigen Generation von AMD-Serverbeschleunigern eine bis zu viermal höhere Leistung als FP64-Operationen;
fortschrittliche 2.5D Elevated Fanout Bridge (EFB)-Gehäusetechnologie, die bis zu 1,8-mal mehr Kerne und bis zu 2,7-mal mehr Speicherbandbreite als die vorherige Generation von AMD-Server-GPUs liefert und gleichzeitig eine Spitzenspeicherbandbreite von 3x, 2 TB/s erreicht;
dritte Generation des AMD Infinity Fabric-Busses; Unterstützung für bis zu 8 Infinity Fabric-Lanes, die die Kommunikation zwischen mehreren AMD Instinct MI200 selbst ermöglichen, sowie AMD EPYC-Prozessoren, einschließlich der dritten Generation, die das System mit einheitlichem CPU / GPU-Speicher ausstatten und den maximalen Durchsatz erhöhen.
Als Teil der AMD Instinct MI200-Beschleuniger wird ein Grafikprozessor mit zwei Kristallen (Chips) verwendet - dem Haupt- und dem Sekundär. Jeder Chip enthält 8 Shader-Engines, von denen jede 14 Compute Units (CUs) für FP64- und FP32-Operationen sowie Matrix-Engines der zweiten Generation für FP16- und BF16-Operationen enthält.
Somit gibt es 112 Recheneinheiten oder 7168 Stream-Prozessoren pro Die und 224 CUs oder 14.336 Stream-Prozessoren für die gesamte GPU. Die GPU wird im 6-nm-Prozess von TSMC hergestellt. Insgesamt befinden sich 58 Milliarden Transistoren in der GPU.
Die Aldebaran-GPU verwendet den Hochgeschwindigkeits-xGMI-Bus. Jedes Chiplet verfügt über eine VCN 2.6-Engine und einen Haupt-IO-Controller, jeweils vier 1024-Bit-HBM2e-Speichercontroller. Jedes Chiplet verfügt außerdem über 8 MB L2-Cache, physisch in 32 Blöcke unterteilt, und 64 GB HBM2e-Speicher mit einem Durchsatz von 1,6 TB / s. Die Gesamtmenge des HBM2e-Speichers auf der GPU kann bis zu 128 GB betragen, und seine Bandbreite beträgt 3,2 TB / s. Das sind 1,2 TB/s mehr als beim NVIDIA A100 mit 80 GB HBM2e-Speicher.
AMD Aldebaran unterstützt 8 Infinity Fabric-Kanäle. Einer davon kann verwendet werden, um CPU und GPU (über PCI Express) zu verbinden. Es ist für eine konstante Datenübertragungsrate von 144 GB/s ausgelegt. Skalieren Sie auf bis zu 500 GB/s mit einer externen Infinity Fabric-Verbindung mit vier angeschlossenen AMD Instinct MI200-Beschleunigern oder mit einem PCIe 4.0 ESM AIC für einen Durchsatz von 100 GB/s.
AMD behauptet, dass Aldebaran je nach Aufgabe bis zu dreimal schneller sein kann als der NVIDIA A100.
AMD Instinct MI200-Beschleuniger auf Basis der CNDA 2-Architektur werden bereits als Teil des Frontier-Exascale-Supercomputers verwendet, der die TOP500-Bewertung der produktivsten Supercomputer der Welt anführt. Es bietet eine Leistung auf dem Niveau von 1,1 Exaflops.
AMD kündigte außerdem Pläne an, eine neue Generation von Instinct MI300-Rechenbeschleunigern auf den Markt zu bringen. Sie werden auch ein Chiplet-Layout verwenden, aber das werden bereits APUs sein - CPU- und GPU-Kristalle werden auf demselben Substrat kombiniert. Der Instinct MI300 behauptet, die CDNA 3-GPU- und Zen 4-Architekturen und eine bis zu 5-mal schnellere KI-Leistung als die CDNA 2-Architektur zu verwenden.
2022-08-22 20:52:44
Autor: Vitalii Babkin