Auf der Intel Vision-Veranstaltung wurde die zweite Generation von Habana-KI-Beschleunigern angekündigt: Gaudi2 für Deep-Learning-Aufgaben und Greco für Inferenzsysteme. Beide Chips werden jetzt in einem 7-nm- statt in einem 16-nm-Prozess hergestellt, aber das ist bei weitem nicht die einzige Verbesserung.
Gaudi2 kommt in einem OAM-Formfaktor und hat eine TDP von 600 W. Das ist fast doppelt so viel wie die 350 Watt, die Gaudi hatte, aber die zweite Chipgeneration unterscheidet sich erheblich von der ersten. Damit hat sich die Menge des On-Board-Speichers verdreifacht; bis zu 96 GB, und jetzt ist es HBM2e, daher stieg die Bandbreite von 1 auf 2,45 TB / s. Die Menge an SRAM hat sich auf 48 MB verdoppelt. Den Speicher ergänzen DMA-Engines, die Daten on-the-fly in die gewünschte Form umwandeln können.
Es gibt zwei Haupttypen von Recheneinheiten in Gaudi2: Matrix Multiplication Engine (MME) und Tensor Processor Core (TPC). MME ist, wie der Name schon sagt, darauf ausgelegt, die Matrixmultiplikation zu beschleunigen. TPCs sind programmierbare VLIW-Blöcke zum Arbeiten mit SIMD-Operationen. TPCs unterstützen alle gängigen Datenformate: FP32, BF16, FP16, FP8 sowie INT32, INT16 und INT8. Es gibt auch Hardware-Decoder für HEVC, H.264, VP9 und JPEG.
Ein Feature von Gaudi2 ist die Möglichkeit des parallelen Betriebs von MME und TPC. Laut den Entwicklern beschleunigt dies den Prozess des Trainierens von Modellen erheblich. Die proprietäre SynapseAI-Software unterstützt die Integration mit TensorFlow und PyTorch und bietet auch Tools zum Übertragen und Optimieren vorgefertigter Modelle und zum Entwickeln neuer Modelle, ein SDK für TPC, Dienstprogramme für Überwachung und Orchestrierung usw. Der Reichtum des Software-Ökosystems wie der des gleichen NVIDIA ist jedoch noch weit entfernt.
Der Schnittstellenteil der neuen Produkte umfasst PCIe 4.0 x16 und sofort 24 (vorher waren es nur 10) 100-GbE-Kanäle mit RDMA ROcE v2, die verwendet werden, um Beschleuniger innerhalb desselben Knotens miteinander zu verbinden (jeweils 3 Kanäle ) und zwischen Knoten. Intel bietet ein HLBA-225 (OCP UBB) Board mit acht Gaudi2s und einer fertigen KI-Plattform an, die immer noch auf Supermicro X12-Servern basiert, aber mit neuen Boards, und DDN AI400X2-Speicher.
Am interessantesten ist schließlich der Leistungsvergleich. Bei einer Reihe beliebter Workloads ist das neue Produkt 1,7- bis 2,8-mal schneller als die NVIDIA A100 (80 GB). Das Ergebnis kann sich auf den ersten Blick sehen lassen. Allerdings sind die A100 alles andere als neu. Außerdem sollen noch im dritten Quartal dieses Jahres die H100-Beschleuniger erscheinen, die laut NVIDIA im Schnitt drei- bis sechsmal schneller sein sollen als die A100 und dank neuer Features die Lerngeschwindigkeit steigern können bis zu neunmal. Nun, im Allgemeinen sind H100 vielseitigere Lösungen.
Gaudi2 steht Habana-Kunden bereits zur Verfügung, und mehrere tausend Beschleuniger werden von Intel selbst zur weiteren Softwareoptimierung und Entwicklung von Gaudi3-Chips verwendet. Greco wird in der zweiten Jahreshälfte erhältlich sein, und ihre Massenproduktion ist für das erste Quartal 2023 geplant, daher gibt es noch nicht viele Informationen darüber. So wird beispielsweise berichtet, dass Beschleuniger im Vergleich zu Goya deutlich weniger gefräßig geworden sind und die TDP von 200 auf 75 Watt reduziert haben. Dadurch konnten sie in eine Standard-HHHL-Erweiterungskarte mit einer PCIe 4.0 x8-Schnittstelle gepackt werden.
Die Menge des integrierten Speichers beträgt immer noch 16 GB, aber der Übergang von DDR4 zu LPDDR5 ermöglichte es, die Bandbreite zu verfünffachen - von 40 auf 204 GB / s. Aber der Chip selbst hat jetzt 128 MB SRAM und nicht 40 wie Goya. Es unterstützt die Formate BF16, FP16, (U)INT8 und (U)INT4. An Bord sind HEVC-, H.264-, JPEG- und P-JPEG-Codecs. Derselbe SynapseAI-Stack wird für die Arbeit mit Greco angeboten. Das Unternehmen lieferte keinen Vergleich der Leistung der Neuheit mit anderen Inferenzlösungen.
Allerdings wirken beide Entscheidungen von Habana etwas verspätet. Die Verzögerung an der KI-Front ist wahrscheinlich teilweise „schuld“ an der erfolglosen Wette auf Nervana-Lösungen – Habana-Lösungen kamen, um die unveröffentlichten NNP-T-Beschleuniger für das Training zu ersetzen, und neue NNP-I-Inferenzchips sollten nicht erwartet werden. Dennoch sieht das Schicksal von Habana auch innerhalb von Intel nicht wolkenlos aus, da seine Lösungen mit Xe-Serverbeschleunigern und im Fall von Inferenzsystemen sogar mit Xeon konkurrieren müssen.
2022-05-11 04:51:56
Autor: Vitalii Babkin