Enflame, das diesen Sommer Beschleuniger auf Basis der zweiten Generation seiner DTU-KI-Chips präsentierte, hat einen neuen Inferenzbeschleuniger Cloudblazer Yunsui i20 mit einem Suixi 2.5-Chip veröffentlicht. Es wird mit dem 12-nm-FinFET-Prozess von GlobalFoundries hergestellt und verfügt über eine aktualisierte Hochleistungsarchitektur der Rechenkerne GCU-CARE 2.0, dank der es laut den Machern möglich war, eine mit der Mainstream-7-nm-GPU vergleichbare Effizienz zu erreichen.
Zu den Hauptmerkmalen des neuen Produkts zählt das Unternehmen die erhöhte Rechenleistung, die Möglichkeit zur Durchführung von Tensor-, Vektor- und Skalarberechnungen, API für C++ und Python sowie die Unterstützung wichtiger Frameworks und Modellformate (TensorFlow, PyTorch , ONNX). Die mitgelieferte Software bietet flexible Migrationsoptionen mit Unterstützung für Virtualisierungstechnologien sowie Mehrbenutzer- und Multitasking-Umgebungen mit sicherer Prozessisolation.
Der Yunsui i20 verfügt über 16GB HBM2e Speicher mit einer Bandbreite von bis zu 819GB/s. Das neue Produkt unterstützt alle wichtigen Formate und bietet eine universelle Inferenzplattform, auch für die Cloud. Die maximale Rechenleistung von FP32 erreicht 32 Teraflops, TF32 (es wird nicht angegeben, ob es um die Kompatibilität mit NVIDIA geht) - 128 Teraflops, FP16 / BF16 - 128 Teraflops und INT8 erreicht 256 Tops. Im Vergleich zur ersten Produktgeneration steigerte Yunsui i20 die FP-Leistung um das 1,8-Fache und die INT-Rechenleistung um das 3,6-Fache.
Die Leistung bei FP32-, TF32-, FP16 / BF16- und INT8-Berechnungen beträgt 19,5, 156, 312 und 624 Teraflops (Tops für INT), und das Speichervolumen und die Bandbreite betragen 40/80 GB bzw. 1555/1935 GB/s. AMD MI100 verfügt über 32 GB HBM2-Speicher (1,23 TB / s) und die Leistung von FP32, FP16 und BF16 beträgt 46,1, 184,6 bzw. 92,3 Teraflops. Alle drei Beschleuniger verfügen über eine PCIe-4.0-Schnittstelle.
Einen wesentlichen Beitrag zur Leistungssteigerung leistete die Optimierung des proprietären TopsRider-Softwarestacks, wodurch die Belastung des Speichersubsystems reduziert wurde. Infolgedessen stieg die durchschnittliche Leistung der Modellausführung um das 3,5-fache und die Effizienz der Nutzung der Rechenleistung - im Durchschnitt um das 2-fache. Darüber hinaus können das neue Programmiermodell und die Automatisierungstechnologien die Entwicklungseffizienz beschleunigen und die Kosten für die Modellmigration senken. Das Unternehmen ist überzeugt, dass all dies den Yunsui i20 zu einer wettbewerbsfähigeren Lösung machen wird.
Dank Virtualisierungstechnologie lässt sich Yunsui i20 in 6 voneinander isolierte, voneinander unabhängige Domänen aufteilen – dies wurde bisher nur von NVIDIA angeboten. Zusammen mit anderen Produkten, die ebenfalls vollständig auf die nächste Generation von KI-Beschleunigern migriert sind, erwartet Enflame, signifikante Marktanteile in innovativen Sektoren wie Smart Cities und Digital Government sowie in traditionellen Branchen wie Finanzen, Transport und Energie zu gewinnen, wo Es werden fortschrittlichere Technologien benötigt.KI-Lösungen.
Trotz der offensichtlichen Erfolge des Enflame-Teams und anderer chinesischer Entwickler - YITU Technology SoC für Deep Learning, Horizon Robotics Sunrise 2 IoT-Chip mit integrierten KI-Fähigkeiten, Hanguang 800 von T-Head Semiconductor (Tochtergesellschaft von Alibaba), Huawei-Serie Ascend und andere - Ausländische Hersteller von KI-Chips dominieren laut People's Daily nach wie vor den chinesischen Markt mit einem Anteil von über 80 %.
2021-12-14 18:50:40
Autor: Vitalii Babkin