• Page d'accueil
  • Voiture
  • Crypto
  • Jeu
  • High Tech
  • Hollywood
  • La science
  • Univers
  • Sport
  • Monde

NVIDIA a partagé des détails sur les accélérateurs H100 basés sur l'architecture Hopper

NVIDIA a partagé des détails sur les accélérateurs H100 basés sur l'architecture Hopper

Lors de la conférence Hot Chips 34, NVIDIA a partagé de nouveaux détails sur les prochains accélérateurs H100 basés sur l'architecture Hopper. La puce GH100 contient 80 milliards de transistors et est fabriquée à l'aide de la technologie de processus TSMC N4, spécialement optimisée pour les besoins de NVIDIA, créée en collaboration avec NVIDIA. L'accélérateur sera le premier au monde à recevoir de la mémoire HBM3.

La puce dispose de 144 multiprocesseurs de streaming (SM) à la fois, ce qui est un peu plus que dans l'A100, où il y en a physiquement 128. Il n'y a que 132 blocs actifs, mais NVIDIA revendique deux fois les performances des nouveaux SM par rapport au génération précédente à fréquence égale. Ceci s'applique aux modules FMA FP32 et FP64. De plus, le format FP8 est pris en charge, ce qui est de plus en plus courant dans les scénarios d'apprentissage automatique qui ne nécessitent pas une grande précision de calcul.

Dans ce mode, NVIDIA supportait les deux formats FP8 les plus courants : E5M2 et E4M3, c'est-à-dire la représentation d'un nombre sous la forme de 5 ou 4 bits pour l'exposant et de 2 ou 3 bits pour la mantisse, respectivement. Chaque bloc tenseur FP8 fournit la multiplication de deux matrices au format FP8 avec une accumulation et une transformation supplémentaires du résultat, mais le plus important ici est qu'en raison de la présence du nouveau bloc Transformer Engine, la sélection de la variante FP8 la plus appropriée est effectué automatiquement. Selon NVIDIA, l'architecture avancée des processeurs tenseurs compatibles FP8 offre une précision comparable à celle du FP16, mais à deux fois les performances et la moitié de l'empreinte mémoire.

Au total, chaque bloc SM comporte 128 modules FP32, 64 modules INT32 et FP64 et 4 cœurs tensoriels, ainsi qu'un accélérateur de mémoire tensorielle et un cache L1 total de 256 Ko. Le volume du cache L2 atteint 50 Mo. Dans l'implémentation actuelle, 16896 cœurs CUDA sur 18432 possibles et 528 cœurs tensoriels sur 576 sont disponibles.Selon NVIDIA, les nouveaux modules de calcul tensoriels de quatrième génération sont également devenus deux fois plus rapides. Prise en charge implémentée d'un nouveau jeu d'instructions DPX, prise en charge de l'asynchronisme lors du déplacement de données, etc.

La technologie MIG (Multi-instance GPU) est passée à la deuxième génération. Désormais, chacun de ces accélérateurs virtuels est devenu trois fois plus puissant en termes de puissance de calcul et deux fois plus de bande passante mémoire. Ce dernier est réalisé grâce à l'utilisation de HBM3. Dans cette version, des assemblages HBM3 d'une capacité de 16 Go chacun (bus 5120 bits) sont utilisés. Cinq assemblages donnent 80 Go de mémoire locale avec une bande passante mémoire de 3 To/s. Il y a six sièges d'assemblage, mais un n'est utilisé que pour niveler la hauteur de la puce.

Dans le même temps, la virtualisation du GH100 est aussi complète que possible : une prise en charge de l'informatique de confiance au niveau matériel est fournie, y compris des blocs de pare-feu spécialisés qui assurent l'isolation des régions de mémoire de chaque vGPU, ainsi que des blocs pour vérifier l'intégrité. et le maintien de la confidentialité des données. Nous avons parlé plus tôt de la prise en charge de la nouvelle génération d'interconnexion NVLink 4 - cette interface fournit jusqu'à 900 Go / s pour combiner plusieurs puces et accélérateurs, mais, surtout, offre des options de mise à l'échelle flexibles.

Le GH100 a également une autre innovation importante - une hiérarchie de mémoire modifiée. Ainsi, l'interconnexion SM à SM permet à chacun des quatre SM de communiquer directement entre eux et de ne pas charger le bus commun avec des transactions inutiles. Cela augmente l'efficacité de la virtualisation et économise sérieusement la bande passante des "chemins principaux" de l'accélérateur. Avec la prise en charge de l'exécution asynchrone et de l'échange de données, cela réduira la latence, dans certains cas jusqu'à sept fois.

On ne sait pas encore si NVIDIA réalise le plein potentiel du GH100, mais cela pourrait augmenter le potentiel déjà sérieux de la nouveauté. Cependant, une telle puissance n'est pas donnée en vain : même dans une version tronquée et même malgré l'utilisation d'un procédé technique optimisé, un accélérateur basé sur le GH100 au format SXM5 (carte PG520) aura un TDP de 700 W.

Sans aucun doute, le GH100 est un énorme pas en avant par rapport au GA100, mais la concurrence sera sérieuse : par exemple, le nouveau produit devra se battre avec des accélérateurs à base d'Intel Ponte Vecchio, et ils promettent un rapport 1:1 FP32 / FP64 contre 2:1 pour la solution NVIDIA. Fait intéressant : le cluster GPC unique de la nouvelle puce est 20 % plus puissant que l'ensemble de la puce GK110 Kepler sortie il y a à peine 10 ans.


2022-08-28 16:22:56

Auteur: Vitalii Babkin

Précédent | Suivant

• Présentation du vélo-ordinateur Coros Dura avec GPS et recharge solaire

• Realme a lancé une nouvelle version du smartphone P1 Pro 5G avec 12 Go de RAM

• Présentation du OnePlus Nord CE4 Lite avec une batterie de 5500 mAh

• Présentation de la tablette Lenovo Tab Plus avec système audio JBL

• Présentation du téléviseur Hisense S7N CanvasTV 4K QLED

• MSI lance le moniteur de jeu MAG 27QRF QD E2 Monster Hunter Edition

• AOC lance le moniteur Gaming C27G2Z3/BK avec écran Fast VA et fréquence de 280 Hz

• Samsung, suivant l'exemple d'Apple, a renoncé à ses ambitions dans le domaine de l'autopilote

• Le Royaume-Uni lance une plateforme pour évaluer la sécurité de l'IA

• Le tribunal inflige à Microsoft une amende de 242 millions de dollars pour vol de technologie lors de la création de Cortana

• Xiaomi dévoile un design inhabituel pour le téléphone Civi 4 Pro

• Le PC compact GEEKOM Mini Air12 avec un processeur Intel N100 et 16 Go de RAM a été évalué à 249 dollars

• La mise à jour de l'Apple Watch entraîne une décharge excessive de la batterie

• Le smartphone iQOO 12 pourra prendre des photos avec un zoom 70x

© 2021-2023 Yoopply France - Nouvelles du monde tous les jours
Deutsch | 日本 | France | Italy | 한국어 | Portugues

Voiture | Crypto-monnaies | Jeu | Haute technologie | Hollywood | La science | Univers | Sport | Monde | Logiciel

À propos de nous | Politique de confidentialité
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com