• Page d'accueil
  • Voiture
  • Crypto
  • Jeu
  • High Tech
  • Hollywood
  • La science
  • Univers
  • Sport
  • Monde

Accélérateurs d'IA AWS Trainium : 55 milliards de transistors, 3 GHz, 512 Go HBM et 840 téraflops en FP32

Accélérateurs d'IA AWS Trainium : 55 milliards de transistors, 3 GHz, 512 Go HBM et 840 téraflops en FP32

Les GPU ont longtemps été utilisés pour accélérer les calculs et, ces dernières années, ils ont pris de l'ampleur avec la prise en charge de formats de données spécifiques typiques des algorithmes d'apprentissage automatique, ayant pratiquement perdu leurs propres blocs graphiques. Mais dans un avenir proche, ils pourraient être dépassés à bien des égards par des processeurs d'IA spécialisés, y compris le nouveau développement AWS, la puce Trainium.

Chez AWS Re : Invent, l'entreprise a mis en avant ses avancées en matière de machine learning avec ses instances P3dn (Nvidia V100) et P4 (Nvidia A100). La première variante a fait ses débuts en 2018 lorsque le modèle BERT-Large était un exemple de complexité, et avec 256 Go de mémoire et un réseau 100 GbE, il a donné des résultats impressionnants. Cependant, chaque année, la complexité des modèles d'apprentissage automatique augmente de presque un ordre de grandeur, et la croissance des capacités des accélérateurs d'IA est clairement en retard par rapport à ces taux.

Lorsque la variante P4d a été introduite l'année dernière, elle a quadruplé sa puissance de traitement et quadruplé sa mémoire, tandis que le célèbre modèle GPT-3 dépassait BERT-Large de 500 fois en complexité. Et maintenant, 175 milliards de paramètres de ces derniers ne sont rien comparés aux 10 000 milliards de nouveaux modèles. Nous devons également augmenter la quantité de mémoire locale (Trainium dispose de 512 Go de HBM avec une bande passante totale de 13,1 To/s), et utiliser plus activement l'apprentissage distribué.

Pour cette dernière approche, le sous-système réseau est devenu un goulot d'étranglement, et lors du développement de la pile Elastic Fabric Adapter (EFA), l'entreprise en a tenu compte en donnant aux nouvelles instances Trn1 une connexion à 800 Gb/s (le double de celle de P4d) et avec latence ultra-faible, et une version plus optimisée de Trn1n, qui a deux fois la bande passante et atteint 1,6 Tbit/s. Pour la communication entre les puces elles-mêmes à l'intérieur de l'instance, l'interconnexion NeuroLink est utilisée à une vitesse de 768 Go/s.

Mais il ne s'agit pas seulement de pouvoir former GPT-3 en moins de deux semaines : la quantité de ressources utilisées est également importante. Dans le cas de P3d, cela nécessiterait 600 instances exécutées simultanément, et même le passage à l'architecture Ampere réduirait ce nombre à 200. Mais la formation basée sur les puces Trainium ne nécessite que 130 instances Trn1. Grâce aux optimisations, les coûts de communication pour les nouvelles instances ne sont que de 7% contre 14% pour Ampere et un énorme 49% pour Volta.

Trainium s'appuie sur un tableau systolique (Google a utilisé la même approche pour ses TPU), c'est-à-dire se compose de nombreuses unités de calcul très étroitement liées qui traitent indépendamment les données reçues des voisins et transmettent le résultat au voisin suivant. Cette approche, en particulier, élimine de nombreux registres et accès mémoire, ce qui est typique des GPU "classiques", mais prive de tels accélérateurs de flexibilité.

Dans Trainium, selon AWS, la flexibilité est préservée - l'accélérateur dispose de 16 gestionnaires entièrement programmables (en C/C++). Il a également d'autres optimisations. Par exemple, l'accélération matérielle de l'arrondi stochastique, qui sur les modèles ultra-larges devient trop « coûteuse » en raison de la surcharge, bien qu'elle puisse améliorer l'efficacité de l'entraînement avec une précision mitigée. Tout cela vous permet d'obtenir jusqu'à 3,4 pflops dans les calculs de faible précision et jusqu'à 840 téraflops dans les calculs FP32.

AWS a essayé de rendre la transition vers Trainium aussi simple que possible pour les développeurs, car le kit SDK AWS Neuron prend en charge les frameworks d'apprentissage automatique populaires. Cependant, la société ne va pas forcer les clients vers les instances Trn1 et continuera à proposer un choix d'autres accélérateurs, car la transition, par exemple, de l'écosystème CUDA peut être difficile. Cependant, en termes d'apprentissage automatique pour ses propres besoins, Amazon est désormais complètement indépendant - il dispose à la fois d'un processeur moderne Graviton3 et d'un accélérateur d'inférence Inferentia.


2021-12-06 22:44:05

Auteur: Vitalii Babkin

Précédent | Suivant

• ASUS présente la compacte Radeon RX 9070 GRE PRIME EVO OC

• Google présente DiffusionGemma, un modèle dIA rapide pour la génération de texte

• Présentation du vélo-ordinateur Coros Dura avec GPS et recharge solaire

• Realme a lancé une nouvelle version du smartphone P1 Pro 5G avec 12 Go de RAM

• Présentation du OnePlus Nord CE4 Lite avec une batterie de 5500 mAh

• Présentation de la tablette Lenovo Tab Plus avec système audio JBL

• Présentation du téléviseur Hisense S7N CanvasTV 4K QLED

• MSI lance le moniteur de jeu MAG 27QRF QD E2 Monster Hunter Edition

• AOC lance le moniteur Gaming C27G2Z3/BK avec écran Fast VA et fréquence de 280 Hz

• Samsung, suivant l'exemple d'Apple, a renoncé à ses ambitions dans le domaine de l'autopilote

• Le Royaume-Uni lance une plateforme pour évaluer la sécurité de l'IA

• Le tribunal inflige à Microsoft une amende de 242 millions de dollars pour vol de technologie lors de la création de Cortana

• Xiaomi dévoile un design inhabituel pour le téléphone Civi 4 Pro

• Le PC compact GEEKOM Mini Air12 avec un processeur Intel N100 et 16 Go de RAM a été évalué à 249 dollars

© 2021-2023 Yoopply France - Nouvelles du monde tous les jours
Deutsch | 日本 | France | Italy | 한국어 | Portugues

Voiture | Crypto-monnaies | Jeu | Haute technologie | Hollywood | La science | Univers | Sport | Monde | Logiciel

À propos de nous | Politique de confidentialité
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com