• Page d'accueil
  • Voiture
  • Crypto
  • Jeu
  • High Tech
  • Hollywood
  • La science
  • Univers
  • Sport
  • Monde

Tesla a parlé des puces D1 de sa propre conception

Tesla a parlé des puces D1 de sa propre conception

Tesla a déjà annoncé son propre processeur D1, créé dans les laboratoires de l'entreprise, qui deviendra la base du supercalculateur Dojo AI. Nous avons besoin d'un tel système pour créer un terrain d'entraînement virtuel pour le conducteur de l'IA, recréant en détail des situations réelles sur les routes. Naturellement, un tel simulateur nécessite une énorme puissance de calcul : dans notre monde, les conditions de circulation sont très complexes, changeantes et comprennent de nombreux facteurs et variables.

Jusqu'à récemment, on ne savait pas grand-chose sur Dojo et D1, mais lors de la conférence Hot Chips 34, beaucoup de choses intéressantes ont été révélées sur l'architecture, la conception et les capacités de cette solution Tesla. La présentation était animée par Emil Talpes, qui a précédemment travaillé chez AMD pendant 17 ans sur la conception de processeurs de serveur. Lui, comme un certain nombre d'autres développeurs de premier plan, travaille actuellement chez Tesla pour créer et améliorer le matériel de l'entreprise.

L'idée principale de D1 était l'évolutivité, donc au début du développement d'une nouvelle puce, les créateurs ont activement reconsidéré le rôle de concepts traditionnels tels que la cohérence, la mémoire virtuelle, etc. - tous les mécanismes ne s'adaptent pas de la meilleure façon lorsqu'il s'agit de construire un très grand système informatique. Au lieu de cela, la préférence a été donnée à un réseau de stockage distribué basé sur SRAM, pour lequel une interconnexion a été créée qui était un ordre de grandeur en avance sur les implémentations existantes dans les systèmes informatiques distribués.

La base du processeur Tesla était un cœur de calcul entier, basé sur certaines instructions de l'ensemble RISC-V, mais complété par un grand nombre d'instructions propriétaires optimisées pour les exigences des cœurs d'apprentissage automatique utilisés par l'entreprise. Le bloc mathématique vectoriel a été créé presque à partir de zéro, selon les développeurs.

Le jeu d'instructions Dojo comprend des instructions scalaires, matricielles et SIMD, ainsi que des primitives spécifiques pour déplacer des données de la mémoire locale vers la mémoire distante, ainsi que des sémaphores avec des barrières - ces dernières sont nécessaires pour coordonner le travail de mémoire dans tout le système. Quant aux instructions spécifiques au machine learning, elles sont implémentées dans Dojo en hardware.

Le premier né de la série, la puce D1, n'est pas un accélérateur en soi - la société le considère comme un processeur polyvalent hautes performances qui n'a pas besoin d'accélérateurs spécifiques. Chaque unité de calcul Dojo est représentée par un seul cœur D1 avec une mémoire locale et des interfaces d'E/S. Il s'agit d'un noyau superscalaire 64 bits.

De plus, le noyau prend en charge le multithreading (SMT4), qui est conçu pour augmenter les performances par horloge (plutôt que d'isoler différentes tâches les unes des autres), de sorte que cette implémentation SMT ne prend pas en charge la mémoire virtuelle et les mécanismes de protection sont plutôt limités en fonctionnalités. Une pile logicielle spécialisée et un logiciel propriétaire sont responsables de la gestion des ressources du Dojo.

Le noyau 64 bits a une fenêtre de récupération de 32 octets, qui peut contenir jusqu'à 8 instructions, ce qui correspond à la largeur du décodeur. Lui, à son tour, peut traiter deux threads par cycle. Le résultat va aux ordonnanceurs, qui l'envoient à une unité de calcul d'entiers (deux ALU) ou à une unité vectorielle (SIMD de 64 octets + multiplication matricielle 8 × 8 × 4).

Chaque cœur D1 dispose de 1,25 Mo de SRAM. Cette mémoire n'est pas un cache, mais est capable de charger des données à une vitesse de 400 Go/s et de les stocker à une vitesse de 270 Go/s, et, comme déjà mentionné, des instructions spéciales sont implémentées dans la puce qui vous permettent de travailler avec des données dans d'autres cœurs Dojo. Pour cela, le bloc SRAM possède ses propres mécanismes, de sorte que travailler avec de la mémoire distante ne nécessite pas d'opérations supplémentaires.

En ce qui concerne les formats de données pris en charge, le bloc scalaire prend en charge les formats entiers de 8 à 64 bits, tandis que les blocs vectoriels et matriciels prennent en charge une large gamme de formats à virgule flottante, y compris les calculs à précision mixte : FP32, BF16, CFP16 et CFP8. Les développeurs D1 en sont venus à utiliser tout un ensemble de représentations de données 8 et 16 bits configurables - le compilateur Dojo peut modifier dynamiquement les valeurs de la mantisse et de l'exposant, de sorte que le système peut utiliser jusqu'à 16 formats vectoriels différents. , tant qu'il n'a pas changé.

Comme déjà mentionné, la topologie D1 utilise une structure maillée dans laquelle tous les 12 cœurs sont combinés en un bloc logique. L'ensemble de la puce D1 est un réseau de 18 × 20 cœurs, mais seuls 354 cœurs sur 360 présents sur la puce sont disponibles. La matrice de 645 mm2 elle-même est fabriquée dans les installations de TSMC à l'aide d'une technologie de processus de 7 nm. La fréquence d'horloge est de 2 GHz, la quantité totale de SRAM est de 440 Mo.

Le processeur D1 développe 362 Tflops en mode BF16/CFP8, en mode FP32 ce chiffre tombe à 22 Tflops. Le mode FP64 n'est pas pris en charge par les blocs vectoriels D1, ce processeur n'est donc pas adapté à de nombreuses charges de travail HPC traditionnelles. Mais Tesla a construit le D1 pour un usage interne, donc il ne se soucie pas vraiment de la compatibilité. Cependant, dans les nouvelles générations, D2 ou D3, un tel accompagnement peut apparaître s'il convient aux objectifs de l'entreprise.

Chaque puce D1 possède une interface SerDes externe de 576 bits avec une performance combinée de 8 To/s sur les quatre côtés, de sorte qu'elle ne deviendra pas un goulot d'étranglement lors de la connexion de D1. Cette interface combine les cristaux en une seule matrice 5x5, une telle matrice de 25 cristaux D1 est appelée la tuile d'entraînement Dojo.

Cette dalle est conçue comme un module thermo-électro-mécanique complet, disposant d'une interface externe avec une bande passante de 4,5 To/s par côté, avec un total de 11 Go de SRAM, ainsi que son propre système d'alimentation de 15 kW. La puissance de traitement d'une tuile Dojo est de 9 PFlops au format BF16/CFP8. À ce niveau de consommation électrique, le Dojo ne peut être refroidi qu'avec un liquide.

Les tuiles peuvent être combinées dans des matrices encore plus productives, mais l'organisation physique exacte du supercalculateur Tesla n'est pas tout à fait claire. Pour communiquer avec le monde extérieur, des blocs DIP sont utilisés - Dojo Interface Processors. Ce sont des processeurs d'interface à travers lesquels les tuiles communiquent avec les systèmes hôtes et se voient attribuer des fonctions de contrôle, de stockage de tableaux de données, etc. Chaque DIP exécute non seulement des fonctions d'E/S, mais contient également 32 Go de mémoire HBM (non spécifié, HBM2e ou HBM3).

DIP utilise l'intégralité de son protocole de transport (Tesla Transport Protocol, TTP), développé par Tesla et fournissant un débit de 900 Go/s, et sur Ethernet - 50 Go/s. L'interface externe des cartes est PCI Express 4.0 et chaque carte d'interface porte une paire de DIP. Il y a 5 DIP installés de chaque côté de chaque rangée de tuiles, ce qui donne une vitesse allant jusqu'à 4,5 To/s des piles HBM à la tuile.

Dans les cas où l'accès de tuile à tuile dans l'ensemble du système nécessite trop de sauts (jusqu'à 30 dans le cas d'un accès de bout en bout), le système peut utiliser des DIP connectés en externe par un réseau fat tree 400GbE, réduisant ainsi le nombre de sauts à un maximum de quatre. Le débit souffre dans ce cas, mais la latence gagne, ce qui est plus important dans certains scénarios.

Dans la version de base, le supercalculateur Dojo V1 produit 1 Eflops en mode BF16/CFP8 et peut charger des modèles jusqu'à 1,3 To directement en SRAM, 13 To supplémentaires de données peuvent être stockées dans des assemblages DIP HBM. Il convient de noter que l'espace SRAM dans l'ensemble du système Dojo utilise un seul adressage plat. La version à grande échelle de Dojo aura une performance allant jusqu'à 20 eflops.

On ne sait pas combien d'efforts l'entreprise devra déployer pour lancer un tel monstre et, plus important encore, pour lui fournir des logiciels fonctionnels et utiles, mais évidemment beaucoup. Le système est connu pour être compatible avec PyTorch. Tesla reçoit actuellement des puces D1 prêtes à l'emploi de TSMC. En attendant, la société se contente du plus grand supercalculateur NVIDIA AI installé au monde.


2022-09-06 07:41:21

Auteur: Vitalii Babkin

Précédent | Suivant

• Présentation du vélo-ordinateur Coros Dura avec GPS et recharge solaire

• Realme a lancé une nouvelle version du smartphone P1 Pro 5G avec 12 Go de RAM

• Présentation du OnePlus Nord CE4 Lite avec une batterie de 5500 mAh

• Présentation de la tablette Lenovo Tab Plus avec système audio JBL

• Présentation du téléviseur Hisense S7N CanvasTV 4K QLED

• MSI lance le moniteur de jeu MAG 27QRF QD E2 Monster Hunter Edition

• AOC lance le moniteur Gaming C27G2Z3/BK avec écran Fast VA et fréquence de 280 Hz

• Samsung, suivant l'exemple d'Apple, a renoncé à ses ambitions dans le domaine de l'autopilote

• Le Royaume-Uni lance une plateforme pour évaluer la sécurité de l'IA

• Le tribunal inflige à Microsoft une amende de 242 millions de dollars pour vol de technologie lors de la création de Cortana

• Xiaomi dévoile un design inhabituel pour le téléphone Civi 4 Pro

• Le PC compact GEEKOM Mini Air12 avec un processeur Intel N100 et 16 Go de RAM a été évalué à 249 dollars

• La mise à jour de l'Apple Watch entraîne une décharge excessive de la batterie

• Le smartphone iQOO 12 pourra prendre des photos avec un zoom 70x

© 2021-2023 Yoopply France - Nouvelles du monde tous les jours
Deutsch | 日本 | France | Italy | 한국어 | Portugues

Voiture | Crypto-monnaies | Jeu | Haute technologie | Hollywood | La science | Univers | Sport | Monde | Logiciel

À propos de nous | Politique de confidentialité
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com