Le développement d'accélérateurs spécialisés pour les tâches et les algorithmes d'apprentissage automatique a été extrêmement populaire au cours des dernières années. En 2020, la société britannique Graphcore a annoncé la création d'une nouvelle classe d'accélérateurs, qu'elle a appelée IPU : Intelligence Processing Unit. Leur architecture est très intéressante.
L'unité principale de l'UIP n'est pas le noyau, mais la "tuile" - une zone du cristal qui contient à la fois une logique de calcul et une mémoire rapide avec une bande passante d'environ 45 To/s (7,8 To/s entre les tuiles). Lors de la première itération, la puce Graphcore a reçu 1216 de ces tuiles avec 300 Mo de mémoire, et maintenant la société a annoncé la prochaine génération de ses IPU.
La nouvelle puce, appelée BOW, peut être conditionnellement appelée "génération 2.5". Il utilise une puce Colossus Mk2 de seconde génération : 892 Mo de SRAM en 1472 tuiles capables d'exécuter 8832 threads simultanément. Cette matrice est toujours fabriquée à l'aide du processus 7 nm de TSMC, mais Graphcore est maintenant passé à un emballage 3D Wafer-on-Wafer (3D WoW) plus avancé.
La nouvelle IPU est la première puce à haute complexité de l'industrie utilisant un nouveau type d'emballage, et la technologie 3D WoW a été développée conjointement par Graphcore et TSMC pour optimiser les sous-systèmes d'alimentation. Les processeurs de cette complexité sont extrêmement gourmands et il n'est pas facile de les «nourrir». De ce fait, un packaging ordinaire ne permet pas d'atteindre les performances maximales d'une puce Colossus Mk2 : les pertes et les échauffements parasites sont trop importants.
3D WoW est implémenté de plusieurs manières similaires à la technologie utilisée par AMD dans les puces de serveur Milan-X. En termes simples, les structures de tiges de cuivre pénètrent dans le cristal et vous permettent de le connecter directement à un autre cristal, et elles "collent ensemble" grâce à l'autre. Dans le cas du BOW, le rôle du cristal inférieur est attribué au distributeur de puissance avec un système de condensateurs stabilisateurs, qui alimente le cristal supérieur du Colossus Mk2. En raison du passage des structures plates aux structures volumétriques, il est possible à la fois d'augmenter le courant d'entrée et de raccourcir son trajet d'écoulement.
En conséquence, la société a réussi à augmenter encore la fréquence et les performances de BOW sans avoir à retravailler le processeur principal ni à le transférer vers une technologie de traitement plus fine et plus coûteuse. Si l'IPU d'origine de la deuxième génération avait une performance maximale de 250 Tflops, nous parlons maintenant de 350 Tflops - pour un système BOW-2000 à quatre puces, 1,4 Pflops de performances totales sont déclarées. Et c'est un bon gain obtenu sans coûts critiques.
L'IPU communique toujours avec le monde extérieur via 10 canaux IPU-Link (320 Go/s). La mémoire interne d'un tel système est déjà de près de 4 Go et fonctionne à une vitesse de 260 To/s - un paramètre critique pour certaines tâches d'apprentissage automatique qui nécessitent des ensembles de données toujours plus volumineux. La capacité de la mémoire embarquée est loin de celle proposée par NVIDIA et AMD, mais le gain en vitesse donne à l'idée originale de Graphcore un sérieux avantage.
Les nœuds BOW-2000 sont compatibles avec les nœuds de la version précédente. Quatre de ces nœuds (BOW POD16) avec un serveur de gestion - tous dans un châssis 5U - ont une performance allant jusqu'à 5,6 PFlops. Et un rack complet avec 16 nœuds BOW-2000 (BOW POD64) donne déjà 22,4 Pflops. Selon l'entreprise, les performances de la nouvelle version ont augmenté de 30 à 40 % et l'augmentation de l'efficacité énergétique est de 10 % à 16 %.
Graphcore affirme que le BOW POD16 surpasse dix fois le NVIDIA DGX-A100 en termes de coût total de possession (TCO). Le BOW POD16 coûte la moitié du prix du DGX-A100. Malheureusement, il est trop tôt pour parler de conquérir le marché de l'apprentissage automatique Graphcore : l'entreprise compte déjà pas mal de clients, mais parmi eux, il n'y a pas de géants tels que Google ou Baidu. À long terme, la situation de Graphcore est loin d'être sans nuage, mais la société prépare déjà la troisième génération d'UIP basée sur la technologie de processus 3 nm.
2022-03-05 03:38:48
Auteur: Vitalii Babkin