
Le laboratoire national d'Oak Ridge (ORNL) est souvent mentionné dans les articles de presse comme testant et mettant en œuvre activement de nouvelles technologies de calcul intensif. Actuellement, l'OLCF Computing Center (Oak Ridge Leadership Computing Facility) travaille à l'installation du premier supercalculateur exascale Frontier des États-Unis basé sur des processeurs et des accélérateurs AMD.
Un certain nombre de caractéristiques architecturales de Frontier ont maintenant été révélées alors que le National Center for Computational Sciences a lancé un petit cluster Crusher qui utilise presque les mêmes nœuds HPE Cray que Frontier. Le système est utilisé comme plate-forme d'accès anticipé et se compose de seulement deux armoires. Le premier a 128 nœuds, le second en a 64. La performance maximale totale est déclarée à 40 PFlops.
Au cœur de chaque nœud se trouve une version spéciale d'AMD EPYC 7A53. Les 64 cœurs (avec SMT2) sont divisés en quatre domaines NUMA servis par des contrôleurs de mémoire distincts. Huit canaux DDR4 (total de 512 Go par nœud) fournissent 205 Go/s de bande passante. Il n'y a que quatre accélérateurs dans le système, mais ce sont les derniers AMD Instinct MI250X à double puce, ils sont donc visibles pour le système sous la forme de huit GPU distincts.
Chacun des accélérateurs est connecté à un domaine NUMA via deux liens Infinity Fabric fournissant 36 Go/s dans chaque direction. Les puces à l'intérieur du MI250X sont connectées les unes aux autres par un canal plus rapide, donnant 200 Go/s dans les deux sens. Tous les accélérateurs sont interconnectés selon le schéma "chacun avec chaque" canaux de 50 Go / s. En même temps, ils sont directement connectés à l'usine - chacun a droit à son propre adaptateur HPE Slingshot (200 Gb/s).
Seule une paire de SSD de 1,92 To est connectée au CPU via un switch PCIe (4 Go/s pour l'écriture, 1,6 million d'IOPS pour les opérations aléatoires). Chaque domaine NUMA est divisé en deux sous-domaines L3 associés à un accélérateur, ce qui permet une répartition flexible de la charge. Le stockage principal est un système de stockage externe IBM Spectrum Scale avec une capacité totale de 250 Po et une vitesse de pointe de 2,5 To/s.
Le système a également accès au réseau NCSS, mais pas directement. Dans le stockage NFS général, chaque projet peut obtenir 50 Go avec une période de conservation des données de 90 jours, et 50 To sont déjà disponibles dans GPFS sur Spectrum Scale. Crusher est livré avec de nombreux logiciels préinstallés. L'environnement utilisateur est modulaire, basé sur le système Lmod écrit en Lua. Slurm est responsable de l'équilibrage de charge. La clé de jeton matérielle RSA SecurID est utilisée pour l'authentification.
2022-01-22 08:18:53
Auteur: Vitalii Babkin