
L'Oak Ridge National Laboratory (ORNL) è spesso menzionato negli articoli di notizie come test attivo e implementazione di nuove tecnologie di supercalcolo. Attualmente, l'OLCF Computing Center (Oak Ridge Leadership Computing Facility) sta lavorando all'installazione del primo supercomputer Frontier exascale degli Stati Uniti basato su processori e acceleratori AMD.
Una serie di caratteristiche architettoniche di Frontier sono ora emerse quando il National Center for Computational Sciences ha lanciato un piccolo cluster Crusher che utilizza quasi gli stessi nodi HPE Cray di Frontier. Il sistema è utilizzato come piattaforma di accesso anticipato ed è composto da due soli armadi. Il primo ha 128 nodi, il secondo ne ha 64. La performance di picco totale è dichiarata a 40 PFlops.
Al centro di ogni nodo c'è una versione speciale di AMD EPYC 7A53. I 64 core (con SMT2) sono suddivisi in quattro domini NUMA serviti da controller di memoria separati. Otto canali DDR4 (totale 512 GB per nodo) forniscono 205 GB/s di larghezza di banda. Ci sono solo quattro acceleratori nel sistema, ma questi sono gli ultimi AMD Instinct MI250X a doppio chip, quindi sono visibili al sistema come otto GPU separate separate.
Ciascuno degli acceleratori è connesso a un dominio NUMA tramite due collegamenti Infinity Fabric che forniscono 36 GB/s in ciascuna direzione. I chip all'interno dell'MI250X sono collegati tra loro da un canale più veloce, fornendo 200 GB/s in entrambe le direzioni. Tutti gli acceleratori sono interconnessi secondo lo schema "ciascuno con ciascuno" 50 GB / s di canali. Allo stesso tempo, sono collegati direttamente alla fabbrica: ognuno ha diritto al proprio adattatore HPE Slingshot (200 Gb / s).
Solo una coppia di SSD da 1,92 TB è collegata alla CPU tramite uno switch PCIe (4 GB/s per la scrittura, 1,6 milioni di IOPS per le operazioni casuali). Ogni dominio NUMA è diviso in due sottodomini L3 associati a un acceleratore, che consente una distribuzione flessibile del carico. Lo storage principale è un sistema di storage esterno IBM Spectrum Scale con una capacità totale di 250 PB e una velocità di picco di 2,5 TB/s.
Il sistema ha anche accesso alla rete NCSS, anche se non diretto. In generale lo storage NFS, ogni progetto può ottenere 50 GB con un periodo di conservazione dei dati di 90 giorni e 50 TB sono già disponibili in GPFS su scala di spettro. Crusher viene fornito con un sacco di software preinstallato. L'ambiente utente è modulare, basato sul sistema Lmod scritto in Lua. Slurm è responsabile del bilanciamento del carico. La chiave token hardware RSA SecurID viene utilizzata per l'autenticazione.
2022-01-22 08:18:53
Autore: Vitalii Babkin