Intel ha annunciato gli acceleratori Xe HPC Ponte Vecchio: oltre 100 miliardi di transistor, mix 5/7/10 nm di tecnologia di processo Intel e TSMC e pr

Come promesso alcuni anni fa, l'elemento costitutivo principale per la grafica e gli acceleratori Intel saranno i core Xe, che possono essere combinati in modo flessibile e abbinati ad altri blocchi hardware per ottenere le prestazioni e le funzionalità desiderate. La società ha già annunciato le prime "vere" GPU discrete della serie Arc e all'Intel Architecture Day ha condiviso i dettagli sugli acceleratori server Xe HPC e Ponte Vecchio.

Xe HPC si basa su Xe Core, che include otto motori vettoriali e matriciali rispettivamente per dati a 512 e 4096 bit. Condividono una cache L1 da 512 Kbyte con cui è possibile comunicare ad una velocità di 512 byte/ciclo.

Le prestazioni dichiarate per il motore vettoriale (ex UE), focalizzato sull'elaborazione "classica", sono 256 operazioni / ciclo per FP32 e FP64, o 512 - per FP16. Il motore a matrice è più necessario per i carichi AI, poiché funziona solo con dati TF32, FP16, BF16 e INT8 - rispettivamente 2048, 4096, 4096 e 8192 operazioni/ciclo. Questo motore funziona con le istruzioni XMX (Xe Matrix eXtensions), che sono in qualche modo simili a AMX in Intel Xeon Sapphire Rapids.

I singoli core sono combinati in "slice" - 16 Xe-Core ciascuno, integrati da 16 unità di ray tracing hardware. È la fetta che è il blocco funzionale di base. Viene prodotto presso TSMC utilizzando una tecnologia di processo a 5 nm come parte dell'iniziativa IDM 2.0 di Intel. Le fette sono combinate in pile - 4 pezzi. in tutti.

Lo stack include anche un "substrato" (o tile) di base (Base), quattro controller di memoria HBM2e (la memoria stessa è posizionata in tile separati), una cache L2 comune di 144 MB, un motore multimediale con codec hardware, nonché un riquadro Xe Link e un controller PCIe 5. Il riquadro di base è Intel 7 e utilizza EMIB per combinare tutti i blocchi.

I riquadri Xe Link, prodotti utilizzando la tecnologia di processo a 7 nm di TSMC, includono 8 interfacce stack/acceleratore accoppiate con uno switch a 8 porte e utilizzano blocchi SerDes di classe 90G. Tutto ciò consente di combinare fino a 8 stack secondo lo schema one-to-one, che in generale ricorda l'approccio di NVIDIA, sebbene l'NVSwitch di quest'ultimo sia ancora (per ora) un componente esterno.

Nell'acceleratore stesso, a seconda della configurazione, possono esserci uno o due stack. Nel caso di Ponte Vecchio, sono solo due e Intel fornisce alcuni dati sulle sue prestazioni: più di 45 teraflop nei calcoli FP32, più di 5 TB/s di larghezza di banda del tessuto di memoria interna e più di 2 TB/s per collegamenti esterni. Per fare un confronto, NVIDIA A100 ha prestazioni dichiarate FP32 di 19,5 teraflop e AMD Instinct MI100 - 23,1 teraflop.

Intel ha anche mostrato i risultati del benchmark ResNet-50 nell'addestramento e nell'inferenza: rispettivamente 3400 e 43000 immagini al secondo. Questi risultati sono preliminari, poiché non sono stati ottenuti sulla versione finale di "silicon". Ma va tenuto presente che Ponte Vecchio ha un altro vantaggio: una tessera Rambo separata con una cache superveloce aggiuntiva, che può probabilmente essere considerata come una cache L3.

Nel complesso, il Ponte Vecchio è uno dei chip più complessi fino ad oggi. Combina l'utilizzo di piastrelle EMIB e Foveros 47 realizzate con cinque diversi processi tecnici e il budget totale dei transistor supera i 100 miliardi. Questi acceleratori saranno disponibili nel fattore di forma OAM e sotto forma di schede già pronte con quattro acceleratori a bordo (sempre , mi viene in mente NVIDIA HGX ). E sono proprio queste schede madri, abbinate a due processori Sapphire Rapids, che formeranno i nodi del supercomputer Aurora. Un'altra macchina che utilizzerà una serie di nuove CPU e acceleratori Intel sarà SuperMUC-NG (Fase 2).

Il rilascio ufficiale di Ponte Vecchio è previsto per il 2022, ma non sono lontani anche i rilasci delle prossime generazioni di acceleratori AMD e NVIDIA, con cui i nuovi prodotti dovranno essere confrontati. Finora, Intel è impegnata in una questione altrettanto importante: lo sviluppo di un ecosistema software, la cui base sarà oneAPI, un insieme di strumenti di sviluppo di applicazioni universali per applicazioni eterogenee (CPU, GPU, IPU, FPGA, ecc.), che è compatibile con l'hardware AMD e NVIDIA.

2021-08-19 15:25:15

Autore: Vitalii Babkin

Precedente | Il prossimo