NVIDIA ha condiviso i dettagli sugli acceleratori H100 basati sull'architettura Hopper

Alla conferenza Hot Chips 34, NVIDIA ha condiviso nuovi dettagli sui prossimi acceleratori H100 basati sull'architettura Hopper. Il chip GH100 contiene 80 miliardi di transistor ed è prodotto utilizzando la tecnologia di processo TSMC N4, appositamente ottimizzata per le esigenze di NVIDIA, creata in collaborazione con NVIDIA. L'acceleratore sarà il primo al mondo a ricevere la memoria HBM3.

Il chip ha 144 multiprocessori di streaming (SM) contemporaneamente, un po' più che nell'A100, dove ci sono fisicamente 128 blocchi di questo tipo.Ci sono solo 132 blocchi attivi, ma NVIDIA rivendica il doppio delle prestazioni dei nuovi SM rispetto al generazione precedente con uguale frequenza. Questo vale sia per i moduli FMA FP32 che FP64. Inoltre, è disponibile il supporto per il formato FP8, che è sempre più comune negli scenari di apprendimento automatico che non richiedono un'elevata precisione computazionale.

In questa modalità NVIDIA supportava entrambi i formati FP8 più comuni: E5M2 ed E4M3, ovvero la rappresentazione di un numero sotto forma di 5 o 4 bit rispettivamente per l'esponente e 2 o 3 bit per la mantissa. Ogni blocco tensore FP8 prevede la moltiplicazione di due matrici in formato FP8 con ulteriore accumulazione e trasformazione del risultato, ma la cosa più importante qui è che a causa della presenza del nuovo blocco Transformer Engine, la scelta della variante FP8 più adatta è effettuata automaticamente. Secondo NVIDIA, l'architettura avanzata dei processori tensor abilitati per FP8 offre una precisione paragonabile a quella di FP16, ma con prestazioni doppie e ingombro di memoria dimezzato.

In totale, ogni blocco SM ha 128 moduli FP32, 64 moduli INT32 e FP64 e 4 core tensor, oltre a un acceleratore di memoria tensoriale e una cache L1 totale di 256 KB. Il volume della cache L2 è fino a 50 MB. Nell'attuale implementazione, sono disponibili 16896 core CUDA su 18432 possibili e 528 core tensor su 576. Secondo NVIDIA, anche i nuovi moduli di elaborazione tensoriale di quarta generazione sono diventati due volte più veloci. Supporto implementato per un nuovo set di istruzioni DPX, supporto per l'asincronia durante lo spostamento dei dati, ecc.

La tecnologia MIG (GPU multiistanza) è cresciuta fino alla seconda generazione. Ora, ciascuno di questi acceleratori virtuali è diventato tre volte più potente di calcolo e due volte la larghezza di banda della memoria. Quest'ultimo è ottenuto attraverso l'uso di HBM3. In questa versione vengono utilizzati assembly HBM3 con una capacità di 16 GB ciascuno (bus a 5120 bit). Cinque assiemi forniscono 80 GB di memoria locale con una larghezza di banda di memoria di 3 TB/s. Ci sono sei sedi di montaggio, ma una viene utilizzata solo per livellare l'altezza del truciolo.

Allo stesso tempo, la virtualizzazione del GH100 è la più completa possibile: viene fornito il supporto per il trusted computing a livello hardware, inclusi blocchi firewall specializzati che forniscono l'isolamento delle regioni di memoria di ciascuna vGPU, oltre a blocchi per il controllo dell'integrità e mantenere la riservatezza dei dati. In precedenza abbiamo parlato del supporto per la nuova generazione dell'interconnessione NVLink 4: questa interfaccia fornisce fino a 900 GB / s per combinare diversi chip e acceleratori, ma, soprattutto, offre opzioni di ridimensionamento flessibili.

Il GH100 ha anche un'altra importante innovazione: una gerarchia di memoria modificata. Pertanto, l'interconnessione da SM a SM consente a ciascuno dei quattro SM di comunicare direttamente tra loro e di non caricare il bus comune con transazioni non necessarie. Ciò aumenta l'efficienza nella virtualizzazione e salva seriamente la larghezza di banda dei "percorsi principali" dell'acceleratore. Insieme al supporto per l'esecuzione asincrona e lo scambio di dati, questo ridurrà la latenza, in alcuni casi fino a sette volte.

Al momento non è chiaro se NVIDIA realizzi il pieno potenziale del GH100, ma ciò potrebbe aumentare il già serio potenziale della novità. Tale potenza non è però vana: anche in versione troncata e nonostante l'utilizzo di un processo tecnico ottimizzato, un acceleratore basato sul GH100 nel formato SXM5 (scheda PG520) avrà un TDP di 700 W.

Indubbiamente il GH100 è un enorme passo avanti rispetto al GA100, ma la concorrenza sarà seria: il nuovo prodotto ad esempio dovrà combattere con acceleratori basati su Intel Ponte Vecchio, che promettono un rapporto 1:1 FP32/FP64 contro 2:1 per la soluzione NVIDIA. Un fatto interessante: il singolo cluster GPC del nuovo chip è il 20% più potente dell'intero chip GK110 Kepler rilasciato solo 10 anni fa.

2022-08-28 16:22:56

Autore: Vitalii Babkin

Precedente | Il prossimo