All'evento Intel Vision, è stata annunciata la seconda generazione di acceleratori di intelligenza artificiale Habana: Gaudi2 per attività di deep learning e Greco per sistemi di inferenza. Entrambi i chip sono ora prodotti utilizzando un processo a 7 nm anziché a 16 nm, ma questo è tutt'altro che l'unico miglioramento.
Gaudi2 è disponibile in un fattore di forma OAM e ha un TDP di 600 W. È quasi il doppio dei 350 watt di Gaudi, ma la seconda generazione di chip è significativamente diversa dalla prima. Pertanto, la quantità di memoria di bordo è triplicata; fino a 96 GB, e ora è HBM2e, quindi la larghezza di banda è aumentata da 1 a 2,45 TB / s. La quantità di SRAM è raddoppiata a 48 MB. A complemento della memoria ci sono motori DMA in grado di convertire i dati nella forma desiderata al volo.
Esistono due tipi principali di unità di calcolo in Gaudi2: Matrix Multiplication Engine (MME) e Tensor Processor Core (TPC). MME, come suggerisce il nome, è progettato per accelerare la moltiplicazione di matrici. I TPC sono blocchi VLIW programmabili per lavorare con le operazioni SIMD. I TPC supportano tutti i formati di dati più diffusi: FP32, BF16, FP16, FP8, nonché INT32, INT16 e INT8. Ci sono anche decoder hardware per HEVC, H.264, VP9 e JPEG.
Una caratteristica di Gaudi2 è la possibilità di funzionamento in parallelo di MME e TPC. Questo, secondo i creatori, accelera notevolmente il processo di formazione dei modelli. Il software proprietario SynapseAI supporta l'integrazione con TensorFlow e PyTorch e offre anche strumenti per il trasferimento e l'ottimizzazione di modelli già pronti e lo sviluppo di nuovi, un SDK per TPC, utilità per il monitoraggio e l'orchestrazione, ecc. Tuttavia, la ricchezza dell'ecosistema software come quello della stessa NVIDIA è ancora lontana.
La parte di interfaccia dei nuovi prodotti include PCIe 4.0 x16 e subito 24 (in precedenza erano solo 10) canali 100GbE con RDMA ROcE v2, che servono per collegare gli acceleratori tra loro entrambi all'interno dello stesso nodo (3 canali ciascuno a ciascuno ) e tra i nodi. Intel offre una scheda HLBA-225 (OCP UBB) con otto Gaudi2 e una piattaforma AI già pronta, ancora basata su server Supermicro X12, ma con nuove schede e storage DDN AI400X2.
Infine, il più interessante è il confronto delle prestazioni. In una serie di carichi di lavoro popolari, il nuovo prodotto è 1,7–2,8 volte più veloce di NVIDIA A100 (80 GB). A prima vista, il risultato è impressionante. Tuttavia, gli A100 sono tutt'altro che nuovi. Inoltre, nel terzo trimestre di quest'anno dovrebbero essere rilasciati gli acceleratori H100, che, secondo NVIDIA, saranno in media da tre a sei volte più veloci dell'A100 e, grazie alle nuove funzionalità, l'aumento della velocità di apprendimento può essere fino a nove volte. Bene, in generale, le H100 sono soluzioni più versatili.
Gaudi2 è già disponibile per i clienti di Habana e diverse migliaia di acceleratori vengono utilizzati dalla stessa Intel per l'ulteriore ottimizzazione del software e lo sviluppo dei chip Gaudi3. Greco sarà disponibile nella seconda metà dell'anno e la loro produzione in serie è prevista per il primo trimestre del 2023, quindi non ci sono ancora molte informazioni su di loro. Ad esempio, è stato riferito che gli acceleratori sono diventati molto meno voraci rispetto a Goya e hanno ridotto il TDP da 200 a 75 watt. Ciò ha consentito loro di essere impacchettati in una scheda di espansione HHHL standard con un'interfaccia PCIe 4.0 x8.
La quantità di memoria integrata è ancora di 16 GB, ma il passaggio da DDR4 a LPDDR5 ha consentito di aumentare di cinque volte la larghezza di banda, da 40 a 204 GB / s. Ma il chip stesso ora ha 128 MB di SRAM e non 40 come Goya. Supporta i formati BF16, FP16, (U)INT8 e (U)INT4. Ci sono codec HEVC, H.264, JPEG e P-JPEG a bordo. Lo stesso stack SynapseAI viene offerto per lavorare con Greco. L'azienda non ha fornito un confronto delle prestazioni della novità con altre soluzioni di inferenza.
Tuttavia, entrambe le decisioni dell'Avana sembrano un po' tardive. Il ritardo sul fronte dell'IA è probabilmente in parte "colpevole" della scommessa fallita sulle soluzioni Nervana: le soluzioni Habana sono arrivate per sostituire gli acceleratori NNP-T inediti per l'allenamento e non dovrebbero essere previsti nuovi chip di inferenza NNP-I. Tuttavia, il destino di Habana anche all'interno di Intel non sembra cloudless, dal momento che le sue soluzioni dovranno competere con gli acceleratori di server Xe e, nel caso dei sistemi di inferenza, anche con Xeon.
2022-05-11 04:51:56
Autore: Vitalii Babkin