Acceleratori AI AWS Trainium: 55 miliardi di transistor, 3 GHz, 512 GB HBM e 840 teraflop in FP32

Le GPU sono state utilizzate a lungo per accelerare i calcoli e negli ultimi anni sono cresciute del supporto per formati di dati specifici tipici degli algoritmi di apprendimento automatico, lungo la strada, avendo praticamente perso i propri blocchi grafici. Ma nel prossimo futuro, potrebbero essere superati in molti modi da processori AI specializzati, incluso il nuovo sviluppo AWS, il chip Trainium.

Ad AWS Re: Invent, l'azienda ha evidenziato i suoi progressi nell'apprendimento automatico con le sue istanze P3dn (Nvidia V100) e P4 (Nvidia A100). La prima variante ha debuttato nel 2018 quando il modello BERT-Large era un esempio di complessità e con 256 GB di memoria e rete 100 GbE, ha fornito risultati impressionanti. Tuttavia, ogni anno la complessità dei modelli di apprendimento automatico cresce di quasi un ordine di grandezza e la crescita delle capacità degli acceleratori di intelligenza artificiale è chiaramente in ritardo rispetto a questi tassi.

Quando la variante P4d è stata introdotta lo scorso anno, ha quadruplicato la sua potenza di elaborazione e quadruplicato la sua memoria, mentre il famoso modello GPT-3 ha superato BERT-Large di 500 volte in complessità. E ora 175 miliardi di parametri di quest'ultimo non sono nulla rispetto ai 10 trilioni dei nuovi modelli. Dobbiamo anche aumentare la quantità di memoria locale (Trainium ha 512 GB di HBM con una larghezza di banda totale di 13,1 TB/s) e utilizzare più attivamente l'apprendimento distribuito.

Per quest'ultimo approccio, il sottosistema di rete è diventato un collo di bottiglia e, durante lo sviluppo dello stack Elastic Fabric Adapter (EFA), l'azienda ne ha tenuto conto fornendo alle nuove istanze Trn1 una connessione a 800 Gb/s (il doppio di quella di P4d) e con latenza ultrabassa e una versione più ottimizzata di Trn1n, che ha il doppio della larghezza di banda e raggiunge 1,6 Tbit/s. Per la comunicazione tra i chip stessi all'interno dell'istanza, viene utilizzata l'interconnessione NeuroLink alla velocità di 768 GB/s.

Ma non si tratta solo di poter addestrare GPT-3 in meno di due settimane: anche la quantità di risorse utilizzate è importante. Nel caso di P3d, ciò richiederebbe 600 istanze in esecuzione contemporaneamente e anche il passaggio all'architettura Ampere ridurrebbe questo numero a 200. Ma l'addestramento basato sui chip Trainium richiede solo 130 istanze Trn1. Grazie alle ottimizzazioni, i costi di comunicazione per le nuove istanze sono solo del 7% contro il 14% per Ampere e un enorme 49% per Volta.

Trainium si basa su un array sistolico (Google ha utilizzato lo stesso approccio per i suoi TPU), ad es. consiste di molte unità di calcolo strettamente correlate che elaborano indipendentemente i dati ricevuti dai vicini e trasmettono il risultato al vicino successivo. Questo approccio, in particolare, elimina numerosi registri e accessi alla memoria, che è tipico delle GPU "classiche", ma priva tali acceleratori di flessibilità.

In Trainium, secondo AWS, la flessibilità è preservata: l'acceleratore ha 16 gestori completamente programmabili (in C / C ++). Ha anche altre ottimizzazioni. Ad esempio, l'accelerazione hardware dell'arrotondamento stocastico, che sui modelli ultra-grandi diventa troppo "costosa" a causa dell'overhead, sebbene possa migliorare l'efficienza dell'allenamento con una precisione mista. Tutto ciò consente di ottenere fino a 3,4 Pflop nei calcoli a bassa precisione e fino a 840 Teraflop nei calcoli FP32.

AWS ha cercato di rendere la transizione a Trainium il più indolore possibile per gli sviluppatori poiché AWS Neuron SDK supporta i più diffusi framework di machine learning. Tuttavia, l'azienda non spingerà forzatamente i clienti alle istanze Trn1 e continuerà a fornire una scelta di altri acceleratori, poiché la transizione, ad esempio, dall'ecosistema CUDA potrebbe essere difficile. Tuttavia, in termini di apprendimento automatico per le proprie esigenze, Amazon è ora completamente indipendente: ha sia una moderna CPU Graviton3 che un acceleratore di inferenza Inferentia.

2021-12-06 22:44:05

Autore: Vitalii Babkin

Precedente | Il prossimo