• Pagina iniziale
  • High Tech
  • Criptovalute
  • Gioco
  • Hollywood
  • Scienza
  • Spazio
  • Auto
  • Sport
  • Mondo

Acceleratori AI AWS Trainium: 55 miliardi di transistor, 3 GHz, 512 GB HBM e 840 teraflop in FP32

Acceleratori AI AWS Trainium: 55 miliardi di transistor, 3 GHz, 512 GB HBM e 840 teraflop in FP32

Le GPU sono state utilizzate a lungo per accelerare i calcoli e negli ultimi anni sono cresciute del supporto per formati di dati specifici tipici degli algoritmi di apprendimento automatico, lungo la strada, avendo praticamente perso i propri blocchi grafici. Ma nel prossimo futuro, potrebbero essere superati in molti modi da processori AI specializzati, incluso il nuovo sviluppo AWS, il chip Trainium.

Ad AWS Re: Invent, l'azienda ha evidenziato i suoi progressi nell'apprendimento automatico con le sue istanze P3dn (Nvidia V100) e P4 (Nvidia A100). La prima variante ha debuttato nel 2018 quando il modello BERT-Large era un esempio di complessità e con 256 GB di memoria e rete 100 GbE, ha fornito risultati impressionanti. Tuttavia, ogni anno la complessità dei modelli di apprendimento automatico cresce di quasi un ordine di grandezza e la crescita delle capacità degli acceleratori di intelligenza artificiale è chiaramente in ritardo rispetto a questi tassi.

Quando la variante P4d è stata introdotta lo scorso anno, ha quadruplicato la sua potenza di elaborazione e quadruplicato la sua memoria, mentre il famoso modello GPT-3 ha superato BERT-Large di 500 volte in complessità. E ora 175 miliardi di parametri di quest'ultimo non sono nulla rispetto ai 10 trilioni dei nuovi modelli. Dobbiamo anche aumentare la quantità di memoria locale (Trainium ha 512 GB di HBM con una larghezza di banda totale di 13,1 TB/s) e utilizzare più attivamente l'apprendimento distribuito.

Per quest'ultimo approccio, il sottosistema di rete è diventato un collo di bottiglia e, durante lo sviluppo dello stack Elastic Fabric Adapter (EFA), l'azienda ne ha tenuto conto fornendo alle nuove istanze Trn1 una connessione a 800 Gb/s (il doppio di quella di P4d) e con latenza ultrabassa e una versione più ottimizzata di Trn1n, che ha il doppio della larghezza di banda e raggiunge 1,6 Tbit/s. Per la comunicazione tra i chip stessi all'interno dell'istanza, viene utilizzata l'interconnessione NeuroLink alla velocità di 768 GB/s.

Ma non si tratta solo di poter addestrare GPT-3 in meno di due settimane: anche la quantità di risorse utilizzate è importante. Nel caso di P3d, ciò richiederebbe 600 istanze in esecuzione contemporaneamente e anche il passaggio all'architettura Ampere ridurrebbe questo numero a 200. Ma l'addestramento basato sui chip Trainium richiede solo 130 istanze Trn1. Grazie alle ottimizzazioni, i costi di comunicazione per le nuove istanze sono solo del 7% contro il 14% per Ampere e un enorme 49% per Volta.

Trainium si basa su un array sistolico (Google ha utilizzato lo stesso approccio per i suoi TPU), ad es. consiste di molte unità di calcolo strettamente correlate che elaborano indipendentemente i dati ricevuti dai vicini e trasmettono il risultato al vicino successivo. Questo approccio, in particolare, elimina numerosi registri e accessi alla memoria, che è tipico delle GPU "classiche", ma priva tali acceleratori di flessibilità.

In Trainium, secondo AWS, la flessibilità è preservata: l'acceleratore ha 16 gestori completamente programmabili (in C / C ++). Ha anche altre ottimizzazioni. Ad esempio, l'accelerazione hardware dell'arrotondamento stocastico, che sui modelli ultra-grandi diventa troppo "costosa" a causa dell'overhead, sebbene possa migliorare l'efficienza dell'allenamento con una precisione mista. Tutto ciò consente di ottenere fino a 3,4 Pflop nei calcoli a bassa precisione e fino a 840 Teraflop nei calcoli FP32.

AWS ha cercato di rendere la transizione a Trainium il più indolore possibile per gli sviluppatori poiché AWS Neuron SDK supporta i più diffusi framework di machine learning. Tuttavia, l'azienda non spingerà forzatamente i clienti alle istanze Trn1 e continuerà a fornire una scelta di altri acceleratori, poiché la transizione, ad esempio, dall'ecosistema CUDA potrebbe essere difficile. Tuttavia, in termini di apprendimento automatico per le proprie esigenze, Amazon è ora completamente indipendente: ha sia una moderna CPU Graviton3 che un acceleratore di inferenza Inferentia.


2021-12-06 22:44:05

Autore: Vitalii Babkin

Precedente | Il prossimo

• Presentato il ciclocomputer Coros Dura con GPS e ricarica solare

• Realme ha lanciato una nuova versione dello smartphone P1 Pro 5G con 12 GB di RAM

• Presentato OnePlus Nord CE4 Lite con batteria da 5500 mAh

• Presentato il tablet Lenovo Tab Plus con sistema audio JBL

• Presentata la TV Hisense S7N CanvasTV 4K QLED

• MSI ha rilasciato il monitor da gioco MAG 27QRF QD E2 Monster Hunter Edition

• AOC ha lanciato il monitor Gaming C27G2Z3/BK con schermo Fast VA e frequenza di 280 Hz

• Samsung, seguendo l'esempio di Apple, ha rinunciato alle ambizioni nel settore dell'auto-pilota

• Nel Regno Unito è stata lanciata una piattaforma per valutare la sicurezza dell'IA

• Un tribunale ha multato Microsoft per 242 milioni di dollari per la violazione di tecnologia nella creazione di Cortana

• Xiaomi ha mostrato il design insolito del telefono Civi 4 Pro

• Il PC compatto GEEKOM Mini Air12 con processore Intel N100 e 16 GB di RAM è stato valutato a 249 dollari

• L'aggiornamento di Apple Watch porta a un'eccessiva rapida scarica della batteria

• Lo smartphone iQOO 12 potrà scattare foto con uno zoom 70x

© 2021-2023 Yoopply Italy - Notizie dal mondo ogni giorno
Deutsch | 日本 | France | Italy | 한국어 | Portugues

Auto | Criptovalute | Gioco | High Tech | Hollywood | Scienza | Spazio | Sport | Mondo | Software

Chi siamo | Politica sulla riservatezza
Facebook | Twitter
Yoopply
40004, Ukraine, Sumska, Sumy, Pratsi str. building 37
Phone: +380958165974
Email: acca.in.ua@gmail.com