Graphcore annuncia gli acceleratori AI BOW IPU

Lo sviluppo di acceleratori specializzati per attività e algoritmi di apprendimento automatico è stato estremamente popolare negli ultimi anni. Già nel 2020, la società britannica Graphcore ha annunciato la creazione di una nuova classe di acceleratori, che ha chiamato IPU: Intelligence Processing Unit. La loro architettura è molto interessante.

L'unità principale dell'IPU non è il core, ma la "tegola", un'area del cristallo che contiene sia la logica computazionale che una memoria veloce con una larghezza di banda di circa 45 TB / s (7,8 TB / s tra le piastrelle). Nella prima iterazione, il chip Graphcore ha ricevuto 1216 riquadri di questo tipo con 300 MB di memoria e ora l'azienda ha annunciato la prossima generazione delle sue IPU.

Il nuovo chip, chiamato BOW, può essere chiamato condizionatamente "generazione 2.5". Utilizza un chip Colossus Mk2 di seconda generazione: 892 MB di SRAM in 1472 tile in grado di eseguire 8832 thread contemporaneamente. Questo die è ancora prodotto utilizzando il processo 7nm di TSMC, ma Graphcore è ora passato a un packaging 3D Wafer-on-Wafer (3D WoW) più avanzato.

La nuova IPU è il primo chip ad alta complessità del settore che utilizza un nuovo tipo di imballaggio e la tecnologia 3D WoW è stata sviluppata congiuntamente da Graphcore e TSMC per ottimizzare i sottosistemi di alimentazione. Processori di questa complessità sono estremamente golosi e non è facile "nutrirli". Di conseguenza, l'imballaggio ordinario non consente di ottenere le massime prestazioni da un chip Colossus Mk2: le perdite e il riscaldamento parassitario sono troppo elevati.

3D WoW è implementato in molti modi simile alla tecnologia utilizzata da AMD nei chip server Milan-X. In poche parole, le strutture a bastoncino di rame penetrano nel cristallo e ti permettono di collegarlo direttamente a un altro cristallo, e si "incollano" l'una con l'altra. Nel caso di BOW, il ruolo del cristallo inferiore è assegnato al distributore di potenza con un sistema di condensatori stabilizzatori, che alimenta il cristallo superiore del Colossus Mk2. A causa del passaggio dalle strutture piane a quelle volumetriche, è possibile sia aumentare la corrente in ingresso sia accorciarne il percorso del flusso.

Di conseguenza, l'azienda è riuscita ad aumentare ulteriormente la frequenza e le prestazioni di BOW senza ricorrere a rielaborare il processore principale o trasferirlo a una tecnologia di processo più sottile e più costosa. Se l'IPU originale di seconda generazione aveva una prestazione massima di 250 Tflop, ora si parla di 350 Tflop: per un sistema BOW-2000 con quattro chip, vengono dichiarati 1,4 Pflop di prestazioni totali. E questo è un buon guadagno ottenuto senza costi critici.

L'IPU comunica ancora con il mondo esterno tramite 10 canali IPU-Link (320 GB/s). La memoria interna in un tale sistema è già di quasi 4 GB e funziona a una velocità di 260 TB / s, un parametro critico per alcune attività di apprendimento automatico che richiedono set di dati sempre più grandi. La capacità della memoria integrata è lontana da quella offerta da NVIDIA e AMD, ma il guadagno di velocità offre all'idea di Graphcore un serio vantaggio.

I nodi BOW-2000 sono compatibili con i nodi della versione precedente. Quattro di questi nodi (BOW POD16) con un server di gestione, tutti in uno chassis 5U, hanno prestazioni fino a 5,6 PFlops. E un rack completo con 16 nodi BOW-2000 (BOW POD64) dà già 22,4 Pflops. Secondo l'azienda, le prestazioni della nuova versione sono aumentate del 30-40% e l'aumento dell'efficienza energetica è passato dal 10% al 16%.

Graphcore afferma che BOW POD16 supera NVIDIA DGX-A100 dieci volte nel costo totale di proprietà (TCO). BOW POD16 costa la metà del DGX-A100. Purtroppo è troppo presto per parlare di conquista del mercato del machine learning Graphcore: l'azienda ha già un bel po' di clienti, ma tra questi non ci sono colossi come Google o Baidu. A lungo termine, la situazione per Graphcore è tutt'altro che cloudless, ma l'azienda sta già preparando la terza generazione di IPU basate sulla tecnologia di processo a 3 nm.

2022-03-05 03:38:48

Autore: Vitalii Babkin

Precedente | Il prossimo