Google ha insegnato all'intelligenza artificiale ad aumentare la risoluzione delle foto fino a 16 volte senza perdita di qualità

Google ha pubblicato sul suo blog uno studio del Brain Team interno intitolato "Creazione di immagini ad alta fedeltà utilizzando modelli di diffusione". In questo articolo, i ricercatori parlano dei nuovi progressi che hanno fatto nel ridimensionare le immagini digitali senza perdere qualità.

Il team di Google Brain ha addestrato un modello di apprendimento automatico per trasformare le foto a bassa risoluzione in immagini dettagliate e ad alta risoluzione praticamente senza perdita di qualità. Gli esperti ritengono che il loro sviluppo possa essere utilizzato per una varietà di scopi, dal miglioramento delle vecchie foto di famiglia al miglioramento della qualità delle immagini mediche.

Il concetto di modelli di diffusione è stato studiato da Google dal 2015, ma fino a poco tempo fa, il gigante della ricerca preferiva un'altra famiglia di metodi di formazione dell'IA: i modelli generativi profondi. L'azienda ha scoperto che i risultati del nuovo approccio erano nettamente superiori alle tecnologie esistenti.

Il nuovo approccio è stato designato SR3. Google afferma che SR3 è un modello di diffusione ad altissima risoluzione che crea un'immagine ad alta risoluzione dal rumore puro basata sull'immagine originale a bassa risoluzione. Il modello viene addestrato nel processo di distorsione dell'immagine, in cui il rumore viene gradualmente aggiunto all'immagine fino a quando rimane solo rumore puro. L'algoritmo quindi inverte il processo, rimuovendo gradualmente il rumore dall'immagine, guidato dall'immagine originale a bassa risoluzione.

L'SR3 ha ottenuto le prestazioni migliori durante il ridimensionamento di ritratti e scatti naturalistici. L'algoritmo consente di ottenere immagini fotorealistiche aumentando la risoluzione dei ritratti fino a sedici volte.

Una volta che Google si è convinta dell'efficacia di SR3, l'azienda è andata ancora oltre con un altro approccio chiamato CDM, che è un modello di diffusione di classe condizionato. CDM viene addestrato sui dati di ImageNet, che contiene oltre 14 milioni di immagini ad alta risoluzione. CDM propone un approccio a cascata che genera prima un'immagine a bassa risoluzione, seguita dal lavoro di SR3 per creare immagini ad alta risoluzione che vengono gradualmente aumentate al massimo possibile. Secondo Google, un'immagine con una risoluzione di 32 × 32 pixel può essere ingrandita a 256 × 256 pixel senza perdite evidenti, otto volte. Un'immagine con una risoluzione di 64 × 64 pixel è stata completamente ridimensionata fino a una risoluzione di 1024 × 1024 pixel, 16 volte.

I risultati del lavoro sull'intelligenza artificiale sono davvero impressionanti. Le immagini finali, nonostante i piccoli difetti, sembrano davvero buone e sono percepite dalla maggior parte degli utenti come immagini originali.

2021-08-31 19:38:15

Autore: Vitalii Babkin

Precedente | Il prossimo