Google ha parlato del sistema di intelligenza artificiale Imagen Video, che genera video ad alta risoluzione (1280 × 768 pixel, 24 fotogrammi al secondo) da una descrizione testuale. Tuttavia, per paura che il modello generi contenuti inappropriati, l'azienda ha deciso di astenersi dal pubblicare per il momento il codice sorgente del progetto.
Nella descrizione (PDF) della soluzione, Google ha notato che Imagen Video è in grado di funzionare in un determinato stile, imitando, ad esempio, le maniere di artisti famosi, creare oggetti 3D rotanti mantenendone la forma o rappresentare testi in varie animazioni generi. La tecnologia si basa su una “cascata” di modelli che, sulla base di una descrizione testuale, creano un video prototipo (16 fotogrammi con una risoluzione di 24×48 pixel ad una frequenza di 3 fotogrammi al secondo), che viene poi convertito in un video ad alta risoluzione con un frame rate più elevato in più passaggi. Il video finale dura 5,3 secondi.
Gli esempi presenti su Imagen Video vanno da scene semplici come "gelato al pistacchio che si scioglie gocciola da una tazza" a scenari intricati come "Volare attraverso una battaglia di navi pirata in un oceano in tempesta". Le immagini contengono evidenti artefatti, ma il loro dettaglio e la loro levigatezza sono notevolmente superiori a quelli delle controparti esistenti. Parallelamente, ha debuttato un altro modello AI di Google per generare video da una descrizione testuale: Phenaki crea video più lunghi.
Google ha affermato che il sistema Imagen Video è stato addestrato sul LAION-400M disponibile al pubblico, che contiene "14 milioni di coppie video-testo e 60 milioni di coppie immagine-testo". Secondo l'azienda, si tratta di "dati problematici" e, sebbene gli esperti abbiano cercato di filtrarli, resta possibile che il modello generi contenuti inappropriati contenenti scene di natura sensibile, violenza, stereotipi sociali e pregiudizi culturali. E "finché queste preoccupazioni non saranno risolte", il codice sorgente del modello Imagen Video non verrà pubblicato.
2022-10-06 18:35:36
Autore: Vitalii Babkin