NVIDIA presenta la rete neurale Video LDM in grado di creare video da descrizioni testuali

L'annuncio è stato dato in occasione della conferenza IEEE. La rete neurale Video LDM è in grado di generare brevi video della durata massima di 4 secondi sulla base di una descrizione testuale.

Il modello di intelligenza artificiale comprende sia frasi brevi come "legna che brucia" sia query più complesse come "orsacchiotto che suona la chitarra elettrica", producendo video con una risoluzione fino a 2048 × 1280 pixel e un frame rate di 24 fps. Il nuovo modello di intelligenza artificiale si basa sulla rete neurale Stable Diffusion.

In totale, il modello ha 4,1 miliardi di parametri, 2,7 miliardi dei quali sono stati addestrati utilizzando i video. Attualmente, Video LDM ha lo status di lavoro di ricerca con accesso limitato. NVIDIA non rivela i tempi della versione pubblica della rete neurale.

Ulteriori esempi della rete neurale sono disponibili nella sezione dedicata del sito ufficiale di NVIDIA.

2023-04-20 06:10:05

Autore: Vitalii Babkin

URL di origine

Precedente | Il prossimo