NVIDIA dévoile le réseau neuronal Video LDM capable de créer une vidéo à partir d'une description textuelle

L'annonce a été faite lors de la conférence de l'IEEE. Le réseau neuronal Video LDM peut générer de petites vidéos d'une durée maximale de 4 secondes à partir d'une description textuelle.

Le modèle d'IA comprend à la fois des phrases courtes, comme " bois brûlant ", et des requêtes plus complexes, comme " ours en peluche jouant de la guitare électrique ", produisant des vidéos avec une résolution allant jusqu'à 2048 × 1280 pixels et un taux de rafraîchissement de 24 images par seconde. Le nouveau modèle d'IA est basé sur le réseau neuronal à diffusion stable.

Au total, le modèle compte 4,1 milliards de paramètres, dont 2,7 milliards ont été entraînés à l'aide de vidéos. Actuellement, Video LDM a le statut de travail de recherche avec un accès limité. NVIDIA ne divulgue pas le calendrier de la version publique du réseau neuronal.

D'autres exemples du réseau neuronal sont disponibles dans la section correspondante du site officiel de NVIDIA.

2023-04-20 06:10:05

Auteur: Vitalii Babkin

URL source

Précédent | Suivant