Google a parlé du système d'intelligence artificielle Imagen Video, qui génère une vidéo haute résolution (1280 × 768 pixels, 24 images par seconde) à partir d'une description textuelle. Cependant, de peur que le modèle ne génère un contenu inapproprié, la société a décidé de s'abstenir de publier le code source du projet pour le moment.
Dans la description (PDF) de la solution, Google note qu'Imagen Video est capable de travailler dans un style donné, en imitant, par exemple, les manières d'artistes célèbres, de créer des objets 3D en rotation tout en conservant leur forme, ou de représenter du texte dans diverses animations. genres. La technologie repose sur une « cascade » de modèles qui, à partir d'une description textuelle, créent un prototype de vidéo (16 images dans une résolution de 24×48 pixels à une fréquence de 3 images par seconde), qui est ensuite convertie en un vidéo haute résolution avec une fréquence d'images plus élevée en plusieurs étapes. La vidéo finale dure 5,3 secondes.
Les exemples présentés sur Imagen Video vont de scènes simples telles que "Faire fondre de la glace à la pistache dégoulinant dans une tasse" à des scénarios complexes tels que "Voler à travers une bataille de navires pirates dans un océan orageux". Les images contiennent des artefacts évidents, mais leur détail et leur douceur sont nettement supérieurs à ceux des homologues existants. En parallèle, un autre modèle d'IA de Google a fait ses débuts pour générer des vidéos à partir d'une description textuelle - Phenaki crée des vidéos plus longues.
Google a déclaré que le système Imagen Video avait été formé sur le LAION-400M accessible au public, qui contient "14 millions de paires vidéo-texte et 60 millions de paires image-texte". Selon l'entreprise, il s'agit de "données problématiques", et bien que des experts aient tenté de les filtrer, il reste possible que le modèle génère des contenus inappropriés contenant des scènes à caractère sensible, de la violence, des stéréotypes sociaux et des préjugés culturels. Et « tant que ces soucis ne seront pas résolus », le code source du modèle Imagen Video ne sera pas publié.
2022-10-06 18:35:36
Auteur: Vitalii Babkin