Google hat ein neuronales Netzwerk eingeführt, das HD-Videos aus einer Textbeschreibung generiert

Google sprach von dem künstlichen Intelligenzsystem Imagen Video, das aus einer Textbeschreibung ein hochauflösendes Video (1280 × 768 Pixel, 24 Bilder pro Sekunde) generiert. Aus Angst, dass das Modell unangemessene Inhalte generiert, hat sich das Unternehmen jedoch entschieden, den Quellcode des Projekts vorerst nicht zu veröffentlichen.

In der Beschreibung (PDF) der Lösung stellt Google fest, dass Imagen Video in der Lage ist, in einem bestimmten Stil zu arbeiten, beispielsweise die Manieren berühmter Künstler zu imitieren, rotierende 3D-Objekte zu erstellen und dabei ihre Form beizubehalten oder Text in verschiedenen Animationen darzustellen Genres. Die Technologie basiert auf einer „Kaskade“ von Modellen, die basierend auf einer textuellen Beschreibung ein Prototyp-Video (16 Frames in einer Auflösung von 24×48 Pixel bei einer Frequenz von 3 Frames pro Sekunde) erstellen, das dann in ein umgewandelt wird hochauflösendes Video mit höherer Bildrate in mehreren Schritten. Das letzte Video ist 5,3 Sekunden lang.

Die auf Imagen Video gezeigten Beispiele reichen von einfachen Szenen wie „Schmelzendes Pistazieneis tropft in eine Tasse“ bis hin zu komplizierten Szenarien wie „Durch eine Schlacht von Piratenschiffen in einem stürmischen Ozean fliegen“. Die Bilder enthalten offensichtliche Artefakte, aber ihre Detailtreue und Glätte sind merklich höher als bei bestehenden Gegenstücken. Parallel dazu debütierte ein weiteres KI-Modell von Google, um Videos aus einer Textbeschreibung zu generieren – Phenaki erstellt längere Videos.

Laut Google wurde das Imagen Video-System auf dem öffentlich verfügbaren LAION-400M trainiert, das „14 Millionen Video-Text-Paare und 60 Millionen Bild-Text-Paare“ enthält. Nach Angaben des Unternehmens handelt es sich dabei um „Problemdaten“, und obwohl Experten versucht haben, sie zu filtern, bleibt es möglich, dass das Modell unangemessene Inhalte mit sensiblen Szenen, Gewalt, sozialen Stereotypen und kulturellen Vorurteilen generiert. Und „bis diese Bedenken ausgeräumt sind“, wird der Quellcode des Imagen-Video-Modells nicht veröffentlicht.

2022-10-06 18:35:36

Autor: Vitalii Babkin

Bisherige | Nächster