Google は、テキストの説明から HD ビデオを生成するニューラルネットワークを導入しました

Google は、テキストの説明から高解像度のビデオ (1280 × 768 ピクセル、毎秒 24 フレーム) を生成する Imagen Video 人工知能システムについて話しました。ただし、モデルが不適切なコンテンツを生成する恐れがあるため、同社は当面、プロジェクトのソースコードの公開を控えることを決定しました。

ソリューションの説明 (PDF) で、Google は Imagen Video が特定のスタイルで機能し、たとえば有名なアーティストのマナーを模倣したり、形状を維持しながら回転する 3D オブジェクトを作成したり、さまざまなアニメーションでテキストを表現したりできると述べています。ジャンル。この技術は、モデルの「カスケード」に基づいており、テキストの説明に基づいて、プロトタイプビデオ (1 秒あたり 3 フレームの頻度で 24 x 48 ピクセルの解像度で 16 フレーム) を作成します。数段階でフレームレートを上げた高解像度ビデオ。最終的なビデオの長さは 5.3 秒です。

Imagen Video で紹介されている例は、「溶けたピスタチオアイスクリームがカップに滴る」などの単純なシーンから、「嵐の海での海賊船の戦いを飛行する」などの複雑なシナリオまでさまざまです。画像には明らかなアーティファクトが含まれていますが、そのディテールと滑らかさは既存のものよりも著しく高くなっています。並行して、テキストの説明から動画を生成する Google の別の AI モデルがデビューしました。Phenaki はより長い動画を作成します。

Google によると、Imagen Video システムは、公開されている LAION-400M でトレーニングされており、これには「1,400 万の動画とテキストのペアと 6,000 万の画像とテキストのペア」が含まれています。同社によると、これは「問題のあるデータ」であり、専門家はそれをフィルタリングしようとしましたが、モデルがデリケートな性質、暴力、社会的固定観念、文化的偏見のシーンを含む不適切なコンテンツを生成する可能性は残っています.そして、「これらの懸念が解決されるまで」、Imagen Video モデルのソースコードは公開されません。

2022-10-06 18:35:36

著者: Vitalii Babkin

前 | 次

Google は、テキストの説明から HD ビデオを生成するニューラル ネットワークを導入しました

Google は、テキストの説明から HD ビデオを生成するニューラルネットワークを導入しました