グーグルはそのブログに「拡散モデルを使用した高忠実度イメージングの作成」というタイトルの内部脳チームによる研究を投稿しました。この記事では、研究者は、品質を損なうことなくデジタル画像をスケーリングする際に行った新しい進歩について話します。
Google Brain Teamは、低解像度の写真を品質をほとんど損なうことなく詳細な高解像度の画像に変換するための機械学習モデルをトレーニングしました。専門家は、彼らの開発は、古い家族の写真の改善から医用画像の品質の改善まで、さまざまな目的に使用できると信じています。
拡散モデルの概念は2015年からGoogleによって研究されてきましたが、最近まで、検索の巨人はAIトレーニング方法の別のファミリーである深い生成モデルを好みました。同社は、新しいアプローチの結果が既存のテクノロジーよりも著しく優れていることを発見しました。
新しいアプローチはSR3と呼ばれました。グーグルによれば、SR3は、元の低解像度画像に基づいて純粋なノイズから高解像度画像を作成する超高解像度拡散モデルです。モデルは、画像の歪みのプロセスでトレーニングされます。このプロセスでは、純粋なノイズだけが残るまで、ノイズが画像に徐々に追加されます。次に、アルゴリズムはプロセスを逆にし、元の低解像度画像に基づいて画像からノイズを徐々に除去します。
SR3は、ポートレートや自然のショットを拡大縮小するときに最高のパフォーマンスを発揮することがわかりました。このアルゴリズムを使用すると、ポートレートの解像度を最大16倍に高めながら、写実的な画像を実現できます。
グーグルがSR3がどれほど効果的であるかを確信すると、同社は条件付きクラス拡散モデルであるCDMと呼ばれる別のアプローチをさらに進めました。 CDMは、1,400万を超える高解像度画像を含むImageNetからのデータでトレーニングされています。 CDMは、最初に低解像度の画像を生成し、次にSR3の作業により、可能な限り最高に徐々に増加する高解像度の画像を作成するカスケードアプローチを提案します。グーグルによれば、解像度が32×32ピクセルの画像は、目立った損失なしに256×256ピクセルに8倍に拡大できます。解像度64×64ピクセルの画像は、解像度1024×1024ピクセルに16倍に完全に拡大されました。
AI作業の結果は本当に印象的です。最終的な画像は、小さな欠陥にもかかわらず、非常に見栄えがよく、ほとんどのユーザーに元の画像として認識されます。
2021-08-31 19:38:15
著者: Vitalii Babkin