Google hat der künstlichen Intelligenz beigebracht, die Fotoauflösung bis zu 16-mal ohne Qualitätsverlust zu erhöhen

Google hat in seinem Blog eine Studie des internen Brain Teams mit dem Titel "Creating High-Fidelity Imaging Using Diffusion Models" veröffentlicht. In diesem Artikel sprechen die Forscher über die neuen Fortschritte, die sie bei der Skalierung digitaler Bilder ohne Qualitätsverlust gemacht haben.

Das Google Brain-Team trainierte ein Modell für maschinelles Lernen, um Fotos mit niedriger Auflösung praktisch ohne Qualitätsverlust in detaillierte, hochauflösende Bilder umzuwandeln. Experten glauben, dass ihre Entwicklung für verschiedene Zwecke verwendet werden kann, von der Verbesserung alter Familienfotos bis hin zur Verbesserung der Qualität medizinischer Bilder.

Das Konzept der Diffusionsmodelle wird von Google seit 2015 untersucht, aber bis vor kurzem bevorzugte der Suchriese eine andere Familie von KI-Trainingsmethoden – tiefe generative Modelle. Das Unternehmen stellte fest, dass die Ergebnisse des neuen Ansatzes den bestehenden Technologien deutlich überlegen waren.

Der neue Ansatz wurde als SR3 bezeichnet. Google sagt, dass SR3 ein ultrahochauflösendes Diffusionsmodell ist, das ein hochauflösendes Bild aus reinem Rauschen basierend auf dem ursprünglichen Bild mit niedriger Auflösung erstellt. Das Modell wird im Prozess der Bildverzerrung trainiert, bei der dem Bild nach und nach Rauschen hinzugefügt wird, bis nur noch reines Rauschen übrig bleibt. Der Algorithmus kehrt dann den Prozess um und entfernt allmählich das Rauschen aus dem Bild, wobei das Originalbild mit niedriger Auflösung berücksichtigt wird.

Die SR3 schneidet am besten beim Skalieren von Porträts und Naturaufnahmen ab. Der Algorithmus ermöglicht es Ihnen, fotorealistische Bilder zu erzielen und gleichzeitig die Auflösung von Porträts um das bis zu sechzehnfache zu erhöhen.

Nachdem Google überzeugt war, wie effektiv SR3 ist, ging das Unternehmen mit einem anderen Ansatz namens CDM, einem bedingten Klassendiffusionsmodell, noch weiter. CDM wird auf Daten von ImageNet trainiert, das über 14 Millionen hochauflösende Bilder enthält. CDM schlägt einen kaskadierenden Ansatz vor, der zuerst ein Bild mit niedriger Auflösung erzeugt, gefolgt von der Arbeit von SR3, um hochauflösende Bilder zu erstellen, die nach und nach auf die höchstmögliche Höhe erhöht werden. Laut Google lässt sich ein Bild mit einer Auflösung von 32 × 32 Pixeln ohne merklichen Verlust achtfach auf 256 × 256 Pixel vergrößern. Ein Bild mit einer Auflösung von 64 × 64 Pixel wurde vollständig auf eine Auflösung von 1024 × 1024 Pixel hochskaliert, 16-fach.

Die Ergebnisse der KI-Arbeit sind wirklich beeindruckend. Die endgültigen Bilder sehen trotz kleiner Mängel wirklich gut aus und werden von den meisten Benutzern als Originalbilder wahrgenommen.

2021-08-31 19:38:15

Autor: Vitalii Babkin

Bisherige | Nächster