Google a appris à l'intelligence artificielle à augmenter la résolution des photos jusqu'à 16 fois sans perte de qualité

Google a publié sur son blog une étude de la Brain Team interne intitulée « Creating High-Fidelity Imaging Using Diffusion Models ». Dans cet article, les chercheurs parlent des nouvelles avancées qu'ils ont réalisées dans la mise à l'échelle des images numériques sans perte de qualité.

L'équipe Google Brain a formé un modèle d'apprentissage automatique pour transformer des photos basse résolution en images haute résolution détaillées sans pratiquement aucune perte de qualité. Les experts pensent que leur développement peut être utilisé à diverses fins, de l'amélioration de vieilles photos de famille à l'amélioration de la qualité des images médicales.

Le concept de modèles de diffusion est étudié par Google depuis 2015, mais jusqu'à récemment, le géant de la recherche préférait une autre famille de méthodes de formation à l'IA : les modèles génératifs profonds. L'entreprise a constaté que les résultats de la nouvelle approche étaient nettement supérieurs aux technologies existantes.

La nouvelle approche a été désignée SR3. Google dit que SR3 est un modèle de diffusion ultra-haute résolution qui crée une image haute résolution à partir de bruit pur basé sur l'image basse résolution d'origine. Le modèle est entraîné dans le processus de distorsion d'image, dans lequel du bruit est progressivement ajouté à l'image jusqu'à ce qu'il ne reste que du bruit pur. L'algorithme inverse ensuite le processus, en supprimant progressivement le bruit de l'image, guidé par l'image originale à basse résolution.

Le SR3 s'est avéré être le plus performant lors de la mise à l'échelle de portraits et de photos de la nature. L'algorithme vous permet d'obtenir des images photoréalistes tout en augmentant la résolution des portraits jusqu'à seize fois.

Une fois que Google a été convaincu de l'efficacité de SR3, la société est allée encore plus loin avec une autre approche appelée CDM, qui est un modèle de diffusion de classe conditionnelle. CDM est formé sur les données d'ImageNet, qui contient plus de 14 millions d'images haute résolution. CDM propose une approche en cascade qui génère d'abord une image basse résolution, suivie du travail de SR3 pour créer des images haute résolution qui sont progressivement augmentées jusqu'à la plus haute possible. Selon Google, une image avec une résolution de 32 × 32 pixels peut être agrandie à 256 × 256 pixels sans perte notable, huit fois. Une image avec une résolution de 64 × 64 pixels a été complètement agrandie jusqu'à une résolution de 1024 × 1024 pixels, 16 fois.

Les résultats du travail d'IA sont vraiment impressionnants. Les images finales, malgré des défauts mineurs, sont vraiment belles et sont perçues par la plupart des utilisateurs comme les images originales.

2021-08-31 19:38:15

Auteur: Vitalii Babkin

Précédent | Suivant