Les humains peuvent deviner toute la scène à partir d’une observation partielle de celle-ci. Pour les machines, comprendre les images d’une manière que les humains peuvent faire a été un domaine d’intérêt élevé pour les chercheurs. Dans un article récemment publié sur arxiv.org, InfinityGAN est présenté comme une solution pour générer des images de résolution arbitraire.
Défis avec les modèles existants pour générer des images haute résolution
- La plupart des modèles génératifs pour améliorer la résolution d’image nécessitent un temps de formation accru, une plus grande taille de modèle et des exigences de données plus strictes.
- Les grandes images doivent être cohérentes localement et globalement, éviter les motifs répétitifs et paraître réalistes.
- Les solutions existantes ne sont pas indépendantes de la résolution et leur extrapolation à une résolution plus élevée devient très lourde en termes de calcul.
InfinityGAN est proposé comme solution aux défis ci-dessus pour produire des images à résolution infinie en utilisant des ressources de calcul limitées
L’objectif de la recherche, tel que mentionné par l’équipe, est:
Nous visons à construire un générateur qui s’entraîne avec des patchs d’images et, au moment de l’inférence, synthétise des images bien au-delà de la résolution de ses données d’entraînement. Le générateur peut ainsi généraliser à une résolution arbitrairement élevée non bornée.
Qu’est-ce qu’InfinityGAN
C’est une méthode qui permet de s’entraîner sur des images finies et à faible résolution pour générer des images à résolution infinie. InfinityGAN a une faible exigence de calcul qui produit des sorties d’image de haute qualité, transparentes et haute résolution. Dans cette technique, la texture et la structure locales sont modélisées séparément, ce qui permet à la méthode de synthétiser divers détails locaux.
Comment fonctionne InfinityGAN ?
InfinityGAN prend en compte les facteurs mondiaux et locaux pour produire des images haute résolution.
- Global: InfintyGAN suppose que les images ont une composition de haut niveau cohérente. Cela signifie que les images ont un thème global OU une apparence cohérente sur l’ensemble de l’image. Par exemple, un match de football a un thème central : les supporters applaudissent, les joueurs suivent le ballon au sol, etc. Un lancement de produit a également un thème central et aurait un présentateur et un public. Un magasin Walmart aurait des articles empilés dans des étagères et les acheteurs feraient leurs courses.
- Local: Un gros plan de l’image est défini par la structure et la texture de son voisinage. Il est défini par les objets, les formes et leur disposition relative. Une fois qu’une structure est définie, la texture serait décidée par InfinityGAN en fonction du matériau et de l’éclairage des objets de la structure pour restituer une scène réaliste. inifintyGAN cartographiera également la texture pour se conformer à la cohérence globale et à la structure et la texture des patchs voisins.
Composants d’InfinityGAN
- Synthétiseur de structure : Le synthétiseur de structure conditionne l’apparence globale et produit des représentations structurelles locales.
- Synthétiseur de texture : Il génère une texture pour la structure fournie par le synthétiseur de structure.
Pourquoi InfinityGAN
- Peut également fonctionner efficacement dans un environnement à ressources limitées, à la fois en termes de calcul et de disponibilité des données d’entraînement haute résolution
- Il génère des images cohérentes localement et globalement, évite les motifs répétitifs et semble réaliste.
Applications d’InfinityGAN
- InfinityGAN offre flexibilité et contrôlabilité en fusionnant spatialement des structures et des textures de différentes distributions au sein d’une image.
- InfinityGAN permet qu’une image puisse être peinte pour synthétiser une image de longueur arbitraire
- Particulièrement utile pour la synthèse d’images haute résolution où les images peuvent être divisées en patchs indépendants pour accélérer le processus.
Limites d’InfinityGAN
- Différents FoV et distances de la scène peuvent avoir un impact négatif sur l’extrapolation d’images à l’aide d’InfinityGAN. Cela peut parfois conduire à une vision globale bizarre.
- Si des photographies manipulées sont utilisées, cela pourrait induire InfinityGAN en erreur pour synthétiser une représentation inexacte.
- Si le module de mouvement est entraîné avec le module d’image, InfinityGAN peut atteindre des performances inférieures.
Conclusion:
InfinityGAN entraîne et déduit patch par patch de manière transparente avec de faibles ressources de calcul. L’équipe de recherche a également effectué une évaluation expérimentale qui soutient l’affirmation selon laquelle InfinityGAN génère des images avec une structure globale supérieure par rapport à certaines autres techniques. Bien qu’InfinityGAN ait certaines limites, il est proposé comme une ressource précieuse pour générer des images à résolution arbitraire.
La source: Chieh Hubert Lin, Hsin-Ying Lee, Yen-Chi Cheng, Sergey Tulyakov et Ming-Hsuan Yang, « InfinityGAN : vers une synthèse d’images à résolution infinie”.