Apprentissage de la forme et de la disposition des objets 3D sans supervision 3D

Une scène 3D peut être spécifiée par une forme 3D pour chaque objet et la disposition 3D des objets dans l’espace. Cependant, il est souvent impossible de mesurer directement la structure 3D ; par conséquent, déduire la forme et la disposition des scènes 3D à partir d’images 2D est un problème fondamental en vision par ordinateur.

Une forme 3D abstraite. Crédit image : Pxhere, domaine public CC0

Une forme 3D abstraite. Crédit image : PxiciCC0 Domaine public

Un article récent sur arXiv.org propose une méthode pour prédire les formes et la disposition des objets 3D dans des scènes complexes à partir d’une seule image. Il n’utilise pas de formes ou de dispositions de vérité terrain pendant la formation, et les silhouettes d’objets dans les images à vues multiples sont utilisées pour l’apprentissage.

Mesh R-CNN, qui prédit les formes 3D, est complété par un réseau de mise en page qui estime l’emplacement 3D de chaque objet. Les résultats sur trois ensembles de données démontrent l’utilité de la supervision multi-vues évolutive. L’approche s’adapte à des scènes complexes et réalistes avec de nombreux objets et peut apprendre de la vidéo bruyante du monde réel sans vérité terrain coûteuse.

Une scène 3D est constituée d’un ensemble d’objets ayant chacun une forme et une disposition donnant leur position dans l’espace. Comprendre des scènes 3D à partir d’images 2D est un objectif important, avec des applications en robotique et en graphisme. Bien qu’il y ait eu des progrès récents dans la prédiction de la forme et de la disposition 3D à partir d’une seule image, la plupart des approches reposent sur la vérité terrain 3D pour la formation, ce qui est coûteux à collecter à grande échelle. Nous surmontons ces limitations et proposons une méthode qui apprend à prédire la forme et la disposition 3D des objets sans aucune information de forme ou de disposition de vérité au sol : à la place, nous nous appuyons sur des images multi-vues avec supervision 2D qui peuvent plus facilement être collectées à grande échelle. Grâce à des expériences approfondies sur 3D Warehouse, Hypersim et ScanNet, nous démontrons que notre approche s’adapte à de grands ensembles de données d’images réalistes et se compare favorablement aux méthodes reposant sur la vérité terrain 3D. Sur Hypersim et ScanNet où une vérité terrain 3D fiable n’est pas disponible, notre approche surpasse les approches supervisées formées sur des ensembles de données plus petits et moins diversifiés.

Article de recherche: Gkioxari, G., Ravi, N. et Johnson, J., « Apprentissage de la forme et de la disposition d’objets 3D sans supervision 3D », 2022Lien : https://arxiv.org/abs/2206.07028