La localisation d’objets non observés est une tâche utile pour de nombreuses applications d’automatisation, telles que l’aide aux personnes malvoyantes pour trouver des objets du quotidien ou la recherche visuelle d’agents incarnés.
Les humains accomplissent cette tâche non seulement en utilisant l’environnement partiellement observé, mais aussi en s’appuyant sur des connaissances de bon sens. Par exemple, nous pouvons déduire où se trouvent les oreillers sachant que les oreillers sont souvent proches des lits.
Un article récent sur arXiv.org propose Spatial Commonsense Graph (SCG), une nouvelle représentation de graphe de scène. Il a des nœuds et des bords hétérogènes qui intègrent la connaissance de sens commun ainsi que la proximité spatiale des objets.
Afin de résoudre le problème de localisation, SCG Object Localiser est proposé. Tout d’abord, les distances entre l’objet invisible et tous les objets connus sont estimées. Ensuite, ils sont utilisés pour la localisation basée sur des intersections circulaires.
Nous résolvons la localisation d’objets dans des scènes partielles, un nouveau problème d’estimation de la position inconnue d’un objet (par exemple, où est le sac ?) à partir d’un scan 3D partiel d’une scène. La solution proposée est basée sur un nouveau modèle de graphe scénique, le Spatial Commonsense Graph (SCG), où les objets sont les nœuds et les arêtes définissent des distances par paires entre eux, enrichies par des nœuds conceptuels et des relations issues d’une base de connaissances de sens commun. Cela permet à SCG de mieux généraliser son inférence spatiale sur des scènes 3D inconnues. Le SCG est utilisé pour estimer la position inconnue de l’objet cible en deux étapes : premièrement, nous alimentons le SCG dans un nouveau réseau de prédiction de proximité, un réseau neuronal graphique qui utilise l’attention pour effectuer une prédiction de distance entre le nœud représentant l’objet cible et le des nœuds représentant les objets observés dans le SCG ; deuxièmement, nous proposons un module de localisation basé sur l’intersection circulaire pour estimer la position de l’objet en utilisant toutes les distances par paires prédites afin d’être indépendant de tout système de référence. Nous créons un nouvel ensemble de données de scènes partiellement reconstruites pour comparer notre méthode et nos lignes de base pour la localisation d’objets dans des scènes partielles, où notre méthode proposée atteint les meilleures performances de localisation.
Document de recherche: Giuliari, F., Skenderi, G., Cristani, M., Wang, Y. et Del Bue, A., « Spatial Commonsense Graph for Object Localization in Partial Scenes », 2022. Lien vers l’article : https://arxiv.org/abs/2203.05380
Lien vers la page du projet : https://fgiuliari.github.io/projects/SpatialCommonsenseGraph/