L'enlèvement de Sherlock Holmes : un ensemble de données pour le raisonnement abductif visuel

Les humains peuvent raisonner de manière abductive, c’est-à-dire faire l’inférence la plus plausible face à des informations incomplètes.

Crédit image : Pixel maximumCC0 Domaine public

Une étude récente publiée sur arXiv.org cherche à savoir si les machines peuvent effectuer un raisonnement similaire. Les chercheurs présentent un nouvel ensemble de données de 363 000 inférences de bon sens fondées sur 103 000 images.

Trois tâches sont suggérées pour évaluer la capacité de la machine pour le raisonnement abductif visuel. Dans le premier, l’algorithme doit marquer un grand ensemble d’inférences candidates étant donné une image + région. Dans un autre cas, l’algorithme doit sélectionner une boîte englobante dans l’image qui fournit la meilleure preuve d’une inférence donnée. Dans le troisième, l’algorithme doit aligner ses scores sur des jugements humains.

Le modèle le mieux suggéré surpasse les lignes de base solides car il est capable d’accorder une attention particulière à la zone de délimitation d’entrée correcte. Cependant, il reste encore nettement en deçà de l’accord humain.

Les humains ont une capacité remarquable à raisonner de manière abductive et à émettre des hypothèses sur ce qui se trouve au-delà du contenu littéral d’une image. En identifiant des indices visuels concrets dispersés dans une scène, nous ne pouvons presque pas nous empêcher de tirer des conclusions probables au-delà de la scène littérale sur la base de notre expérience quotidienne et de nos connaissances sur le monde. Par exemple, si nous voyons un panneau « 20 mph » le long d’une route, nous pouvons supposer que la rue se trouve dans une zone résidentielle (plutôt que sur une autoroute), même si aucune maison n’est représentée. Les machines peuvent-elles effectuer un raisonnement visuel similaire ?
Nous présentons Sherlock, un corpus annoté d’images 103K pour tester la capacité de la machine à raisonner abductivement au-delà du contenu littéral de l’image. Nous adoptons un paradigme de visualisation libre : les participants observent et identifient d’abord les indices saillants dans les images (par exemple, des objets, des actions), puis fournissent une inférence plausible sur la scène, compte tenu de l’indice. Au total, nous collectons 363 000 paires (indice, inférence), qui forment un ensemble de données de raisonnement visuel abductif unique en son genre. A partir de notre corpus, nous testons trois axes complémentaires du raisonnement abductif. Nous évaluons la capacité des modèles à : i) récupérer des inférences pertinentes à partir d’un large corpus candidat ; ii) localiser les preuves des inférences via des boîtes englobantes, et iii) comparer les inférences plausibles pour correspondre aux jugements humains sur un corpus de diagnostic nouvellement collecté de jugements à l’échelle de Likert 19K. Bien que nous trouvions que le réglage fin du CLIP-RN50x64 avec un objectif multitâche surpasse les bases de référence solides, il existe une marge importante entre les performances du modèle et l’accord humain. Nous fournissons une analyse qui pointe vers des travaux futurs.

Document de recherche: Hessel, J., « L’enlèvement de Sherlock Holmes : un ensemble de données pour le raisonnement abductif visuel », 2022. Lien : https://arxiv.org/abs/2202.04800