Détection multimodale entre domaines Gaze Target

Les humains peuvent détecter la direction du regard des autres, comprendre si une personne les regarde et suivre le regard des autres pour identifier leur cible. Cependant, l’exécution automatique de cela reste un problème difficile.

Crédit image : arXiv : 2208.10822 [cs.CV]

Un article récent sur arXiv.org traite de la détection de la cible du regard dans des images uniques collectées dans la nature et capturées du point de vue de la troisième personne.

Les chercheurs proposent un pipeline multimodal avec trois voies de traitement : l’image de la tête, l’image de la scène et la carte de profondeur, obtenue par estimation de profondeur monoculaire autonome à partir de l’image RVB. La proposition est à faible coût de calcul et plus simple que ses alternatives en ne nécessitant pas la détection de la pose de la tête et de l’emplacement des yeux.

De plus, les chercheurs étudient le problème du changement de domaine et proposent une nouvelle méthode d’adaptation de domaine. L’approche améliore remarquablement les résultats et surpasse une méthode d’adaptation de domaine de pointe.

Cet article aborde le problème de détection de la cible du regard dans des images uniques capturées du point de vue de la troisième personne. Nous présentons une architecture profonde multimodale pour déduire où une personne dans une scène regarde. Ce modèle spatial est formé sur les images de tête de la personne d’intérêt, les cartes de scène et de profondeur représentant des informations contextuelles riches. Notre modèle, contrairement à plusieurs techniques antérieures, ne nécessite pas de supervision des angles de regard, ne repose pas sur les informations d’orientation de la tête et/ou sur l’emplacement des yeux de la personne d’intérêt. Des expériences approfondies démontrent les meilleures performances de notre méthode sur plusieurs ensembles de données de référence. Nous avons également étudié plusieurs variantes de notre méthode en modifiant l’apprentissage conjoint de données multimodales. Certaines variantes surpassent également quelques techniques antérieures. Pour la première fois dans cet article, nous inspectons l’adaptation du domaine pour la détection de la cible du regard, et nous donnons à notre réseau multimodal les moyens de gérer efficacement l’écart de domaine entre les ensembles de données. Le code de la méthode proposée est disponible sur cette URL https.

Article de recherche: Tonini, F., Beyan, C. et Ricci, E., « Multimodal Across Domains Gaze Target Detection », 2022. Lien : https://arxiv.org/abs/2208.10822