Transformateur multimodal sensible à l'histoire pour la navigation visuelle et linguistique

La navigation par vision et langage (VLN) nécessite qu’un agent comprenne les instructions en langage naturel, perçoive le monde visuel et effectue des actions de navigation pour arriver à un emplacement cible.

Systèmes de navigation. Crédit image : Touring Club Suisse via Flickr, CC BY-NC-SA 2.0

Un article récent sur arXiv.org propose le History Aware Multimodal Transformer (HAMT), une architecture entièrement basée sur un transformateur pour la prise de décision multimodale dans les tâches VLN.

Il se compose de transformateurs unimodales pour le codage de texte, d’historique et d’observation et d’un transformateur intermodal pour capturer les dépendances à longue portée de la séquence historique, de l’observation actuelle et de l’instruction. Le transformateur est formé avec des tâches proxy auxiliaires de bout en bout, et l’apprentissage par renforcement est utilisé pour améliorer la politique de navigation.

Des expériences approfondies sur diverses tâches VLN démontrent que HAMT surpasse l’état de l’art sur les environnements visibles et invisibles dans toutes les tâches.

La navigation par vision et langage (VLN) vise à créer des agents visuels autonomes qui suivent des instructions et naviguent dans des scènes réelles. Pour mémoriser les emplacements précédemment visités et les actions entreprises, la plupart des approches de VLN implémentent la mémoire à l’aide d’états récurrents. Au lieu de cela, nous introduisons un transformateur multimodal sensible à l’histoire (HAMT) pour incorporer une histoire à long terme dans la prise de décision multimodale. HAMT encode efficacement toutes les observations panoramiques passées via un transformateur de vision hiérarchique (ViT), qui encode d’abord des images individuelles avec ViT, puis modélise la relation spatiale entre les images dans une observation panoramique et prend enfin en compte la relation temporelle entre les panoramas dans l’historique. Il combine alors conjointement le texte, l’histoire et l’observation actuelle pour prédire la prochaine action. Nous formons d’abord HAMT de bout en bout à l’aide de plusieurs tâches proxy, notamment la prédiction d’action en une seule étape et la prédiction de relations spatiales, puis nous utilisons l’apprentissage par renforcement pour améliorer davantage la politique de navigation. HAMT atteint un nouvel état de l’art sur un large éventail de tâches VLN, y compris VLN avec des instructions à grain fin (R2R, RxR), des instructions de haut niveau (R2R-Last, REVERIE), des dialogues (CVDN) ainsi qu’à long terme VLN (R4R, R2R-Retour). Nous démontrons que HAMT est particulièrement efficace pour les tâches de navigation avec des trajectoires plus longues.

Document de recherche: Chen, S., Guhur, P.-L., Schmid, C. et Laptev, I., “History Aware Multimodal Transformer for Vision-and-Language Navigation”, 2021. Lien : https://arxiv.org/abs/2110.13309