Détection vidéo en ligne en temps réel avec des transformateurs de lissage temporel

La détection et l’anticipation des actions en ligne consistent à déterminer quelle action se produit ou se produira sous peu sans voir l’avenir.

Le défi le plus important dans ce domaine est de traiter à la fois les tendances à long terme et les signaux à court terme. De plus, les chercheurs doivent encore trouver comment calculer efficacement à chaque pas de temps lorsque l’historique s’allonge.

Caméra vidéo. Crédit image : Julia Avamotive via Pxhere, licence gratuite

Un article récent sur arXiv.org propose une nouvelle approche, Temporal Smoothing Transformers (TeSTra), pour coder une histoire suffisamment longue avec un coût d’inférence constant à chaque pas de temps. Le modèle d’attention efficace réutilise une grande partie du calcul d’attention entre les trames consécutives. Deux types de noyaux de lissage temporel sont appliqués pour réduire le calcul d’inférence à un coût constant par image.

Des expériences approfondies démontrent que TeSTra atteint des performances de pointe à la fois pour la détection et l’anticipation des actions en ligne.

La reconnaissance vidéo en streaming explique les objets et leurs actions dans chaque image d’une vidéo. Un bon modèle de reconnaissance de flux capture à la fois la dynamique à long terme et les changements à court terme de la vidéo. Malheureusement, dans la plupart des méthodes existantes, la complexité de calcul croît linéairement ou quadratiquement avec la longueur de la dynamique considérée. Ce problème est particulièrement prononcé dans les architectures basées sur des transformateurs. Pour résoudre ce problème, nous reformulons l’attention croisée dans un transformateur vidéo à travers la lentille du noyau et appliquons deux types de noyau de lissage temporel : un noyau de boîte ou un noyau de Laplace. L’attention en continu qui en résulte réutilise une grande partie du calcul d’une image à l’autre et ne nécessite qu’une mise à jour constante à chaque image. Sur la base de cette idée, nous construisons TeSTra, un transformateur de lissage temporel, qui accepte des entrées arbitrairement longues avec une mise en cache et une surcharge de calcul constantes. Plus précisément, il fonctionne 6 fois plus vite que les transformateurs équivalents à fenêtre coulissante avec 2 048 images dans un paramètre de diffusion en continu. De plus, grâce à l’augmentation de la durée, TeSTra obtient des résultats de pointe sur THUMOS’14 et EPIC-Kitchen-100, deux ensembles de données standard de détection d’action et d’anticipation d’action en ligne. Une version en temps réel de TeSTra surpasse toutes les approches précédentes sauf une sur l’ensemble de données THUMOS’14.

Article de recherche: Zhao, Y. et Krähenbühl, P., “Détection vidéo en ligne en temps réel avec transformateurs de lissage temporel”, 2022. Lien : https://arxiv.org/abs/2209.09236