Technologie

Une approche simple de la correction de l’inclinaison de l’image avec Self-Attention MobileNet pour smartphones

Écrit par abadmin


Souvent, les images prises avec des smartphones sont légèrement asymétriques par rapport à l’orientation verticale exacte. Un article récent sur arXiv.org présente une solution d’IA sur l’appareil pour la détection automatique de l’angle d’inclinaison des images de smartphone.

Le modèle proposé fait des inférences à l’aide de CPU mobiles ou de GPU avec de faibles valeurs de latence et, en même temps, respecte la vie privée de l’utilisateur en supprimant le besoin de télécharger des images sur un serveur pour traitement.

Crédit image : Cristina Zaragoza/Unsplash, licence gratuite

Alors que les noyaux convolutifs traditionnels ne recherchent que différentes caractéristiques dans une image et non leur positionnement relatif, les chercheurs proposent un réseau capable d’apprendre des informations spatiales. En outre, une approche de formation simple mais efficace est suggérée pour gérer le problème de détection d’inclinaison d’image.

La combinaison de l’architecture proposée et de l’approche de formation donne des résultats de pointe pour détecter l’inclinaison de l’image pour les appareils mobiles en temps réel.

Les principaux apports de notre travail sont doubles. Tout d’abord, nous présentons un Self-Attention MobileNet, appelé SA-MobileNet Network, qui peut modéliser les dépendances à longue portée entre les caractéristiques de l’image au lieu de traiter la région locale comme le font les noyaux convolutifs standard. SA-MobileNet contient des modules d’auto-attention intégrés aux blocs de goulot d’étranglement inversés du modèle MobileNetV3, ce qui permet de modéliser à la fois l’attention par canal et l’attention spatiale des caractéristiques de l’image tout en introduisant une nouvelle architecture d’auto-attention pour les faibles périphériques de ressources. Deuxièmement, nous proposons un nouveau pipeline d’entraînement pour la tâche de détection d’inclinaison d’image. Nous traitons ce problème dans un scénario multi-étiquettes où nous prédisons plusieurs angles pour une image d’entrée inclinée dans un intervalle étroit de 1 à 2 degrés, selon l’ensemble de données utilisé. Ce processus induit une corrélation implicite entre les étiquettes sans aucun surcoût de calcul des méthodes de second ordre ou d’ordre supérieur dans l’apprentissage multi-étiquettes. Grâce à la combinaison de notre nouvelle approche et de l’architecture, nous présentons des résultats de pointe sur la détection de l’angle d’inclinaison de l’image sur les appareils mobiles par rapport au modèle MobileNetV3. Enfin, nous établissons que SA-MobileNet est plus précis que MobileNetV3 sur les ensembles de données SUN397, NYU-V1 et ADE20K de 6,42 %, 10,51 % et 9,09 % respectivement, et plus rapide d’au moins 4 millisecondes sur Snapdragon 750 Octa-core.

Document de recherche: Garg, S., Prasanna Mohanty, D., Prasad Thota, S. et Moharana, S., « Une approche simple de la correction de l’inclinaison de l’image avec l’auto-attention MobileNet pour smartphones », 2021. Lien : https://arxiv.org/abs/2111.00398




A propos de l'auteur

abadmin

Laissez un commentaire

  • king crab atl
  • king crab menu
  • ffxiv kholusian king crab