Conduite autonome : approche probabiliste pour la détection des usagers de la route

La conduite autonome peut améliorer la sécurité routière et rendre les transports plus efficaces. De nombreuses recherches ont été consacrées à la conduite autonome ces dernières années. Les techniques de détection d’objets basées sur le Deep Learning donnent parfois de faux négatifs. G. Melotti, W. Lu, D. Zhao, A. Asvadi, N. Gon calves et C. Premebida ont discuté des moyens de résoudre ce problème dans leur document de recherche intitulé « Approche probabiliste pour la détection des usagers de la route » qui constitue la base du texte suivant.

Conduite autonome : une voiture en essai routier. Crédit image : Dllu via Wikimédia, CC-BY-SA-4.0

Pourquoi cette recherche est importante pour la conduite autonome ?

Les faux positifs signifient des situations où un objet ou un obstacle n’est pas là mais a été détecté par un système. Un freinage erratique dans une telle situation affecte la sécurité de la personne et l’état général du véhicule. Les chercheurs ont proposé une technique qui vise à éviter ces faux positifs, changeant ainsi la donne pour l’adoption de véhicules autonomes. De plus, l’approche proposée permet des prédictions probabilistes interprétables. Sans recycler le réseau, cela rend la technique pratique.

Description de l’algorithme proposé

La détection d’objets est la pièce maîtresse de la conduite autonome. Généralement, les méthodes DL modernes utilisent la fonction Softmax (SM) ou une valeur unique obtenue à partir de la fonction Sigmoïde (SG). Ces fonctions exportent la confiance de détection sous forme de scores normalisés sans tenir compte de l’excès de confiance ou des incertitudes dans les prédictions. Par conséquent, cette prédiction pourrait parfois produire des prédictions trop confiantes pour les faux positifs.

Crédit image : arXiv : 2112.01360 [cs.CV]

Le framework YOLO V4 est utilisé pour la détection d’objets. L’image ci-dessus montre la représentation de YOLO V4 avec les couches Logits et Sigmoïde (SG), les fonctions Maximum Probabilité (ML) et Maximum apostérieur (MAP). Après la formation, les valeurs prédites de la couche sigmoïde ont été remplacées par les scores des fonctions ML et MAP. Il est à noter que le YOLOV4 n’a pas été entraîné ou recyclé avec les fonctions ML/MAP.

Les chercheurs ont proposé une nouvelle couche probabiliste qui évite la couche de prédiction traditionnelle Sigmoïde ou Softmax dans cette recherche. La méthodologie probabiliste proposée est validée par la détection d’objets multi-sensoriels 2D et 3D à l’aide d’images RVB, de modalités de cartes à distance (RaV) et à réflectance (ReV).

Résultat de la recherche

La recherche a montré que les couches de prédiction traditionnelles pouvaient induire des prises de décision erronées dans les réseaux de détection d’objets en profondeur. Les chercheurs ont proposé un moyen efficace d’obtenir une inférence probabiliste appropriée via des formulations de probabilité maximale (ML) et maximale a-postérieure (MAP). Cette technique est validée sur la détection d’objection 2D-KITTI grâce au YOLO V4 et SECOND (détecteur basé sur Lidar)

Conclusion

Les chercheurs ont démontré que la technique proposée réduit l’excès de confiance dans les faux positifs sans dégrader les performances des vrais positifs. Selon les mots des chercheurs,

Cet article propose une formulation (appelée couches ML/MAP) pour réduire l’excès de confiance des objets faussement positifs détectés sans dégrader les scores de classification des vrais positifs, c’est-à-dire que les couches ML/MAP sont capables de réduire la confiance dans les prédictions incorrectes. La formulation prend en compte une inférence probabiliste à travers deux modèles, l’un non paramétrique (histogramme normalisé) et l’autre paramétrique (densité gaussienne pour modéliser les priors pour la MAP). Afin de présenter l’efficacité de l’approche d’inférence probabiliste proposée, ce travail a considéré différentes modalités, telles que les images RVB, les cartes RaV et ReV, ainsi que les données de nuages de points 3D, c’est-à-dire des ensembles de données avec des caractéristiques différentes. Dans le cas des images RVB, les caractéristiques sont obtenues directement à partir de la caméra, tandis que les cartes RaV et ReV sont obtenues à partir des données de profondeur (distance-vue) et d’intensité (réflectance-vue), respectivement. Les résultats obtenus par l’approche proposée sont très satisfaisants, notamment pour la catégorie minoritaire ‘cyclistes‘ (pour YOLOV4), et ‘piéton‘ cas (pour le DEUXIÈME), comme en témoignent les mesures de performance (courbes Pr-Rc et AUC). Enfin, un avantage clé de l’approche proposée est qu’il n’est pas nécessaire d’effectuer une nouvelle formation en réseau, c’est-à-dire que l’approche a été appliquée dans des réseaux déjà formés.

La source: G. Melotti, W. Lu, D. Zhao, A. Asvadi, N. Gon¸calves et C. Premebida, « Approche probabiliste pour la détection des usagers de la route«