Des recherches récentes sur la marche robotique étudient comment fabriquer des robots qui apprennent à marcher au lieu de concevoir des contrôleurs pour un terrain spécifique. Un article récent sur arXiv.org se penche sur une approche basée sur l’apprentissage pour les robots bipèdes.
Les chercheurs entraînent le robot en simulation avec Rapid Motor Adaptation (RMA). Il s’agit d’une politique adaptative conditionnée à un vecteur qui encode des informations spécifiques au terrain dans la simulation. Cependant, pour les robots bipèdes, il est souvent impossible d’estimer précisément les extrinsèques privilégiées au déploiement uniquement à partir des états observables. Par conséquent, les chercheurs proposent A-RMA, qui affine la politique de base en utilisant les extrinsèques imparfaites estimées à partir du module d’adaptation au lieu de conditionner sur les extrinsèques parfaites.
L’A-RMA montre une généralisation à des terrains au-delà de ce qui est vu pendant l’entraînement sans ajustement ou étalonnage supplémentaire dans le monde réel.
Les progrès récents de la locomotion à pattes ont permis aux quadrupèdes de marcher sur des terrains difficiles. Cependant, les robots bipèdes sont intrinsèquement plus instables et il est donc plus difficile de concevoir des contrôleurs de marche pour eux. Dans ce travail, nous tirons parti des avancées récentes en matière d’adaptation rapide pour le contrôle de la locomotion et les étendons au travail sur les robots bipèdes. Similaire aux travaux existants, nous partons d’une politique de base qui produit des actions en prenant en entrée un vecteur extrinsèque estimé à partir d’un module d’adaptation. Ce vecteur extrinsèque contient des informations sur l’environnement et permet au contrôleur de marche de s’adapter rapidement en ligne. Cependant, l’estimateur extrinsèque pourrait être imparfait, ce qui pourrait conduire à de mauvaises performances de la politique de base qui attend un estimateur parfait. Dans cet article, nous proposons A-RMA (Adapting RMA), qui adapte en outre la politique de base pour l’estimateur extrinsèque imparfait en l’affinant à l’aide de RL sans modèle. Nous démontrons que l’A-RMA surpasse un certain nombre de contrôleurs de base basés sur RL et de contrôleurs basés sur des modèles dans la simulation, et montrons le déploiement sans coup férir d’une seule politique A-RMA pour permettre à un robot bipède, Cassie, de marcher dans une variété de différents scénarios dans le monde réel au-delà de ce qu’il a vu pendant la formation. Vidéos et résultats sur cette URL https
Article de recherche: Kumar, A., Li, Z., Zeng, J., Pathak, D., Sreenath, K. et Malik, J., « Adaptation de l’adaptation rapide des moteurs aux robots bipèdes », 2022. Lien : https://arxiv.org/abs/2205.15299