Les humains sont remarquablement efficaces pour acquérir de nouvelles compétences à partir de démonstrations : souvent, une seule démonstration du comportement souhaité et quelques essais de la tâche suffisent pour le maîtriser.
Les machines peuvent-elles reproduire la même méthodologie d’apprentissage ?
Oui, ils peuvent!! Voici les techniques actuellement disponibles pour l’apprentissage automatique guidé par des démonstrations :
Apprentissage par imitation: Il fait référence à l’apprentissage par imitation OU à l’apprentissage par une démonstration où un comportement complexe est appris en tirant parti d’un ensemble de démonstration. Les limitations possibles incluent la limitation de l’apprentissage de politiques robustes et d’une formation instable
RL guidé par la démonstration: L’apprentissage par renforcement est combiné avec l’apprentissage par imitation pour surmonter les limites de l’apprentissage par imitation. Cependant, comme de nombreuses démonstrations sont nécessaires pour apprendre efficacement, cela coûte cher, d’autant plus que chaque nouvelle tâche est considérée comme un problème d’apprentissage indépendant. Donc, la formation coûte cher. Que pouvons-nous y faire?
RL en ligne avec des ensembles de données hors ligne: Ici, l’apprentissage par renforcement est accéléré en tirant parti de l’expérience indépendante des tâches (OU des ensembles de données hors ligne collectés sur de nombreuses tâches).
R basé sur les compétencesL : Il apprend de nouvelles tâches en recombinant des tâches à partir d’ensembles de données indépendants des tâches.
Cet article est basé sur le document de recherche de Karl Pertsch, Youngwoon Lee, Yue Wu, Joseph J. Lim. Selon les mots du chercheur, l’objectif de sa recherche est triple :
(1) nous introduisons le problème de l’exploitation d’ensembles de données hors ligne indépendants des tâches pour accélérer le RL guidé par la démonstration sur des tâches invisibles,
(2) nous proposons SkiLD, un algorithme basé sur les compétences pour un RL efficace guidé par la démonstration et
(3) nous montrons l’efficacité de notre approche sur une navigation dans un labyrinthe et deux tâches complexes de manipulation robotique.
CompétenceLD
SkiLD a été décrit comme une nouvelle méthode d’apprentissage renforcé guidé par des démonstrations qui exploite des ensembles de données d’expériences indépendantes des tâches et des démonstrations spécifiques à des tâches pour un apprentissage accéléré de tâches invisibles. SkiLD accélère l’apprentissage des tâches à long terme tout en réduisant le nombre de démonstrations nécessaires. La recherche souligne que
Étant donné tâche agnostique grande ensemble de données, notre approche extrait des compétences réutilisables : des comportements robustes à court terme qui peuvent être recombinés pour apprendre de nouvelles tâches. Comme un humain imitant des comportements complexes via l’enchaînement de compétences connues, les tâches complexes pourraient être apprises plus rapidement. Concrètement, nous proposons Skill-based Learning with Demonstrations (SkiLD), un algorithme RL guidé par des démonstrations qui apprend des compétences à court terme à partir d’ensembles de données hors ligne, puis apprend efficacement de nouvelles tâches en tirant parti de ces compétences pour suivre un ensemble donné de démonstrations. À travers les tâches de navigation et de manipulation robotique difficiles, notre approche améliore considérablement l’efficacité de l’apprentissage par rapport aux approches RL guidées par démonstration antérieures.
Approche des chercheurs
Les chercheurs ont extrait les caractéristiques liées aux compétences à partir des données d’expérience agnostique des tâches. Ces compétences extraites sont exploitées pour améliorer l’efficacité du RL guidé par la démonstration sur des tâches invisibles
SkiLD, combine une expérience indépendante de la tâche et des démonstrations spécifiques à une tâche pour apprendre efficacement les tâches cibles en trois étapes : (1) extraire la représentation des compétences à partir de données hors ligne indépendantes de la tâche, (2) apprendre la compétence indépendante de la tâche avant à partir des données et de la tâche indépendantes de la tâche. -compétences spécifiques postérieures à partir des démonstrations, et (3) apprendre une politique de compétences de haut niveau pour la tâche cible en utilisant les connaissances préalables à partir des données hors ligne indépendantes de la tâche et des démonstrations spécifiques à la tâche.
Configurations expérimentales
Les configurations ci-dessous ont été utilisées pour mesurer l’efficacité des techniques d’apprentissage populaires et de SkiLD
- Navigation dans le labyrinthe : naviguer dans un labyrinthe 2D
- Robot Kitchen Environment : Pour effectuer une séquence de 4 sous-tâches, telles que l’ouverture du micro-ondes ou l’allumage de la lumière, dans le bon ordre
- Robot Office Environment : Pour nettoyer un environnement de bureau en plaçant des objets dans leurs bacs cibles ou en les mettant dans un tiroir
Conclusion
SkiLD utilise de grands ensembles de données indépendants des tâches et un petit nombre de démonstrations spécifiques aux tâches pour l’apprentissage. SkilLD est proposé comme une méthodologie efficace d’apprentissage automatique guidée par des démonstrations qui peut être utilisée pour apprendre des tâches complexes. Il utilise un apprentissage renforcé guidé par des démonstrations pour tirer parti des compétences précédemment acquises à partir d’autres tâches et les recombiner pour un apprentissage plus rapide. Des expériences ont montré que la technique proposée par les chercheurs atteint les objectifs d’apprentissage plus rapidement que d’autres techniques populaires dans ce domaine spécifique dans des tâches telles que la navigation dans le labyrinthe 2D, l’environnement de cuisine robotique et l’environnement de bureau robotique.
Document de recherche: Karl Pertsch, Youngwoon Lee, Yue Wu, Joseph J. Lim »Apprentissage par renforcement guidé par la démonstration avec des compétences acquises«