11.6 C
New York

Pas d’apprentissage TD, de repondération des avantages ou de transformateurs – Le weblog de recherche sur l’intelligence artificielle de Berkeley





Une démonstration de la politique RvS que nous apprenons avec juste un apprentissage supervisé et un MLP de profondeur deux. Il n’utilise pas d’apprentissage TD, de repondération des avantages ou de transformateurs !

L’apprentissage par renforcement hors ligne (RL) est classiquement abordé à l’aide de méthodes basées sur des valeurs basées sur l’apprentissage par différence temporelle (TD). Cependant, de nombreux algorithmes récents recadrent RL comme un problème d’apprentissage supervisé. Ces algorithmes apprennent politiques conditionnelles en conditionnant sur des états de however (Lynch et coll., 2019 ; fantôme et coll.2021), récompense à emporter (Kumar et coll., 2019 ; Chen et coll.2021), ou des descriptions linguistiques de la tâche (Lynch et Sermanet, 2021).

Nous trouvons la simplicité de ces méthodes tout à fait attrayante. Si l’apprentissage supervisé est suffisant pour résoudre les problèmes de RL, alors le RL hors ligne pourrait devenir largement accessible et (relativement) facile à mettre en œuvre. Alors que l’apprentissage TD doit délicatement équilibrer une politique d’acteur avec un ensemble de critiques, ces méthodes d’apprentissage supervisé forment une seule politique (conditionnelle), et rien d’autre !

Alors, remark pouvons-nous utiliser ces méthodes pour résoudre efficacement les problèmes de RL hors ligne ? Des travaux antérieurs proposent un sure nombre de trucs et astuces astucieux, mais ces astuces sont parfois contradictoires, ce qui rend difficile pour les praticiens de comprendre remark appliquer ces méthodes avec succès. Par exemple, les RCP (Kumar et coll.2019) nécessitent de repondérer soigneusement les données d’entraînement, GCSL (Ghosh et coll.2021) nécessite une collecte de données itérative en ligne et un transformateur de décision (Chen et coll.2021) utilise un modèle de séquence Transformer comme réseau de politiques.

Laquelle de ces hypothèses, le cas échéant, est correcte ? Avons-nous besoin de repondérer nos données d’entraînement en fonction des avantages estimés ? Les transformateurs sont-ils nécessaires pour obtenir une politique performante ? Y a-t-il d’autres décisions de conception critiques qui n’ont pas été prises en compte dans les travaux antérieurs ?

Notre travail vise à répondre à ces questions en tentant d’identifier les éléments essentiels de RL hors ligne through un apprentissage supervisé. Nous menons des expériences sur 4 suites, 26 environnements et 8 algorithmes. Une fois la poussière retombée, nous obtenons des performances compétitives dans chaque suite d’environnements que nous envisageons en utilisant des éléments remarquablement simples. La vidéo ci-dessus montre le comportement complexe que nous apprenons en utilisant uniquement l’apprentissage supervisé avec un MLP de profondeur deux – pas d’apprentissage TD, de repondération des données ou de transformateurs !

Commençons par un aperçu de l’algorithme que nous étudions. Bien que de nombreux travaux antérieurs (Kumar et coll., 2019 ; fantôme et coll., 2021 ; et Chen et coll., 2021) partagent le même algorithme de base, il lui manque un nom commun. Pour combler cette lacune, nous proposons le terme RL through l’apprentissage supervisé (RvS). Nous ne proposons pas de nouvel algorithme mais montrons plutôt remark les travaux antérieurs peuvent être visualisés à partir d’un cadre unificateur ; voir Determine 1.



Determine 1. (À gauche) Un tampon de relecture de l’expérience (À droite) Des données d’entraînement réétiquetées rétrospectives

RL through l’apprentissage supervisé prend en entrée un tampon de relecture d’expérience comprenant des états, des actions et des résultats. Les résultats peuvent être une fonction arbitraire de la trajectoire, y compris un état d’objectif, une récompense à emporter ou une description du langage. Ensuite, RvS effectue un réétiquetage rétrospectif pour générer un ensemble de données de triplets d’état, d’motion et de résultat. L’instinct est que les actions observées assurent la supervision des résultats atteints. Avec cet ensemble de données de formation, RvS effectue un apprentissage supervisé en maximisant la probabilité des actions compte tenu des états et des résultats. Cela donne une politique conditionnelle qui peut conditionner des résultats arbitraires au second du take a look at.

Dans nos expériences, nous nous concentrons sur les trois questions clés suivantes.

  1. Quelles décisions de conception sont critiques pour RL through l’apprentissage supervisé ?
  2. Dans quelle mesure le RL through l’apprentissage supervisé fonctionne-t-il réellement ? Nous pouvons faire du RL through un apprentissage supervisé, mais l’utilisation d’un autre algorithme de RL hors ligne serait-elle plus performante ?
  3. Sur quel sort de variable de résultat devons-nous conditionner ? (Et est-ce même vital?)



Determine 2. Notre structure RvS. Un MLP de profondeur deux suffit dans chaque suite d’environnements que nous considérons.

Nous obtenons de bonnes performances en utilisant uniquement un perceptron multicouche de profondeur deux. En fait, cela est en concurrence avec toutes les architectures publiées précédemment que nous connaissons, y compris un modèle de séquence Transformer. Nous concaténons simplement l’état et le résultat avant de les faire passer par deux couches entièrement connectées (voir Determine 2). Les clés que nous identifions ont un réseau de grande capacité – nous utilisons la largeur 1024 – ainsi que le décrochage dans certains environnements. Nous constatons que cela fonctionne bien sans repondérer les données d’entraînement ni effectuer de régularisation supplémentaire.

Après avoir identifié ces décisions de conception clés, nous étudions les performances globales de RvS par rapport aux méthodes précédentes. Ce billet de weblog présentera les résultats de deux des suites que nous considérons dans le doc.

La première suite est D4RL Health club, qui contient les robots customary MuJoCo halfcheetah, hopper et walker. Le défi dans D4RL Health club est d’apprendre les politiques de locomotion à partir d’ensembles de données hors ligne de qualité variable. Par exemple, un ensemble de données hors ligne contient des déploiements à partir d’une politique totalement aléatoire. Un autre ensemble de données contient des déploiements à partir d’une politique « moyenne » formée à mi-chemin de la convergence, tandis qu’un autre ensemble de données est un mélange de déploiements à partir de politiques moyennes et expertes.



Determine 3. Efficiency globale en D4RL Health club.

La determine 3 montre nos résultats dans D4RL Health club. RvS-R est notre implémentation de RvS conditionnée aux récompenses (illustrée à la determine 2). En moyenne sur les 12 tâches de la suite, nous constatons que RvS-R, qui n’utilise qu’un MLP de profondeur deux, est compétitif avec Resolution Transformer (DT ; Chen et coll., 2021). Nous voyons également que RvS-R est compétitif avec les méthodes qui utilisent l’apprentissage par différence temporelle (TD), y compris CQL-R (Kumar et coll.2020), TD3+BC (Fujimoto et coll.2021) et Onestep (Brandfonbrener et coll., 2021). Cependant, les méthodes d’apprentissage TD ont un avantage automotive elles fonctionnent particulièrement bien sur les ensembles de données aléatoires. Cela suggère que l’on pourrait préférer l’apprentissage TD au RvS lorsqu’il s’agit de données de faible qualité.

La deuxième suite est D4RL AntMaze. Cette suite nécessite un quadrupède pour naviguer vers un emplacement cible dans des labyrinthes de taille variable. Le défi d’AntMaze est que de nombreuses trajectoires ne contiennent que des morceaux du chemin complet depuis le début jusqu’à l’emplacement du however. Apprendre de ces trajectoires nécessite d’assembler ces pièces pour obtenir le chemin complet et réussi.



Determine 4. Performances globales dans D4RL AntMaze.

Nos résultats AntMaze dans la determine 4 mettent en évidence l’significance de la variable de conditionnement. Alors que le conditionnement RvS sur les récompenses (RvS-R) était le meilleur choix de la variable de conditionnement dans D4RL Health club, nous constatons que dans D4RL AntMaze, il est bien préférable de conditionner RvS sur les coordonnées de however $(x, y)$ (RvS-G ). Lorsque nous faisons cela, nous voyons que RvS-G se evaluate favorablement à l’apprentissage TD ! Cela nous a surpris automotive l’apprentissage TD effectue explicitement une programmation dynamique à l’aide de l’équation de Bellman.

Pourquoi le conditionnement par objectif est-il plus performant que le conditionnement par récompense dans ce contexte ? Rappelez-vous qu’AntMaze est conçu pour que la easy imitation ne suffise pas : les méthodes optimales doivent assembler des events de trajectoires sous-optimales pour comprendre remark atteindre l’objectif. En principe, l’apprentissage TD peut résoudre ce problème avec temporel compositionnalité. Avec l’équation de Bellman, l’apprentissage TD peut combiner un chemin de A à B avec un chemin de B à C, donnant un chemin de A à C. RvS-R, ainsi que d’autres méthodes de clonage de comportement, ne bénéficient pas de cette compositionnalité temporelle. Nous émettons l’hypothèse que RvS-G, d’autre half, bénéficie de compositionnalité spatiale. En effet, dans AntMaze, la politique nécessaire pour atteindre un objectif est similaire à la politique nécessaire pour atteindre un objectif proche. Nous voyons en conséquence que RvS-G bat RvS-R.

Bien sûr, conditionner RvS-G sur les coordonnées $(x, y)$ représente une forme de connaissance préalable de la tâche. Mais cela met également en évidence une considération importante pour les méthodes RvS : le choix des informations de conditionnement est d’une significance cruciale et peut dépendre de manière significative de la tâche.

Dans l’ensemble, nous constatons que dans un ensemble diversifié d’environnements, RvS fonctionne bien sans avoir besoin d’astuces algorithmiques sophistiquées (telles que la repondération des données) ou d’architectures sophistiquées (telles que Transformers). En effet, notre configuration RvS easy peut égaler, voire surpasser, les méthodes qui utilisent l’apprentissage TD (conservateur). Les clés du RvS que nous identifions sont la capacité du modèle, la régularisation et la variable de conditionnement.

Dans notre travail, nous fabriquons à la most important la variable de conditionnement, telle que les coordonnées $(x, y)$ dans AntMaze. Au-delà de la configuration RL hors ligne customary, cela introduit une hypothèse supplémentaire, à savoir que nous disposons d’informations préalables sur la construction de la tâche. Nous pensons qu’une route intéressante pour les travaux futurs serait de supprimer cette hypothèse en automatisant l’apprentissage de l’espace des buts.


Nous avons emballé notre code open-source afin qu’il puisse gérer automatiquement toutes les dépendances pour vous. Après avoir téléchargé le code, vous pouvez exécuter ces cinq commandes pour reproduire nos expériences :

docker construct -t rvs:newest .
docker run -it --rm -v $(pwd):/rvs rvs:newest bash
cd rvs
pip set up -e .
bash experiments/launch_gym_rvs_r.sh

Ce put up est basé sur le papier:

RvS : qu’est-ce qui est essentiel pour le RL hors ligne through l’apprentissage supervisé ?
Scott Emmons, Benjamin Eysenbach, Ilya Kostrikov, Sergueï Levine
Conférence internationale sur les représentations de l’apprentissage (ICLR), 2022
(Papier) (Code)

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles