Les algorithmes d’apprentissage par renforcement (RL) peuvent acquérir des compétences pour résoudre des tâches de prise de décision telles que jouer aux jeux, permettre aux robots de ramasser des objetsou même optimisation des conceptions de micropuces. Cependant, l’exécution d’algorithmes RL dans le monde réel nécessite des collecte de données energetic. La pré-formation sur divers ensembles de données s’est avérée permettre un réglage fin efficace des données pour les tâches individuelles en aval dans traitement du langage naturel (PNL) et imaginative and prescient problèmes. De la même manière que BERT ou GPT-3 Les modèles fournissent une initialisation à utilization général pour la PNL, de grands modèles RL pré-formés pourraient fournir une initialisation à utilization général pour la prise de décision. Donc, nous posons la query : Pouvons-nous activer une pré-formation similaire pour accélérer les méthodes de RL et créer une « épine dorsale » à utilization général pour une RL efficace dans diverses tâches ?
Dans « Le Q-learning hors ligne sur diverses données multitâches s’étend et se généralise», à paraître sur ICLR 2023nous discutons de la façon dont nous avons mis à l’échelle RL hors ligne, qui peut être utilisé pour former des fonctions de valeur sur des ensembles de données statiques précédemment collectés, pour fournir une telle méthode générale de pré-formation. Nous démontrons que le Q-Studying à l’échelle utilisant un ensemble de données diversifié est suffisant pour apprendre des représentations qui facilitent un transfert rapide vers de nouvelles tâches et un apprentissage en ligne rapide sur de nouvelles variantes d’une tâche, s’améliorant considérablement par rapport aux approches d’apprentissage de représentation existantes et même aux méthodes basées sur Transformer qui utilisent beaucoup modèles plus grands.
![]() |
Q-learning à l’échelle : pré-formation multi-tâches avec Q-learning conservateur
Pour fournir une approche de pré-formation à utilization général, la RL hors ligne doit être évolutive, nous permettant de nous pré-former sur les données dans différentes tâches et d’utiliser des modèles de réseaux de neurones expressifs pour acquérir de puissantes dorsales pré-formées, spécialisées dans les tâches individuelles en aval. Nous avons basé notre méthode de pré-formation RL hors ligne sur Q-learning conservateur (CQL), une méthode RL hors ligne easy qui mix la norme Q-apprentissage mises à jour avec un régularisateur supplémentaire qui minimise la valeur des actions invisibles. Avec des actions discrètes, le régularisateur CQL est équivalent à un normal perte d’entropie croisée, qui est une easy modification d’une ligne sur le Q-learning normal en profondeur. Quelques décisions de conception cruciales ont rendu cela attainable :
- Taille du réseau neuronal : Nous avons constaté que le Q-learning multi-jeux nécessitait de grandes architectures de réseaux de neurones. Alors que les méthodes antérieures étaient souvent utilisées réseaux convolutifs relativement peu profondsnous avons constaté que des modèles aussi grands qu’un ResNet 101 conduit à des améliorations significatives par rapport aux modèles plus petits.
- Structure de réseau neuronal : Pour apprendre les backbones pré-formés qui sont utiles pour les nouveaux jeux, notre structure finale utilise un spine de réseau neuronal partagé, avec des têtes séparées à 1 couche produisant les valeurs Q de chaque jeu. Cette conception évite les interférences entre les jeux pendant la pré-formation, tout en fournissant suffisamment de partage de données pour apprendre une seule représentation partagée. Notre colonne vertébrale de imaginative and prescient partagée a également utilisé un intégration de place apprise (semblable aux modèles Transformer) pour garder une hint des informations spatiales dans le jeu.
- Régularisation représentative : Des travaux récents ont observé que le Q-learning a tendance à souffrir de représentationnel effondrement questions, où même les grands réseaux de neurones peuvent échouer à apprendre des représentations efficaces. Pour contrer ce problème, nous nous appuyons sur notre travail prioritaire pour normaliser les caractéristiques de la dernière couche de la partie partagée du réseau Q. De plus, nous avons utilisé une catégorie RL distributionnel perte pour Q-learning, qui est connu pour fournir des représentations plus riches qui améliorent les performances des tâches en aval.
La référence Atari multi-tâches
Nous évaluons notre approche de RL hors ligne évolutive sur une suite de Jeux Atari, où l’objectif est de former un seul agent RL à jouer à une assortment de jeux en utilisant des données hétérogènes provenant de joueurs de faible qualité (c’est-à-dire sous-optimaux), puis d’utiliser le réseau fédérateur résultant pour apprendre rapidement de nouvelles variantes dans les jeux de pré-formation ou complètement nouveaux jeux. La formation d’une seule stratégie qui peut jouer à de nombreux jeux Atari différents est déjà assez difficile, même avec la norme en ligne méthodes RL profondes, automotive chaque jeu nécessite une stratégie différente et des représentations différentes. Dans le cadre hors ligne, certains travaux antérieurstel que transformateurs de décision multi-jeuxa proposé de se passer entièrement de RL et d’utiliser à la place le conditionnel apprentissage par imitation dans une tentative de mise à l’échelle avec de grandes architectures de réseaux neuronaux, telles que des transformateurs. Cependant, dans ce travail, nous montrons que ce kind de pré-formation multi-jeux peut être effectué efficacement through RL en utilisant CQL en combinaison avec quelques décisions de conception prudentes, que nous décrivons ci-dessous.
Évolutivité sur les jeux d’entraînement
Nous évaluons les performances et l’évolutivité de la méthode Scaled Q-Studying à l’aide de deux compositions de données : (1) des données quasi optimales, constituées de toutes les données d’entraînement apparaissant dans les tampons de relecture des exécutions RL précédentes, et (2) des données de faible qualité, constituées de données provenant de les 20 premiers % des essais dans le tampon de relecture (c’est-à-dire uniquement les données provenant de politiques hautement sous-optimales). Dans nos résultats ci-dessous, nous comparons Scaled Q-Studying avec un modèle de 80 thousands and thousands de paramètres à des transformateurs de décision multi-jeux (DT) avec des modèles de 40 ou 80 thousands and thousands de paramètres, et une ligne de base de clonage comportemental (apprentissage par imitation) (BC ). Nous observons que Scaled Q-Studying est la seule approche qui s’améliore par rapport aux données hors ligne, atteignant environ 80 % des performances humaines normalisées.
![]() |
De plus, comme indiqué ci-dessous, le Scaled Q-Studying s’améliore en termes de performances, mais il bénéficie également de situations favorables. mise à l’échelle propriétés : tout comme la façon dont les performances des modèles de langage et de imaginative and prescient pré-formés s’améliorent à mesure que la taille du réseau augmente, bénéficiant de ce que l’on appelle généralement la « mise à l’échelle de la loi de puissance », nous montrons que les performances de Scaled Q-learning bénéficient de propriétés de mise à l’échelle similaires. Bien que cela ne soit pas surprenant, ce kind de mise à l’échelle a été insaisissable dans RL, les performances se détériorant souvent avec des modèles de plus grande taille. Cela suggère que Scaled Q-Studying en combinaison avec les choix de conception ci-dessus débloque mieux la capacité de RL hors ligne à utiliser de grands modèles.
![]() |
Mise au level de nouveaux jeux et variations
Pour évaluer le réglage fin à partir de cette initialisation hors ligne, nous considérons deux paramètres : (1) le réglage fin vers un nouveau jeu entièrement invisible avec une petite quantité de données hors ligne de ce jeu, correspondant à 2 thousands and thousands de transitions de gameplay, et (2) mise au level d’une nouvelle variante des jeux avec interplay en ligne. Le réglage fin à partir des données de jeu hors ligne est illustré ci-dessous. Notez que cette situation est généralement plus favorable aux méthodes de kind imitation, Choice Transformer et clonage comportemental, puisque les données hors ligne pour les nouveaux jeux sont de relativement bonne qualité. Néanmoins, nous constatons que dans la plupart des cas, le Q-learning à l’échelle s’améliore par rapport aux approches options (80 % en moyenne), ainsi qu’aux méthodes d’apprentissage de représentation dédiées, telles que MAE ou CPCqui utilisent uniquement les données hors ligne pour apprendre des représentations visuelles plutôt que des fonctions de valeur.
![]() |
Dans le cadre en ligne, nous constatons des améliorations encore plus importantes de la pré-formation avec Scaled Q-learning. Dans ce cas, les méthodes d’apprentissage de la représentation telles que MAE n’apportent qu’une amélioration minime pendant l’apprentissage en ligne en ligne, tandis que le Q-Studying à l’échelle peut intégrer avec succès les connaissances préalables sur les jeux de pré-formation pour améliorer considérablement le rating last après 20 000 étapes d’interplay en ligne.
Ces résultats démontrent que les dorsales de fonction de valeur généraliste de pré-formation avec RL hors ligne multitâche peuvent considérablement améliorer les performances de RL sur les tâches en aval, à la fois en mode hors ligne et en ligne. Notez que ces tâches de réglage fin sont assez difficiles : les différents jeux Atari, et même les variantes d’un même jeu, diffèrent considérablement en apparence et en dynamique. Par exemple, les blocs cibles dans Breakout disparaissent dans la variante du jeu comme indiqué ci-dessous, ce qui rend le contrôle difficile. Cependant, le succès de Scaled Q-learning, en particulier par rapport aux methods d’apprentissage de la représentation visuelle, telles que MAE et CPC, suggère que le modèle apprend en fait une certaine représentation de la dynamique du jeu, plutôt que de simplement fournir de meilleures fonctionnalités visuelles.
Conclusion et plats à emporter
Nous avons présenté Scaled Q-Studying, une méthode de pré-formation pour le RL hors ligne à l’échelle qui s’appuie sur le LCQ algorithme et démontré remark il permet une RL hors ligne efficace pour une formation multitâche. Ce travail a fait des progrès initiaux vers la possibilité d’une formation plus pratique dans le monde réel des brokers RL comme different aux pipelines coûteux et complexes basés sur la simulation ou aux expériences à grande échelle. Peut-être qu’à lengthy terme, un travail similaire conduira à des brokers RL pré-formés généralement capables qui développent des compétences d’exploration et d’interplay largement applicables à partir d’une pré-formation hors ligne à grande échelle. Valider ces résultats sur un éventail plus giant de tâches plus réalistes, dans des domaines tels que la robotique (voir quelques premiers résultats) et la PNL, est une path importante pour les recherches futures. La pré-formation RL hors ligne a beaucoup de potentiel, et nous nous attendons à voir de nombreuses avancées dans ce domaine dans les travaux futurs.
Remerciements
Ce travail a été réalisé par Aviral Kumar, Rishabh Agarwal, Xinyang Geng, George Tucker et Sergey Levine. Un merci spécial à Sherry Yang, Ofir Nachum et Kuang-Huei Lee pour leur aide avec la base de code du transformateur de décision multi-jeux pour l’évaluation et le benchmark Atari multi-jeux, et Tom Small pour les illustrations et l’animation.