Imaginez deux équipes qui s’affrontent sur un terrain de soccer. Les joueurs peuvent coopérer pour atteindre un objectif et rivaliser avec d’autres joueurs ayant des intérêts contradictoires. C’est comme ça que le jeu fonctionne.
Créer des brokers d’intelligence artificielle capables d’apprendre à rivaliser et à coopérer aussi efficacement que les humains reste un problème épineux. Un défi clé est de permettre aux brokers d’IA d’anticiper les comportements futurs d’autres brokers lorsqu’ils apprennent tous simultanément.
En raison de la complexité de ce problème, les approches actuelles ont tendance à être myopes ; les brokers ne peuvent que deviner les prochains mouvements de leurs coéquipiers ou concurrents, ce qui entraîne de mauvaises performances à lengthy terme.
Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d’ailleurs ont développé une nouvelle approche qui donne aux brokers d’IA une perspective prévoyante. Leur cadre d’apprentissage automatique permet aux brokers d’IA coopératifs ou compétitifs de considérer ce que les autres brokers feront à mesure que le temps approche de l’infini, et pas seulement sur quelques étapes suivantes. Les brokers adaptent alors leurs comportements en conséquence pour influencer les comportements futurs des autres brokers et arriver à une answer optimale à lengthy terme.
Ce cadre pourrait être utilisé par un groupe de drones autonomes travaillant ensemble pour retrouver un randonneur perdu dans une forêt épaisse, ou par des voitures autonomes qui s’efforcent d’assurer la sécurité des passagers en anticipant les mouvements futurs d’autres véhicules circulant sur une autoroute très fréquentée.
« Lorsque les brokers d’IA coopèrent ou se font concurrence, ce qui compte le plus, c’est lorsque leurs comportements convergent à un second donné dans le futur. Il y a beaucoup de comportements transitoires en cours de route qui n’ont pas beaucoup d’significance à lengthy terme. Atteindre ce comportement convergé est ce qui nous intéresse vraiment, et nous avons maintenant un moyen mathématique d’y parvenir », déclare Dong-Ki Kim, étudiant diplômé au Laboratoire des systèmes d’info et de décision (LIDS) du MIT et auteur principal d’un article décrivant ce cadre.
L’auteur principal est Jonathan P. How, professeur d’aéronautique et d’astronautique Richard C. Maclaurin et membre du MIT-IBM Watson AI Lab. Les co-auteurs incluent d’autres personnes du MIT-IBM Watson AI Lab, d’IBM Analysis, de l’Institut d’intelligence artificielle Mila-Québec et de l’Université d’Oxford. La recherche sera présentée à la conférence sur les systèmes de traitement de l’info neuronale.
Plus d’brokers, plus de problèmes
Les chercheurs se sont concentrés sur un problème connu sous le nom d’apprentissage par renforcement multi-agents. L’apprentissage par renforcement est une forme d’apprentissage automatique dans laquelle un agent d’intelligence artificielle apprend par essais et erreurs. Les chercheurs donnent à l’agent une récompense pour les « bons » comportements qui l’aident à atteindre un objectif. L’agent adapte son comportement pour maximiser cette récompense jusqu’à ce qu’il devienne finalement un skilled dans une tâche.
Mais lorsque de nombreux brokers coopératifs ou concurrents apprennent simultanément, les choses deviennent de plus en plus complexes. Au fur et à mesure que les brokers envisagent davantage d’étapes futures de leurs collègues brokers et remark leur propre comportement affect les autres, le problème nécessite bientôt beaucoup trop de puissance de calcul pour être résolu efficacement. C’est pourquoi d’autres approches ne se concentrent que sur le court docket terme.
« Les IA veulent vraiment penser à la fin du jeu, mais elles ne savent pas quand le jeu se terminera. Elles doivent réfléchir à la façon de continuer à adapter leur comportement à l’infini afin de pouvoir gagner à un second lointain dans le futur. . Notre article suggest essentiellement un nouvel objectif qui permet à une IA de penser à l’infini », explique Kim.
Mais comme il est not possible de brancher l’infini dans un algorithme, les chercheurs ont conçu leur système pour que les brokers se concentrent sur un level futur où leur comportement convergera avec celui des autres brokers, appelé équilibre. Un level d’équilibre détermine la efficiency à lengthy terme des brokers, et plusieurs équilibres peuvent exister dans un scénario multi-agents. Par conséquent, un agent efficace affect activement les comportements futurs des autres brokers de telle manière qu’ils atteignent un équilibre souhaitable du level de vue de l’agent. Si tous les brokers s’influencent mutuellement, ils convergent vers un idea général que les chercheurs appellent un « équilibre actif ».
Le cadre d’apprentissage automatique qu’ils ont développé, connu sous le nom de FURTHER (qui signifie FUlly Reinforcing acTive affect with averagE Reward), permet aux brokers d’apprendre à adapter leurs comportements lorsqu’ils interagissent avec d’autres brokers pour atteindre cet équilibre actif.
FURTHER le fait à l’aide de deux modules d’apprentissage automatique. Le premier, un module d’inférence, permet à un agent de deviner les comportements futurs d’autres brokers et les algorithmes d’apprentissage qu’ils utilisent, en se basant uniquement sur leurs actions antérieures.
Ces informations sont introduites dans le module d’apprentissage par renforcement, que l’agent utilise pour adapter son comportement et influencer les autres brokers de manière à maximiser sa récompense.
« Le défi consistait à penser à l’infini. Nous avons dû utiliser de nombreux outils mathématiques différents pour permettre cela, et faire des hypothèses pour que cela fonctionne dans la pratique », explique Kim.
Gagner sur le lengthy terme
Ils ont testé leur approche par rapport à d’autres cadres d’apprentissage par renforcement multi-agents dans plusieurs scénarios différents, notamment une paire de robots combattant à la manière d’un sumo et une bataille opposant deux équipes de 25 brokers. Dans les deux cas, les brokers IA utilisant FURTHER ont remporté les jeux plus souvent.
Étant donné que leur approche est décentralisée, ce qui signifie que les brokers apprennent à gagner les jeux de manière indépendante, elle est également plus évolutive que d’autres méthodes qui nécessitent un ordinateur central pour contrôler les brokers, explique Kim.
Les chercheurs ont utilisé des jeux pour tester leur approche, mais FURTHER pourrait être utilisé pour résoudre tout sort de problème multi-agents. Par exemple, elle pourrait être appliquée par des économistes cherchant à élaborer une politique solide dans des conditions où de nombreux droits en interplay ont des comportements et des intérêts qui changent avec le temps.
L’économie est une utility que Kim est particulièrement enthousiaste à l’idée d’étudier. Il souhaite également approfondir le idea d’équilibre actif et continuer à améliorer le cadre FURTHER.
Cette recherche est financée, en partie, par le MIT-IBM Watson AI Lab.