Les humains sont notoirement pauvres pour juger des distances. Il y a une tendance à sous-estimer, qu’il s’agisse de la distance le lengthy d’une route droite avec une course dégagée vers l’horizon ou de la distance à travers une vallée. Lors de l’ascension vers un sommet, l’estimation est encore plus confondue par de fake sommets. Ce que vous pensiez être votre objectif et votre level closing s’avère être un pic inférieur ou simplement un contour qui, de plus bas, ressemblait à un pic. Vous pensiez avoir réussi – ou du moins en étiez proche – mais il reste encore un lengthy chemin à parcourir.
L’histoire de l’IA est une histoire de progrès ponctués, mais c’est aussi l’histoire de (nombreux) fake sommets.
Dans les années 1950, la traduction automatique du russe vers l’anglais n’était pas considérée comme plus complexe que les recherches dans les dictionnaires et les phrases modèles. Le traitement du langage naturel a parcouru un très lengthy chemin depuis lors, après avoir brûlé quelques paradigmes pour arriver à quelque selected que nous pouvons utiliser au quotidien. Dans les années 1960, Marvin Minsky et Seymour Papert ont proposé le Summer time Imaginative and prescient Challenge pour les étudiants de premier cycle : connectez une caméra de télévision à un ordinateur et identifiez les objets dans le champ de imaginative and prescient. La imaginative and prescient par ordinateur est maintenant quelque selected qui est marchandisée pour des tâches spécifiques, mais elle proceed d’être un travail en cours et, dans le monde entier, a pris plus que quelques étés (et hivers d’IA) et bien plus que quelques étudiants de premier cycle.
Nous pouvons trouver de nombreux autres exemples à travers de nombreuses décennies qui reflètent la naïveté et l’optimisme et, si nous sommes honnêtes, une grande quantité d’ignorance et d’orgueil. Les deux leçons générales à tirer ici ne sont pas que la traduction automatique implique plus que des recherches et que la imaginative and prescient par ordinateur implique plus que la détection des contours, mais que lorsque nous sommes confrontés à des problèmes complexes dans des domaines inconnus, nous devons nous méfier de tout ce qui semble easy à première vue, et que lorsque nous avons des options réussies pour une partie spécifique d’un domaine complexe, nous ne devrions pas supposer que ces options sont généralisables. Ce sort d’humilité est prone de fournir des progrès plus significatifs et une compréhension plus mesurée de ces progrès. Il est également prone de réduire le nombre d’specialists à l’avenir qui se moquent des prédictions et des ambitions passées, ainsi que l’ironie récurrente des specialists en apprentissage automatique qui semblent incapables d’apprendre des tendances passées dans leur propre domaine.
Tout cela nous amène à Gato de DeepMind et l’affirmation selon laquelle le sommet de l’intelligence artificielle générale (IAG) est à portée de essential. Le travail acharné a été fait et atteindre AGI est maintenant une easy query de mise à l’échelle. Au mieux, c’est un fake sommet sur le bon chemin ; au pire, c’est un most native loin d’AGI, qui se trouve sur une route très différente dans une gamme différente d’architectures et de pensées.
DeepMind’s Gato est un modèle d’IA qui peut être enseigné pour effectuer de nombreux varieties de tâches différents basés sur un seul réseau neuronal de transformateur. Les 604 tâches sur lesquelles Gato a été formé vont de la lecture de jeux vidéo Atari au chat, de la navigation dans des environnements 3D simulés au suivi d’directions, du sous-titrage d’photos à la robotique du monde réel en temps réel. La réalisation remarquable est qu’elle repose sur un modèle distinctive formé pour toutes les tâches plutôt que sur différents modèles pour différentes tâches et modalités. Apprendre à maîtriser Area Invaders n’interfère pas avec ou ne déplace pas la capacité de mener une dialog par chat.
Gato était destiné à « tester l’hypothèse qu’il est doable de former un agent généralement succesful sur un grand nombre de tâches ; et que cet agent général peut être adapté avec peu de données supplémentaires pour réussir un nombre encore plus grand de tâches. En cela, il a réussi. Mais jusqu’où ce succès peut-il être généralisé en termes d’ambitions plus élevées ? Le tweeter qui a provoqué une imprecise de réponses (celle-ci incluse) est venue du directeur de recherche de DeepMind, Nando de Freitas : « Tout est query d’échelle maintenant ! Le jeu est terminé! »
Le jeu en query est la quête de l’IAG, qui est plus proche de ce que la science-fiction et le grand public considèrent comme l’IA que les approches statistiques plus étroites mais appliquées, axées sur les tâches, qui constituent l’apprentissage automatique (ML) industrial dans la pratique.
L’affirmation est que l’AGI est maintenant simplement une query d’amélioration des performances, à la fois matérielles et logicielles, et de rendre les modèles plus grands, en utilisant plus de données et plus de varieties de données dans plus de modes. Bien sûr, il y a travail de recherche à faire, mais maintenant il s’agit de tourner les cadrans jusqu’à 11 et au-delà et, voilà, nous aurons escaladé la face nord de l’AGI pour planter un drapeau au sommet.
Il est facile de s’essouffler en altitude.
Lorsque nous examinons d’autres systèmes et échelles, il est facile d’être attiré par des similitudes superficielles dans le petit et de les projeter dans le grand. Par exemple, si nous regardons l’eau tourbillonner dans une bonde puis dans le cosmos au niveau des galaxies spirales, nous voyons une construction similaire. Mais ces spirales sont plus étroitement liées dans notre désir de voir la connexion qu’elles ne le sont en physique. En envisageant de faire évoluer une IA spécifique vers l’AGI, il est facile de se concentrer sur les tâches en tant qu’unité de base de l’intelligence et de la capacité. Ce que nous savons des systèmes d’intelligence et d’apprentissage dans la nature, cependant, suggère que les relations entre les tâches, l’intelligence, les systèmes et l’adaptation sont plus complexes et plus subtiles. La easy augmentation d’une dimension de la capacité peut simplement augmenter une dimension de la capacité sans déclencher une généralisation émergente.
Si nous examinons de près les logiciels, la société, la physique ou la vie, nous constatons que la mise à l’échelle s’accompagne généralement de changements fondamentaux dans le principe et le processus d’organisation. Chaque mise à l’échelle d’une approche existante est réussie jusqu’à un sure level, au-delà duquel une approche différente est nécessaire. Vous pouvez gérer une petite entreprise à l’aide d’outils bureautiques, tels que des feuilles de calcul et une web page de médias sociaux. Atteindre l’échelle d’Amazon n’est pas une query de feuilles de calcul plus grandes et de plus de pages. Les grands systèmes ont des architectures et des propriétés radicalement différentes des systèmes plus petits à partir desquels ils sont construits ou des systèmes plus simples qui les ont précédés.
Il se peut que l’intelligence artificielle générale soit un défi bien plus vital que de prendre des modèles basés sur des tâches et d’augmenter les données, la vitesse et le nombre de tâches. Nous sous-estimons généralement la complexité de ces systèmes. Nous divisons et simplifions, progressons en conséquence, seulement pour découvrir, à mesure que nous poussons, que la simplification n’était que cela; un nouveau modèle, paradigme, structure ou calendrier est nécessaire pour progresser davantage. Rincer et répéter. Autrement dit, juste parce que vous êtes arrivé au camp de base, qu’est-ce qui vous fait penser que vous pouvez faire le sommet en utilisant la même approche ? Et si vous ne pouvez pas voir le sommet ? Si vous ne savez pas ce que vous visez, il est difficile de tracer une voie vers celui-ci.
Au lieu de supposer la réponse, nous devons demander : Remark définissons-nous AGI? L’AGI est-elle simplement une IA basée sur les tâches pour N tâches et une valeur suffisamment grande de N ? Et même si la réponse à cette query est Oui, le chemin vers l’AGI est-il nécessairement centré sur les tâches ? Quelle half d’AGI représente la efficiency ? Quelle half d’AGI représente les données les plus volumineuses/les plus volumineuses/les plus volumineuses ?
Lorsque nous examinons la vie et les systèmes d’apprentissage existants, nous apprenons que l’échelle compte, mais pas dans le sens suggéré par un easy multiplicateur. Il se pourrait bien que l’astuce pour casser l’AGI se trouve dans la mise à l’échelle, mais vers le bas plutôt que vers le haut.
Faire plus avec moins semble être plus vital que faire plus avec plus. Par exemple, le modèle de langage GPT-3 est basé sur un réseau de 175 milliards de paramètres. La première model de DALL-E, le générateur d’photos basé sur des invitations, utilisait une model à 12 milliards de paramètres de GPT-3 ; la seconde model améliorée n’utilisait que 3,5 milliards de paramètres. Et puis il y a Gato, qui réalise ses capacités multitâches et multimodales avec seulement 1,2 milliard.
Ces réductions indiquent la path, mais il n’est pas clair que Gato, GPT-3 ou toute autre structure contemporaine soit nécessairement le bon véhicule pour atteindre la vacation spot. Par exemple, combien d’exemples de formation faut-il pour apprendre quelque selected ? Pour les systèmes biologiques, la réponse est, en général, pas beaucoup ; pour l’apprentissage automatique, la réponse est, en général, très nombreuse. GPT-3, par exemple, a développé son modèle de langage basé sur 45 To de texte. Au cours d’une vie, un être humain lit et entend de l’ordre d’un milliard de mots ; un enfant est exposé à environ dix thousands and thousands avant de commencer à parler. Les moustiques peuvent apprendre à éviter un pesticide particulier après une exposition distinctive non létale. Lorsque vous apprenez un nouveau jeu, qu’il s’agisse d’une vidéo, d’un sport, d’un plateau ou d’une carte, il vous suffit généralement de connaître les règles, puis de jouer, peut-être avec un jeu ou deux pour la pratique et la clarification des règles, pour en faire un essai raisonnable. La maîtrise, bien sûr, demande beaucoup plus de pratique et de dévouement, mais l’intelligence générale n’est pas une query de maîtrise.
Et quand on regarde le matériel et ses besoins, considérez que si le cerveau est l’un des organes les plus gourmands en énergie du corps humain, il a encore une consommation électrique modeste de environ 12 watts. Au cours d’une vie, le cerveau consommera jusqu’à 10 MWh ; la formation du modèle de langage GPT-3 a pris environ 1 GWh.
Lorsque nous parlons de mise à l’échelle, le jeu ne fait que commencer.
Bien que le matériel et les données soient importants, les architectures et les processus qui prennent en cost l’intelligence générale peuvent être nécessairement très différents des architectures et des processus qui sous-tendent les systèmes ML actuels. Lancer du matériel plus rapide et toutes les données du monde sur le problème est prone de voir des rendements décroissants, bien que cela puisse bien nous permettre d’escalader un fake sommet à partir duquel nous pouvons voir le vrai.