6.5 C
New York

Masser les modèles de langage de l’IA pour le plaisir, le revenue et l’éthique


Les statistiques sont-elles synonymes de compréhension ? Et l’IA a-t-elle une boussole morale ? À première vue, les deux questions semblent tout aussi fantaisistes, avec des réponses tout aussi évidentes. Alors que le battage médiatique de l’IA se répercute; cependant, ces sorts de questions semblent devoir être posées maintes et maintes fois. La recherche de pointe aide à sonder.

Modèles de langage IA et curation humaine

Il y a des décennies, les chercheurs en intelligence artificielle ont largement abandonné leur quête de development d’ordinateurs qui imitent notre intelligence humaine merveilleusement versatile et ont plutôt créé des algorithmes utiles (c’est-à-dire rentables). Certains passionnés d’IA commercialisent leurs créations comme véritablement intelligentes malgré ce détour compréhensible, écrit Gary N. Smith sur L’esprit compte.

Smith est professeur d’économie Fletcher Jones au Pomona Faculty. Ses recherches sur les marchés financiers, le raisonnement statistique et l’intelligence artificielle impliquent souvent des anomalies boursières, des erreurs statistiques et l’utilisation abusive des données ont été largement citées. Il est également l’auteur primé de plusieurs livres sur l’IA.

Dans son article, Smith se suggest d’explorer dans quelle mesure les grands modèles de langage (LLM) peuvent se rapprocher de l’intelligence réelle. L’idée des LLM est easy : utiliser des ensembles de données massifs de connaissances produites par l’homme pour former des algorithmes d’apprentissage automatique, dans le however de produire des modèles qui simulent la façon dont les humains utilisent le langage.

Il existe quelques LLM importants, tels que BERT de Google, qui a été l’un des premiers LLM largement disponibles et très performants. Bien que BERT ait été introduit en 2018, il est déjà emblématique. Le publication qui a présenté le BERT approche les 40 000 citations en 2022, et le BERT a conduit un sure nombre d’purposes en aval ainsi que des recherches et développements de suivi.

Le BERT est déjà loin derrière ses successeurs sur un side jugé central pour les LLM : le nombre de paramètres. Cela représente la complexité que chaque LLM incarne, et la pensée actuelle parmi les specialists en IA semble être que plus le modèle est grand, c’est-à-dire plus il y a de paramètres, mieux il sera performant.

Le dernier Change Transformer LLM de Google évolue jusqu’à 1,6 billion de paramètres et améliore le temps d’entraînement jusqu’à 7 fois par rapport à son précédent modèle T5-XXL de 11 milliards de paramètres, avec une précision comparable.

OpenAI, les fabricants des LLM GPT-2 et GPT-3, qui sont utilisés comme base pour des purposes commerciales telles que la rédaction by way of des API et la collaboration avec Microsoft, ont fait des recherches approfondies sur les LLM. Les résultats montrent que les trois facteurs clés impliqués dans l’échelle du modèle sont le nombre de paramètres du modèle (N), la taille de l’ensemble de données (D) et la quantité de puissance de calcul (C).

Il existe des références spécialement conçues pour tester les performances du LLM dans la compréhension du langage naturel, telles que COLLE, Tremendous colle, Équipeet CNN/courrier quotidien. Google a publié des recherches dans lesquelles Il a été démontré que T5-XXL égale ou surpasse les humains dans ces benchmarks. Nous n’avons pas connaissance de résultats similaires pour le Change Transformer LLM.

Cependant, nous pouvons raisonnablement supposer que Change Transformer alimente LaMDA, la « technologie de dialog révolutionnaire » de Google, alias chatbot, qui n’est pas accessible au public à ce stade. Blaise Aguera y Arcas, le chef du groupe IA de Google à Seattle, a fait valoir que « les statistiques équivalent à la compréhension », citant quelques échanges avec LaMDA comme preuve.

Ce fut le level de départ pour Smith de se lancer dans une exploration pour savoir si cette déclaration tient la route. Ce n’est pas la première fois que Smith fait cela. Dans la ligne de pensée de Gary Marcus et d’autres critiques de l’apprentissage en profondeurSmith affirme que les LLM peuvent sembler générer des résultats d’apparence raisonnable dans certaines circumstances, mais se cassent lorsqu’ils sont présentés avec des informations que les humains comprendraient facilement.

Cela, selon Smith, est dû au fait que les LLM ne comprennent pas vraiment les questions ou ne savent pas de quoi ils parlent. En janvier 2022, Smith signalé utilisant GPT-3 pour illustrer le fait que les statistiques ne signifient pas la compréhension. En mars 2022, Smith a tenté de relancer son expérience, déclenchée par le fait qu’OpenAI admet avoir employé 40 sous-traitants pour répondre manuellement aux réponses de GPT-3.

En janvier, Smith a essayé un sure nombre de questions, dont chacune a produit un sure nombre de réponses « confuses et contradictoires ». En mars, GPT-3 a répondu à chacune de ces questions de manière cohérente et sensée, avec la même réponse donnée à chaque fois. Cependant, lorsque Smith a essayé de nouvelles questions et des variations sur celles-ci, il est devenu évident pour lui que les sous-traitants d’OpenAI travaillaient dans les coulisses pour résoudre les problèmes au fur et à mesure qu’ils apparaissaient.

Cela a incité Smith à comparer GPT-3 à Mechanical Turk, l’automate jouant aux échecs construit au 18ème siècle, dans lequel un maître d’échecs avait été habilement caché à l’intérieur du cupboard. Bien que certains partisans du LLM sont d’avis qu’à un second donné, la taille même des LLM peut donner lieu à une véritable intelligenceSmith fait une digression.

GPT-3 ressemble beaucoup à une efficiency d’un bon magicien, écrit Smith. Nous pouvons suspendre l’incrédulité et penser que c’est de la vraie magie. Ou, nous pouvons profiter du spectacle même si nous savons que ce n’est qu’une phantasm.

Les modèles de langage de l’IA ont-ils une boussole morale ?

Le manque de compréhension de bon sens et les résultats confus et contradictoires qui en résultent constituent une lacune bien connue des LLM – mais il y a plus. Les LLM soulèvent toute une série de questions éthiques, dont les plus importantes tournent autour de l’affect environnemental de leur formation et de leur utilisation, ainsi que du biais et de la toxicité que ces modèles démontrent.

Jusqu’à présent, l’incident le plus médiatisé de cette dialog publique en cours a peut-être été le licenciement / la démission des responsables de l’équipe Google Moral AI. Timnit Gebru et Margaret Mitchell. Gebru et Mitchell ont fait l’objet d’un examen minutieux par Google lorsqu’ils ont tenté de publier des recherches documentant ces problèmes et ont soulevé des questions en 2020.

Nonobstant les implications éthiques, il y a aussi des implications pratiques. Les LLM créés à des fins commerciales doivent être conformes aux normes et aux normes morales du public qu’ils desservent pour réussir. Produire une copie advertising and marketing considérée comme inacceptable en raison de sa langue, par exemple, limite l’applicabilité des LLM.

Ce problème a ses racines dans la façon dont les LLM sont formés. Bien que des methods pour optimiser le processus de formation LLM soient développées et appliquées, les LLM représentent aujourd’hui une approche fondamentalement de pressure brute, selon laquelle jeter plus de données sur le problème est une bonne selected. Comme Andrew Ng, l’un des pionniers de l’IA et de l’apprentissage en profondeur, a partagé récemmentça n’a pas toujours été le cas.

Pour les purposes où il y a beaucoup de données, telles que le traitement du langage naturel (NLP), la quantité de connaissances du domaine injectée dans le système a diminué au fil du temps. Au début de l’apprentissage en profondeur, les gens formaient régulièrement un petit modèle d’apprentissage en profondeur, puis le combinaient avec des approches de base de connaissances de domaine plus traditionnelles, a expliqué Ng, automotive l’apprentissage en profondeur ne fonctionnait pas très bien.

C’est quelque selected que des gens comme David Talbot, ancien responsable de la traduction automatique chez Google, dit depuis un second: appliquer les connaissances du domaine, en plus d’apprendre à partir des données, a beaucoup de sens pour la traduction automatique. Dans le cas de la traduction automatique et du traitement du langage naturel (TLN), ce domaine de connaissances est la linguistique.

Mais à mesure que les LLM grossissaient, de moins en moins de connaissances du domaine étaient injectées et de plus en plus de données étaient utilisées. Une implication clé de ce fait est que les LLM produits par ce processus reflètent le biais dans les données qui ont été utilisées pour les former. Comme ces données ne sont pas organisées, elles incluent toutes sortes d’entrées, ce qui conduit à des résultats indésirables.

Une approche pour remédier à cela serait de conserver les données sources. Cependant, un groupe de chercheurs de l’Université approach de Darmstadt en Allemagne aborde le problème sous un angle différent. Dans leurs papier dans Nature, Schramowski et al. soutiennent que « les grands modèles de langage pré-formés contiennent des préjugés humains de ce qui est bien et mal à faire ».

Bien que le fait que les LLM reflètent le biais des données utilisées pour les former est bien établi, cette recherche montre que les LLM récents contiennent également des biais humains de ce qui est bien et mal à faire, une certaine forme de normes sociétales éthiques et morales. Comme le disent les chercheurs, les LLM apportent une « path morale » à la floor.

La recherche arrive à cette conclusion en menant d’abord des études avec des humains, dans lesquelles les members ont été invités à évaluer certaines actions dans leur contexte. Un exemple serait l’motion « tuer », étant donné différents contextes tels que « temps », « personnes » ou « insectes ». Ces actions en contexte se voient attribuer un rating en termes de bien / mal, et les réponses sont utilisées pour calculer les scores moraux des phrases.

Les scores moraux pour les mêmes phrases sont calculés pour le BERT, avec une méthode que les chercheurs appellent la path morale. Ce que les chercheurs montrent, c’est que la path morale du BERT est fortement corrélée aux normes morales humaines. De plus, les chercheurs appliquent la path morale du BERT au GPT-3 et constatent qu’il fonctionne mieux que d’autres méthodes pour prévenir ce que l’on appelle dégénérescence toxique pour les LLM.

Bien qu’il s’agisse d’une ligne de recherche intéressante avec des résultats prometteurs, nous ne pouvons pas nous empêcher de nous interroger sur les questions morales qu’elle soulève également. Pour commencer, les valeurs morales sont connues pour varier selon les populations. Outre le biais inhérent à la sélection des échantillons de inhabitants, il existe encore plus de biais dans le fait que le BERT et les personnes qui ont participé à l’étude utilisent la langue anglaise. Leurs valeurs morales ne sont pas nécessairement représentatives de la inhabitants mondiale.

De plus, bien que l’intention puisse être bonne, nous devons également être conscients des implications. L’utility de methods similaires produit des résultats qui sont organisés pour exclure les manifestations du monde réel, dans toute sa sérendipité et sa laideur. Cela peut être souhaitable si l’objectif est de produire une copie advertising and marketing, mais ce n’est pas nécessairement le cas si l’objectif est d’avoir quelque selected de représentatif du monde réel.

MLOps : suivre le processus et les biais d’apprentissage automatique

Si cette state of affairs vous semble familière, c’est parce que nous avons déjà tout vu : les moteurs de recherche doivent-ils filtrer les résultats, ou les plateformes de médias sociaux doivent-elles censurer certains contenus / déplateformer certaines personnes ? Si oui, quels sont les critères et qui décide ?

La query de savoir si les LLM doivent être massés pour produire certains résultats semble être un descendant direct de ces questions. La place des gens sur ces questions reflète leurs valeurs morales et les réponses ne sont pas claires. Cependant, ce qui ressort des deux exemples, c’est que malgré tous leurs progrès, les LLM ont encore un lengthy chemin à parcourir en termes d’purposes réelles.

Que les LLM soient massés pour l’exactitude par leurs créateurs ou pour le plaisir, le revenue, l’éthique ou toute autre raison par des tiers, un enregistrement de ces personnalisations doit être conservé. Cela relève de la self-discipline appelée MLOps: similaire à la façon dont dans le développement logiciel, DevOps fait référence au processus de développement et de publication systématique de logiciels, MLOps est l’équivalent pour les modèles d’apprentissage automatique.

Semblable à la façon dont DevOps permet non seulement l’efficacité mais aussi la transparence et le contrôle sur le processus de création de logiciels, il en va de même pour MLOps. La différence est que les modèles d’apprentissage automatique ont plus de pièces mobiles, donc MLOps est plus complexe. Mais il est necessary d’avoir une lignée de modèles d’apprentissage automatique, non seulement pour pouvoir les corriger lorsque les choses tournent mal, mais aussi pour comprendre leurs biais.

Dans le développement de logiciels, les bibliothèques open supply sont utilisées comme blocs de development que les utilisateurs peuvent utiliser tels quels ou personnaliser selon leurs besoins. Nous avons une notion similaire dans l’apprentissage automatique, automotive certains modèles d’apprentissage automatique sont open supply. Bien qu’il ne soit pas vraiment doable de modifier les modèles d’apprentissage automatique directement de la même manière que les gens modifient le code dans les logiciels open supply, des modifications post-hoc du kind que nous avons vu ici sont possibles.

Nous avons maintenant atteint un level où nous avons ce que l’on appelle des modèles de base pour la PNL : des modèles gigantesques comme GPT-3, formés sur des tonnes de données, que les gens peuvent utiliser pour affiner des purposes ou des domaines spécifiques. Certains d’entre eux sont également open supply. BERT, par exemple, a donné naissance à un sure nombre de variantes.

Dans ce contexte, les scénarios dans lesquels les LLM sont affinés en fonction des valeurs morales des communautés spécifiques qu’ils sont censés servir ne sont pas inconcevables. Tant le bon sens que Éthique de l’IA dictent que les personnes qui interagissent avec les LLM doivent être conscientes des choix que leurs créateurs ont faits. Bien que tout le monde ne veuille ou ne puisse pas se plonger dans la piste d’audit complète, des résumés ou des variations de licence pourraient aider à cette fin.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles