
(Noé Besso/Shutterstock)
Meta a publié une assortment de modèles de langage de base appelée LLaMA, qui est l’abréviation de « Giant Language Mannequin Meta AI ».
« Aujourd’hui, nous publions un nouveau modèle de grand langage d’IA à la pointe de la technologie appelé LLaMA, conçu pour aider les chercheurs à faire avancer leurs travaux. Les LLM se sont révélés très prometteurs pour générer du texte, avoir des conversations, résumer des paperwork écrits et des tâches plus compliquées comme la résolution de théorèmes mathématiques ou la prédiction de buildings de protéines », a déclaré le PDG de Meta, Mark Zuckerberg, dans un Publication Fb. « Meta s’est engagé envers ce modèle de recherche ouvert et nous mettrons notre nouveau modèle à la disposition de la communauté de recherche en IA. »
LLaMA est un modèle de langage auto-régressif basé sur l’structure du transformateur et a été développé par l’équipe Basic AI Analysis (FAIR) de Meta. Il est 10 fois plus petit que ChatGPT et se décline en quatre tailles différentes : paramètres 7B, 13B, 33B et 65B. À titre de comparaison, GPT-3.5, le modèle sur lequel ChatGPT est basé, a été formé avec des paramètres 175B.
Meta a formé LLaMA sur des jetons, qui sont des morceaux de mots au lieu de mots complets, affirmant que cela rend les modèles plus faciles à recycler et à affiner pour des cas d’utilisation potentiels spécifiques : « Nous avons formé LLaMA 65B et LLaMA 33B sur 1,4 billion de jetons. Notre plus petit modèle, LLaMA 7B, est formé sur un billion de jetons. L’entreprise a choisi des textes parmi les 20 langues les plus parlées et s’est concentrée sur celles avec des alphabets latin et cyrillique.
Dans une entreprise article de weblogMeta dit que des modèles plus petits comme LLaMA peuvent permettre aux membres de la communauté de recherche qui n’ont pas accès à de grandes quantités d’infrastructures d’étudier ces modèles : et des ressources pour tester de nouvelles approches, valider le travail des autres et explorer de nouveaux cas d’utilisation.
Comme ChatGPT et Bard, LLaMA n’est pas exempt des problèmes qui affligent les LLM, notamment les hallucinations, les préjugés et la génération de contenu préjudiciable. Meta affirme que l’accès complet de la recherche à ces modèles reste limité en raison des contraintes de ressources, ce qui entrave les progrès dans leur compréhension et atténue ces problèmes connus.
LLaMA est publié sous une licence non commerciale axée sur les cas d’utilisation de la recherche, et l’accès sera accordé au cas par cas aux chercheurs universitaires, aux organisations civiles et gouvernementales et aux laboratoires de recherche de l’industrie, selon Meta.
Meta espère qu’en partageant le code de LLaMA, les chercheurs pourront tester de nouvelles approches pour limiter ces problèmes dans les LLM. Dans son doc de recherche, la société a fourni un ensemble d’évaluations sur des références évaluant les biais et la toxicité du modèle pour montrer les limites de LLaMA et soutenir de nouvelles recherches dans ce domaine.
La société a noté que ces modèles de base ont été formés sur un massive ensemble de données non étiquetées, ce qui les rend idéaux pour un réglage fin de différentes tâches. L’équipe FAIR a formé le modèle avec des données accessibles au public provenant de CCNet, C4, GitHub, Wikipedia, livres, ArXiv et Stack Change, 67 % des données totales provenant de CCNet.
Meta affirme que son modèle LLaMA 13B peut surpasser GPT-3 tout en s’exécutant sur un seul GPU lorsqu’il est mesuré sur des références telles que BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC et OpenBookQA, ce qui pourrait ouvrir la voie au développement d’purposes basées sur ce modèle. utiliser du matériel grand public à l’avenir.
« Nous pensons que l’ensemble de la communauté de l’IA (chercheurs universitaires, société civile, décideurs et industrie) doit travailler ensemble pour élaborer des lignes directrices claires concernant l’IA responsable en général et les grands modèles de langage responsables en particulier. Nous sommes impatients de voir ce que la communauté peut apprendre – et éventuellement construire – en utilisant LLaMA », a déclaré la société.
Téléchargez le doc de recherche sur ce lienet demander l’accès à LLaMA ici.
Articles connexes:
Vous aimez ChatGPT ? Vous n’avez encore rien vu
Meta publie un modèle d’IA qui traduit plus de 200 langues
Grands modèles de langage en 2023 : ça vaut le battage médiatique ?