Nous clarifions remark le comportement de ChatGPT est façonné et nos plans pour améliorer ce comportement, permettre une plus grande personnalisation des utilisateurs et obtenir plus de commentaires du public dans notre prise de décision dans ces domaines.
OpenAI mission est de faire en sorte que l’intelligence générale artificielle (IAG) profite à toute l’humanité. Nous réfléchissons donc beaucoup au comportement des systèmes d’IA que nous construisons dans la perspective de l’AGI, et à la manière dont ce comportement est déterminé.
Depuis notre lancement de ChatGPT, les utilisateurs ont partagé des contenus qu’ils considèrent politiquement biaisés, offensants ou autrement répréhensibles. Dans de nombreux cas, nous pensons que les inquiétudes soulevées ont été fondées et ont révélé de réelles limites de nos systèmes auxquelles nous voulons remédier. Nous avons également constaté quelques idées fausses sur la façon dont nos systèmes et politiques fonctionnent ensemble pour façonner les résultats que vous obtenez de ChatGPT.
Ci-dessous, nous résumons :
- Remark le comportement de ChatGPT est façonné ;
- Remark nous prévoyons d’améliorer le comportement par défaut de ChatGPT ;
- Notre intention de permettre une plus grande personnalisation du système ; et
- Nos efforts pour obtenir plus de commentaires du public sur notre prise de décision.
Où nous en sommes aujourd’hui
Contrairement aux logiciels ordinaires, nos modèles sont des réseaux de neurones massifs. Leurs comportements sont appris à partir d’un massive éventail de données, non programmés explicitement. Bien qu’il ne s’agisse pas d’une analogie parfaite, le processus ressemble davantage à l’entraînement d’un chien qu’à une programmation ordinaire. Une part initiale de « pré-formation » vient en premier, au cours de laquelle le modèle apprend à prédire le mot suivant dans une phrase, informé par son exposition à de nombreux textes Web (et à un vaste éventail de views). Ceci est suivi d’une deuxième part dans laquelle nous « affinons » nos modèles pour affiner le comportement du système.
À ce jour, ce processus est imparfait. Parfois, le processus de réglage fin ne correspond pas à notre intention (produire un outil sûr et utile) et à l’intention de l’utilisateur (obtenir une sortie utile en réponse à une entrée donnée). Améliorer nos méthodes pour aligner les systèmes d’IA sur les valeurs humaines est une priorité priorité pour notre entreprise, en particulier à mesure que les systèmes d’IA deviennent plus performants.
Un processus en deux étapes : pré-formation et mise au level
Les deux étapes principales impliquées dans la development de ChatGPT fonctionnent comme swimsuit :
- Premièrement, nous « pré-train” modèles en leur faisant prédire ce qui vient ensuite dans un grand ensemble de données qui contient des events d’Web. Ils pourraient apprendre à compléter la phrase « au lieu de tourner à gauche, elle a tourné ___ ». En apprenant à partir de milliards de phrases, nos modèles apprennent la grammaire, de nombreux faits sur le monde et certaines capacités de raisonnement. Ils apprennent également certains des préjugés présents dans ces milliards de phrases.
- Ensuite nous « affiner” ces modèles sur un ensemble de données plus restreint que nous générons avec soin avec des examinateurs humains qui suivent les directives que nous leur fournissons. Étant donné que nous ne pouvons pas prédire toutes les entrées possibles que les futurs utilisateurs pourraient mettre dans notre système, nous n’écrivons pas d’directions détaillées pour chaque entrée que ChatGPT rencontrera. Au lieu de cela, nous décrivons quelques catégories dans les lignes directrices que nos examinateurs utilisent pour examiner et évaluer les sorties de modèles possibles pour une gamme d’exemples d’entrées. Ensuite, pendant leur utilisation, les modèles généralisent à partir de ces commentaires de l’examinateur afin de répondre à un massive éventail d’entrées spécifiques fournies par un utilisateur donné.
Le rôle des examinateurs et les politiques d’OpenAI dans le développement du système
Dans certains cas, nous pouvons donner des conseils à nos examinateurs sur un sure kind de sortie (par exemple, « ne répondez pas aux demandes de contenu illégal »). Dans d’autres cas, les conseils que nous partageons avec les examinateurs sont de niveau plus élevé (par exemple, « éviter de prendre place sur des sujets controversés »). Il est vital de noter que notre collaboration avec les réviseurs n’est pas distinctive, c’est une relation proceed, dans laquelle nous apprenons beaucoup de leur experience.
Une grande partie du processus de mise au level consiste à maintenir une boucle de rétroaction solide avec nos examinateurs, ce qui implique des réunions hebdomadaires pour répondre aux questions qu’ils pourraient avoir ou fournir des éclaircissements sur nos conseils. Ce processus de rétroaction itératif est la façon dont nous formons le modèle pour qu’il soit de mieux en mieux au fil du temps.
Lutter contre les préjugés
Beaucoup s’inquiètent à juste titre des biais dans la conception et l’affect des systèmes d’IA. Nous nous engageons à résoudre ce problème avec fermeté et à être transparents sur nos intentions et nos progrès. À cette fin, nous partageons une partie de nos lignes directrices qui se rapportent à des sujets politiques et controversés. Nos directives stipulent clairement que les examinateurs ne doivent favoriser aucun groupe politique. Les biais qui peuvent néanmoins émerger du processus décrit ci-dessus sont des bogues, pas des fonctionnalités.
Bien que des désaccords existeront toujours, nous espérons que le partage de cet article de weblog et de ces directions vous donnera un meilleur aperçu de la façon dont nous percevons cet side critique d’une technologie aussi fondamentale. Nous sommes convaincus que les entreprises technologiques doivent être responsables de l’élaboration de politiques qui résistent à l’examen.
Nous nous efforçons en permanence d’améliorer la clarté de ces consignes. Sur la base de ce que nous avons appris du lancement de ChatGPT jusqu’à présent, nous allons fournir des directions plus claires aux examinateurs concernant les pièges et les défis potentiels liés aux biais, ainsi que personnages et thèmes controversés. De plus, dans le cadre d’initiatives de transparence en cours, nous nous efforçons de partager des informations démographiques agrégées sur nos examinateurs d’une manière qui ne viole pas les règles et normes de confidentialité, automobile il s’agit d’une supply supplémentaire de biais potentiel dans les sorties du système.
Nous recherchons actuellement remark fabriquer processus de mise au level plus compréhensibles et contrôlables, et s’appuient sur des avancées externes telles que récompenses basées sur des règles et IA constitutionnelle.
Où nous allons : les éléments constitutifs des futurs systèmes
Dans la poursuite de notre mission, nous nous engageons à faire en sorte que l’accès, les avantages et l’affect sur l’IA et l’IAG soient généralisés. Nous pensons qu’il existe au moins trois éléments de base nécessaires pour atteindre ces objectifs dans le contexte du comportement du système d’IA.
1. Améliorer le comportement par défaut. Nous voulons que le plus grand nombre attainable d’utilisateurs trouvent nos systèmes d’IA utiles « prêts à l’emploi » et aient le sentiment que notre technologie comprend et respecte leurs valeurs.
À cette fin, nous investissons dans la recherche et l’ingénierie pour réduire les biais flagrants et subtils dans la façon dont ChatGPT répond aux différentes entrées. Dans certains cas, ChatGPT refuse actuellement des sorties qu’il ne devrait pas, et dans certains cas, il ne refuse pas quand il le devrait. Nous croyons que des améliorations à ces deux égards sont possibles.
De plus, nous avons des marges d’amélioration dans d’autres dimensions du comportement du système, telles que le système qui « invente des choses ». Les commentaires des utilisateurs sont inestimables pour apporter ces améliorations.
2. Définissez les valeurs de votre IA, dans de larges limites. Nous pensons que l’IA doit être un outil utile pour les individus, et donc personnalisable par chaque utilisateur jusqu’aux limites définies par la société. Par conséquent, nous développons une mise à niveau vers ChatGPT pour permettre aux utilisateurs de personnaliser facilement son comportement.
Cela signifiera autoriser les sorties du système avec lesquelles d’autres personnes (y compris nous-mêmes) peuvent être fortement en désaccord. Trouver le bon équilibre ici sera difficile – pousser la personnalisation à l’extrême risquerait de permettre utilisations malveillantes de notre technologie et des IA sycophantiques qui amplifient sans réfléchir les croyances existantes des gens.
Il y aura donc toujours des limites au comportement du système. Le défi consiste à définir quelles sont ces limites. Si nous essayons de prendre toutes ces décisions par nous-mêmes, ou si nous essayons de développer un seul système d’IA monolithique, nous manquerons à l’engagement que nous prenons dans notre Charte d' »éviter une focus extreme du pouvoir ».
3. Contribution publique sur les valeurs par défaut et les limites strictes. Une façon d’éviter une focus extreme du pouvoir est de donner aux personnes qui utilisent ou sont affectées par des systèmes comme ChatGPT la possibilité d’influencer les règles de ces systèmes.
Nous pensons que de nombreuses décisions concernant nos valeurs par défaut et nos limites strictes doivent être prises collectivement, et bien que la mise en œuvre pratique soit un défi, nous visons à inclure autant de views que attainable. Comme level de départ, nous avons recherché des commentaires externes sur notre technologie sous la forme de équipe rouge. Nous avons également commencé récemment solliciter la contribution du public sur l’IA dans l’éducation (un contexte particulièrement vital dans lequel notre technologie est déployée).
Nous en sommes aux premiers stades des efforts pilotes pour solliciter les commentaires du public sur des sujets tels que le comportement du système, les mécanismes de divulgation (tels que le filigrane) et nos politiques de déploiement plus largement. Nous explorons également des partenariats avec des organisations externes pour mener des audits tiers de nos efforts en matière de sécurité et de politique.
Conclusion
La combinaison des trois blocs de development ci-dessus donne l’picture suivante de l’endroit où nous nous dirigeons :
Parfois, nous ferons des erreurs. Lorsque nous le ferons, nous apprendrons d’eux et répéter sur nos modèles et systèmes.
Nous apprécions la communauté d’utilisateurs de ChatGPT ainsi que la vigilance du grand public pour nous tenir responsables, et nous sommes ravis de partager davantage sur notre travail dans les trois domaines ci-dessus dans les mois à venir.
Si vous souhaitez effectuer des recherches pour aider à réaliser cette imaginative and prescient, y compris, mais sans s’y limiter, des recherches sur l’équité et la représentation, l’alignement et la recherche sociotechnique pour comprendre l’affect de l’IA sur la société, veuillez demander un accès subventionné à notre API through le Programme d’accès des chercheurs.
Nous sommes aussi embauche pour des postes dans les domaines de la recherche, de l’alignement, de l’ingénierie, and so forth.