De nombreuses langues parlées dans le monde couvrent de nombreuses variétés régionales (parfois appelées dialectes), telles que brésilien et européen portugais ou Continent et Taïwan Chinois Mandarin. Bien que ces variétés soient souvent mutuellement intelligibles pour leurs locuteurs, il existe encore des différences importantes. Par exemple, le mot portugais brésilien pour « bus » est ônibustandis que le mot portugais européen est autocarro. Pourtant, aujourd’hui traduction automatique Les systèmes (MT) ne permettent généralement pas aux utilisateurs de spécifier dans quelle variété de langue traduire. Cela peut prêter à confusion si le système produit la « mauvaise » variété ou mélange des variétés de manière non naturelle. En outre, les systèmes de traduction automatique qui ne connaissent pas la région ont tendance à favoriser la variété pour laquelle le plus de données sont disponibles en ligne, ce qui affecte de manière disproportionnée les locuteurs de variétés linguistiques sous-financées.
Dans « FRMT : une référence pour la traduction automatique prenant en compte les régions”, accepté pour publication dans Transactions de l’Affiliation for Computational Linguisticsnous présentons une ensemble de données d’évaluation utilisé pour mesurer la capacité des systèmes de MT à prendre en cost les variétés régionales à travers une étude de cas sur le portugais brésilien par rapport au portugais européen et le chinois continental par rapport au chinois mandarin de Taiwan. Avec la publication des données FRMT et du code d’évaluation qui l’accompagne, nous espérons inspirer et permettre à la communauté des chercheurs de découvrir de nouvelles façons de créer des systèmes de traduction automatique applicables au grand nombre de variétés de langues régionales parlées dans le monde.
Défi : généralisation en quelques prises de vue
La plupart des systèmes de traduction automatique modernes sont formés sur des thousands and thousands ou des milliards d’exemples de traduction, comme une phrase d’entrée en anglais et sa traduction portugaise correspondante. Cependant, la grande majorité des données de formation disponibles ne précisent pas dans quelle variété régionale se trouve la traduction. À la lumière de cette rareté des données, nous positionnons FRMT comme une référence pour peu de coups traduction, mesurant la capacité d’un modèle de traduction automatique à se traduire en variétés régionales lorsqu’on ne lui donne pas plus de 100 exemples étiquetés de chaque variété linguistique. Les modèles de traduction automatique doivent utiliser les modèles linguistiques présentés dans le petit nombre d’exemples étiquetés (appelés « exemplaires ») pour identifier des modèles similaires dans leurs exemples de formation non étiquetés. De cette façon, les modèles peuvent généraliserproduisant des traductions correctes de phénomènes non explicitement montrés dans les exemplaires.
![]() |
Une illustration d’un système MT à quelques plans traduisant la phrase anglaise « Le bus est arrivé » en deux variétés régionales de portugais : le brésilien (🇧🇷; gauche) et européenne (🇵🇹; droite). |
Les approches peu nombreuses de la MT sont attrayantes automobile elles facilitent beaucoup l’ajout de la prise en cost de variétés régionales supplémentaires à un système existant. Bien que notre travail soit spécifique aux variétés régionales de deux langues, nous prévoyons que les méthodes qui fonctionnent bien seront facilement applicables à d’autres langues et variétés régionales. En principe, ces méthodes devraient également fonctionner pour d’autres distinctions linguistiques, telles que la formalité et le fashion.
Collecte de données
L’ensemble de données FRMT se compose d’articles partiels de Wikipédia en anglais, provenant du Wiki40b ensemble de données, qui ont été traduits par des traducteurs professionnels rémunérés dans différentes variétés régionales de portugais et de mandarin. Afin de mettre en évidence les principaux défis de la traduction smart à la région, nous avons conçu l’ensemble de données à l’aide de trois compartiments de contenu : (1) lexical, (2) entité et (3) aléatoire.
- Le seau lexical se concentre sur les différences régionales dans le choix des mots, telles que le « ônibus » contre. « autocarro » distinction lors de la traduction d’une phrase avec le mot « bus” en portugais brésilien contre portugais européen, respectivement. Nous avons collecté manuellement 20 à 30 termes qui ont des traductions régionales distinctes selon les blogs et les websites Internet éducatifs, et avons filtré et vérifié les traductions avec les commentaires des locuteurs natifs bénévoles de chaque région. Compte tenu de la liste de termes anglais qui en résulte, nous avons extrait des textes contenant jusqu’à 100 phrases chacun des articles de Wikipédia en anglais associés (par exemple, bus). Le même processus a été effectué indépendamment pour le mandarin.
- Le bucket Entity se remplit de manière similaire et concerne des personnes, des lieux ou d’autres entités fortement associées à l’une des deux régions en query pour une langue donnée. Considérez une phrase illustrative comme « À Lisbonne, je prenais souvent le bus ». Afin de traduire cela correctement en portugais brésilien, un modèle doit surmonter deux écueils potentiels :
- La forte affiliation géographique entre Lisbonne et le Portugal pourrait influencer un modèle pour générer un européen Traduction portugaise à la place, par exemple, en sélectionnant « autocarro » plutôt que « ônibus« .
- Remplacer « Lisbonne » avec « Brasilia » pourrait être une manière naïve pour un modèle de localiser sa sortie vers le portugais brésilien, mais serait sémantiquement inexacte, même dans une traduction par ailleurs fluide.
- Le seau aléatoire est utilisé pour vérifier qu’un modèle gère correctement d’autres phénomènes divers, et se compose de texte de 100 articles échantillonnés au hasard à partir de « mis en exergue » et « bien” collections.
Méthodologie d’évaluation
Pour vérifier que les traductions collectées pour l’ensemble de données FRMT capturent des phénomènes spécifiques à la région, nous avons procédé à une évaluation humaine de leur qualité. Des annotateurs specialists de chaque région ont utilisé le Indicateurs de qualité multidimensionnels (MQM) pour identifier et catégoriser les erreurs dans les traductions. Le cadre comprend un schéma de pondération par catégorie pour convertir les erreurs identifiées en un rating distinctive qui représente approximativement le nombre d’erreurs majeures par phrase ; donc un nombre inférieur indique une meilleure traduction. Pour chaque région, nous avons demandé aux évaluateurs MQM de noter à la fois les traductions de leur région et les traductions de l’autre région de leur langue. Par exemple, les évaluateurs en portugais brésilien ont noté à la fois les traductions en portugais brésilien et en portugais européen. La différence entre ces deux scores indique la prévalence de phénomènes linguistiques acceptables dans une variété mais pas dans l’autre. Nous avons constaté qu’en portugais et en chinois, les évaluateurs ont identifié, en moyenne, environ deux erreurs majeures de plus par phrase dans les traductions non concordantes que dans celles qui correspondent. Cela indique que notre ensemble de données seize vraiment les phénomènes spécifiques à la région.
Bien que l’évaluation humaine soit le meilleur moyen de s’assurer de la qualité du modèle, elle est souvent lente et coûteuse. Nous avons donc voulu trouver une métrique automatique existante que les chercheurs puissent utiliser pour évaluer leurs modèles sur notre benchmark, et avons considéré chrF, BLEUet BLEURT. En utilisant les traductions de quelques modèles de base qui ont également été évalués par nos évaluateurs MQM, nous avons découvert que BLEURT a la meilleure corrélation avec les jugements humains, et que la drive de cette corrélation (0,65 Coefficient de corrélation de Pearson, ρ) est comparable à la cohérence inter-annotateurs (corrélation intraclasse de 0,70).
Métrique | ρ de Pearson | ||
chrF | 0,48 | ||
BLEU | 0,58 | ||
BLEURT | 0,65 |
Corrélation entre différentes métriques automatiques et jugements humains de la qualité de la traduction sur un sous-ensemble de FRMT. Les valeurs sont contains entre -1 et 1 ; plus c’est mieux. |
La efficiency du système
Notre évaluation a couvert une poignée de modèles récents capables de contrôler quelques coups. Sur la base d’une évaluation humaine avec MQM, les méthodes de base ont toutes montré une certaine capacité à localiser leur sortie pour le portugais, mais pour le mandarin, elles n’ont généralement pas réussi à utiliser la connaissance de la région ciblée pour produire des traductions continentales ou taïwanaises supérieures.
Le récent modèle linguistique de Google, Palmier, a obtenu la meilleure notice globale parmi les lignes de base que nous avons évaluées. Afin de produire des traductions ciblées par région avec PaLM, nous introduisons une invite instructive dans le modèle, puis générons du texte à partir de celui-ci pour remplir le blanc (voir l’exemple ci-dessous).
Translate the next texts from English to European Portuguese. English: (English instance 1). European Portuguese: (appropriate translation 1). ... English: (enter). European Portuguese: _____"
PaLM a obtenu de bons résultats en utilisant un seul exemple, et a eu des positive factors de qualité marginaux sur le portugais en passant à dix exemples. Cette efficiency est impressionnante compte tenu du fait que PaLM a été formé de manière non supervisée. Nos résultats suggèrent également que des modèles de langage comme PaLM peuvent être particulièrement aptes à mémoriser des choix de mots spécifiques à une région requis pour une traduction fluide. Cependant, il existe toujours un écart de efficiency essential entre la PaLM et la efficiency humaine. Voir notre papier pour plus de détails.
![]() |
![]() |
Performances MQM sur des buckets d’ensembles de données à l’aide de traductions humaines et PaLM. Les barres épaisses représentent le cas correspondant à la région, où les évaluateurs de chaque région évaluent les traductions ciblées sur leur propre région. Les barres minces en médaillon représentent le cas d’incompatibilité de région, où les évaluateurs de chaque région évaluent les traductions ciblées sur l’autre région. Les traductions humaines présentent des phénomènes régionaux dans tous les cas. Les traductions PaLM le font pour tous les buckets portugais et le bucket lexical mandarin uniquement. |
Conclusion
Dans un avenir proche, nous espérons voir un monde où les systèmes de génération de langage, en particulier la traduction automatique, pourront prendre en cost toutes les communautés de locuteurs. Nous voulons rencontrer les utilisateurs là où ils se trouvent, en générant un langage fluide et adapté à leur environnement native ou régional. À cette fin, nous avons publié le Jeu de données FRMT et référence, permettant aux chercheurs de comparer facilement les performances des modèles de traduction automatique prenant en compte la région. Validées par nos études approfondies d’évaluation humaine, les variétés linguistiques de FRMT présentent des différences significatives que les résultats des modèles de MT sensibles à la région devraient refléter. Nous sommes ravis de voir remark les chercheurs utilisent cette référence dans le développement de nouveaux modèles de traduction automatique qui prennent mieux en cost les variétés linguistiques sous-représentées et toutes les communautés de locuteurs, conduisant à une meilleure équité dans les applied sciences de langage naturel.
Remerciements
Nous tenons à remercier les co-auteurs de notre article pour toutes leurs contributions à ce projet : Timothy Dozat, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat et Noah Fixed. Pour une dialogue et des commentaires utiles sur le doc, nous remercions Jacob Eisenstein, Noah Fiedel, Macduff Hughes et Mingfei Lau. Pour des commentaires essentiels sur les différences linguistiques régionales spécifiques, nous remercions Andre Araujo, Chung-Ching Chang, Andreia Cunha, Filipe Gonçalves, Nuno Guerreiro, Mandy Guo, Luis Miranda, Vitor Rodrigues et Linting Xue. Pour le soutien logistique dans la collecte de traductions humaines et d’évaluations, nous remercions l’équipe de Google Traduction. Nous remercions les traducteurs professionnels et les évaluateurs MQM pour leur rôle dans la manufacturing de l’ensemble de données. Nous remercions également Tom Small pour avoir fourni l’animation dans ce submit.