De puissants modèles d’apprentissage automatique sont utilisés pour aider les gens à résoudre des problèmes difficiles tels que l’identification de maladies dans des pictures médicales ou la détection d’obstacles routiers pour les véhicules autonomes. Mais les modèles d’apprentissage automatique peuvent faire des erreurs, donc dans les environnements à enjeux élevés, il est essentiel que les humains sachent quand faire confiance aux prédictions d’un modèle.
La quantification de l’incertitude est un outil qui améliore la fiabilité d’un modèle ; le modèle produit un rating avec la prédiction qui exprime un niveau de confiance que la prédiction est correcte. Bien que la quantification de l’incertitude puisse être utile, les méthodes existantes nécessitent généralement de recycler l’ensemble du modèle pour lui donner cette capacité. La formation consiste à montrer à un modèle des hundreds of thousands d’exemples afin qu’il puisse apprendre une tâche. Le recyclage nécessite alors des hundreds of thousands de nouvelles entrées de données, qui peuvent être coûteuses et difficiles à obtenir, et utilise également d’énormes quantités de ressources informatiques.
Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont maintenant développé une approach qui permet à un modèle d’effectuer une quantification plus efficace de l’incertitude, tout en utilisant beaucoup moins de ressources informatiques que d’autres méthodes, et sans données supplémentaires. Leur approach, qui n’oblige pas l’utilisateur à recycler ou à modifier un modèle, est suffisamment versatile pour de nombreuses purposes.
La approach consiste à créer un modèle compagnon plus easy qui aide le modèle d’apprentissage automatique d’origine à estimer l’incertitude. Ce modèle plus petit est conçu pour identifier différents varieties d’incertitude, ce qui peut aider les chercheurs à approfondir la trigger profonde des prédictions inexactes.
« La quantification de l’incertitude est essentielle pour les développeurs et les utilisateurs de modèles d’apprentissage automatique. Les développeurs peuvent utiliser des mesures d’incertitude pour aider à développer des modèles plus robustes, tandis que pour les utilisateurs, cela peut ajouter une autre couche de confiance et de fiabilité lors du déploiement de modèles dans le monde réel. Notre travail conduit à une answer plus versatile et pratique pour la quantification de l’incertitude », déclare Maohao Shen, étudiant diplômé en génie électrique et en informatique et auteur principal d’un papier sur cette approach.
Shen a écrit l’article avec Yuheng Bu, un ancien post-doctorant du Laboratoire de recherche en électronique (RLE) qui est maintenant professeur adjoint à l’Université de Floride ; Prasanna Sattigeri, Soumya Ghosh et Subhro Das, membres du personnel de recherche du MIT-IBM Watson AI Lab ; et l’auteur principal Gregory Wornell, professeur Sumitomo en ingénierie qui dirige le laboratoire RLE des signaux, de l’data et des algorithmes et est membre du MIT-IBM Watson AI Lab. La recherche sera présentée à la conférence AAAI sur l’intelligence artificielle.
Quantifier l’incertitude
Dans la quantification de l’incertitude, un modèle d’apprentissage automatique génère un rating numérique avec chaque sortie pour refléter sa confiance dans la précision de cette prédiction. L’intégration de la quantification de l’incertitude en créant un nouveau modèle à partir de zéro ou en reformant un modèle existant nécessite généralement une grande quantité de données et des calculs coûteux, ce qui est souvent peu pratique. De plus, les méthodes existantes ont parfois pour conséquence involontaire de dégrader la qualité des prédictions du modèle.
Les chercheurs du MIT et du MIT-IBM Watson AI Lab se sont ainsi penchés sur le problème suivant : étant donné un modèle pré-entraîné, remark peuvent-ils lui permettre d’effectuer une quantification efficace de l’incertitude ?
Ils résolvent ce problème en créant un modèle plus petit et plus easy, connu sous le nom de métamodèle, qui s’attache au modèle plus grand et pré-entraîné et utilise les fonctionnalités que le modèle plus grand a déjà apprises pour l’aider à effectuer des évaluations de quantification de l’incertitude.
« Le métamodèle peut être appliqué à n’importe quel modèle pré-entraîné. Il est préférable d’avoir accès aux éléments internes du modèle, automobile nous pouvons obtenir beaucoup plus d’informations sur le modèle de base, mais cela fonctionnera également si vous n’avez qu’une sortie finale. Il peut toujours prédire un rating de confiance », explique Sattigeri.
Ils conçoivent le métamodèle pour produire la sortie de quantification de l’incertitude à l’aide d’une approach qui inclut les deux varieties d’incertitude : l’incertitude des données et l’incertitude du modèle. L’incertitude des données est causée par des données corrompues ou des étiquettes inexactes et ne peut être réduite qu’en corrigeant l’ensemble de données ou en collectant de nouvelles données. Dans l’incertitude du modèle, le modèle ne sait pas remark expliquer les données nouvellement observées et peut faire des prédictions incorrectes, probablement parce qu’il n’a pas vu suffisamment d’exemples de formation similaires. Ce problème est un problème particulièrement difficile mais courant lorsque des modèles sont déployés. Dans des contextes réels, ils rencontrent souvent des données différentes de l’ensemble de données de formation.
« La fiabilité de vos décisions a-t-elle changé lorsque vous utilisez le modèle dans un nouveau cadre ? Vous voulez un moyen de savoir si cela fonctionne dans ce nouveau régime ou si vous avez besoin de collecter des données d’entraînement pour ce nouveau cadre particulier », déclare Wornell.
Validation de la quantification
Une fois qu’un modèle produit un rating de quantification d’incertitude, l’utilisateur a toujours besoin d’une certaine assurance que le rating lui-même est actual. Les chercheurs valident souvent l’exactitude en créant un ensemble de données plus petit, retenu à partir des données de formation d’origine, puis en testant le modèle sur les données retenues. Cependant, cette approach ne fonctionne pas bien pour mesurer la quantification de l’incertitude automobile le modèle peut atteindre une bonne précision de prédiction tout en étant trop confiant, explique Shen.
Ils ont créé une nouvelle approach de validation en ajoutant du bruit aux données dans l’ensemble de validation – ces données bruyantes ressemblent davantage à des données hors distribution qui peuvent entraîner une incertitude du modèle. Les chercheurs utilisent cet ensemble de données bruitées pour évaluer les quantifications d’incertitude.
Ils ont testé leur approche en voyant dans quelle mesure un méta-modèle pouvait capturer différents varieties d’incertitude pour diverses tâches en aval, y compris la détection hors distribution et la détection des erreurs de classification. Leur méthode a non seulement surpassé toutes les lignes de base dans chaque tâche en aval, mais a également nécessité moins de temps de formation pour obtenir ces résultats.
Cette approach pourrait aider les chercheurs à activer davantage de modèles d’apprentissage automatique pour effectuer efficacement la quantification de l’incertitude, aidant finalement les utilisateurs à prendre de meilleures décisions quant au second de faire confiance aux prédictions.
À l’avenir, les chercheurs souhaitent adapter leur approach aux nouvelles lessons de modèles, telles que les grands modèles de langage qui ont une construction différente de celle d’un réseau de neurones traditionnel, explique Shen.
Le travail a été financé, en partie, par le MIT-IBM Watson AI Lab et la US Nationwide Science Basis.