La détection d’anomalies (AD), la tâche de distinguer les anomalies des données normales, joue un rôle important dans de nombreuses functions du monde réel, telles que la détection produits défectueux des capteurs de imaginative and prescient dans la fabrication, comportements frauduleux dans les transactions financièresou menaces de sécurité réseau. Selon la disponibilité du sort de données – négatives (normales) ou positives (anormales) et la disponibilité de leurs étiquettes – la tâche de l’AD implique différents défis.
![]() |
(a) détection d’anomalies entièrement supervisée, (b) détection d’anomalies uniquement normales, (c, d, e) détection d’anomalies semi-supervisée, (f) détection d’anomalies non supervisée. |
Alors que la plupart des travaux antérieurs se sont avérés efficaces pour les cas avec des données entièrement étiquetées (soit (a) ou (b) dans la determine ci-dessus), de tels paramètres sont moins courants dans la pratique automobile les étiquettes sont particulièrement fastidieuses à obtenir. Dans la plupart des scénarios, les utilisateurs disposent d’un funds d’étiquetage limité, et parfois il n’y a même pas d’échantillons étiquetés pendant la formation. De plus, même lorsque des données étiquetées sont disponibles, il pourrait y avoir des biais dans la façon dont les échantillons sont étiquetés, entraînant des différences de distribution. Ces défis liés aux données du monde réel limitent la précision réalisable des méthodes antérieures de détection des anomalies.
Cet article couvre deux de nos articles récents sur la MA, publiés dans Transactions sur la recherche en apprentissage automatique (TMLR), qui répondent aux défis ci-dessus dans des contextes non supervisés et semi-supervisés. En utilisant centré sur les données approches, nous montrons des résultats de pointe dans les deux. Dans « Auto-supervisé, Affiner, Répéter : Améliorer la détection des anomalies non supervisées« , nous proposons un nouveau cadre AD non supervisé qui repose sur les principes de l’apprentissage auto-supervisé sans étiquettes et du raffinement itératif des données basé sur l’accord de classificateur à une classe (OCC). Dans « SPADE : détection d’anomalies semi-supervisée sous discordance de distribution« , nous proposons un nouveau cadre AD semi-supervisé qui offre des performances robustes même en cas d’inadéquation de la distribution avec des échantillons étiquetés limités.
Détection d’anomalies non supervisée avec SRR : Auto-supervisé, Affiner, Répéter
Découvrir une limite de décision pour une distribution (normale) à une classe (c’est-à-dire, la formation OCC) est difficile dans des contextes entièrement non supervisés, automobile les données de formation non étiquetées comprennent deux lessons (normale et anormale). Le défi s’aggrave davantage à mesure que le taux d’anomalies augmente pour les données non étiquetées. Pour construire un OCC robuste avec des données non étiquetées, en excluant les échantillons probablement positifs (anormaux) des données non étiquetées, le processus appelé raffinement des données est essentiel. Les données raffinées, avec un taux d’anomalies plus faible, donnent des modèles de détection d’anomalies supérieurs.
SRR affine d’abord les données d’un ensemble de données non étiquetées, puis entraîne de manière itérative des représentations approfondies à l’aide de données raffinées tout en améliorant l’affinement des données non étiquetées en excluant les échantillons potentiellement positifs. Pour affiner les données, un ensemble d’OCC est utilisé, chacun étant formé sur un sous-ensemble disjoint de données de formation non étiquetées. S’il y a consensus parmi tous les OCC de l’ensemble, les données qui sont prédites comme négatives (normales) sont incluses dans les données raffinées. Enfin, les données de formation raffinées sont utilisées pour former l’OCC last afin de générer les prédictions d’anomalies.
Résultats SRR
Nous menons des expériences approfondies sur divers ensembles de données de différents domaines, y compris l’AD sémantique (CIFAR-10, Chien contre chat), publicité visuelle de fabrication dans le monde réel (MVTec), et des benchmarks AD tabulaires du monde réel tels que la détection médicale (Thyroïde) ou la sécurité du réseau (KDD 1999) anomalies. Nous considérons des méthodes à la fois peu profondes (par exemple, OC-SVM) et profonde (par exemple, AIGUILLON, Couper coller) des modèles. Étant donné que le taux d’anomalies des données du monde réel peut varier, nous évaluons les modèles à différents taux d’anomalies des données d’entraînement non étiquetées et montrons que le SRR améliore considérablement les performances AD. Par exemple, SRR améliore plus de 15,0 précision moyenne (AP) avec un taux d’anomalie de 10% par rapport à un modèle profond à une classe à la pointe de la technologie sur CIFAR-10. De même, sur MVTec, SRR preserve des performances solides, chutant de moins de 1,0 ASC avec un taux d’anomalie de 10 %, tandis que meilleur CCO existant baisse de plus de 6,0 AUC. Enfin, sur la thyroïde (données tabulaires), SRR surpasse un classificateur à classe distinctive à la pointe de la technologie par 22.9 F1 rating avec un taux d’anomalie de 2,5 %.
![]() |
Dans divers domaines, SRR (ligne bleue) améliore considérablement les performances AD avec divers taux d’anomalies dans des environnements entièrement non supervisés. |
SPADE : Détection semi-supervisée des anomalies du pseudo-étiqueteur avec assemblage
La plupart des méthodes d’apprentissage semi-supervisé (par exemple, FixMatch, VIME) supposent que les données étiquetées et non étiquetées proviennent des mêmes distributions. Cependant, dans la pratique, inadéquation de la distribution se produit couramment, avec des données étiquetées et non étiquetées provenant de différentes distributions. Un tel cas est positif et sans étiquette (PU) ou paramètres négatifs et non marqués (NU), où les distributions entre les échantillons marqués (positifs ou négatifs) et non marqués (positifs et négatifs) sont différentes. Une autre trigger de changement de distribution est la collecte de données supplémentaires non étiquetées après l’étiquetage. Par exemple, les processus de fabrication peuvent continuer à évoluer, ce qui entraîne une modification des défauts correspondants et une différence entre les sorts de défauts à l’étiquetage et les sorts de défauts dans les données non étiquetées. De plus, pour des functions comme détection de fraude financière et lutte contre le blanchiment d’argent, de nouvelles anomalies peuvent apparaître après le processus de labellisation des données, les comportements criminels pouvant s’adapter. Enfin, les étiqueteurs sont plus confiants sur les échantillons faciles lorsqu’ils les étiquettent ; ainsi, les échantillons faciles/difficiles sont plus susceptibles d’être inclus dans les données étiquetées/non étiquetées. Par exemple, avec certains étiquetage basé sur le crowdsourcingseuls les échantillons avec un sure consensus sur les étiquettes (comme mesure de confiance) sont inclus dans l’ensemble étiqueté.
Les méthodes d’apprentissage semi-supervisées commonplace supposent que les données étiquetées et non étiquetées proviennent de la même distribution, elles sont donc sous-optimales pour l’AD semi-supervisé en cas d’inadéquation de distribution. SPADE utilise un ensemble d’OCC pour estimer les pseudo-étiquettes des données non étiquetées – il le fait indépendamment des données étiquetées positives données, réduisant ainsi la dépendance aux étiquettes. Ceci est particulièrement avantageux en cas d’inadéquation de la distribution. De plus, SPADE emploie correspondance partielle pour sélectionner automatiquement les hyper-paramètres critiques pour le pseudo-étiquetage sans s’appuyer sur des données de validation étiquetées, une capacité cruciale compte tenu des données étiquetées limitées.
![]() |
Synoptique de SPADE avec zoom sur le synoptique détaillé des pseudo-étiqueteurs proposés. |
Résultats SPADE
Nous menons des expériences approfondies pour présenter les avantages de SPADE dans divers contextes réels d’apprentissage semi-supervisé avec inadéquation de la distribution. Nous considérons plusieurs ensembles de données AD pour l’picture (y compris MVTec) et tabulaire (y compris Kind de couverture, Thyroïde) données.
SPADE présente des performances de pointe en matière de détection d’anomalies semi-supervisées dans un giant éventail de scénarios : (i) nouveaux sorts d’anomalies, (ii) échantillons faciles à étiqueter et (iii) exemples positifs non étiquetés. Comme indiqué ci-dessous, avec de nouveaux sorts d’anomalies, SPADE surpasse les alternate options de pointe de 5 % d’AUC en moyenne.
![]() |
Performances AD avec trois scénarios différents sur différents ensembles de données (Kind de couverture, MVTec, Thyroïde) en termes d’AUC. Certaines lignes de base ne s’appliquent qu’à certains scénarios. Plus de résultats avec d’autres lignes de base et ensembles de données peuvent être trouvés dans le papier. |
Nous évaluons également SPADE sur des ensembles de données de détection de fraude financière dans le monde réel : Kaggle fraude à la carte de crédit et Détection de fraude Xente. Pour celles-ci, les anomalies évoluent (c’est-à-dire que leurs distributions changent avec le temps) et pour identifier les anomalies évolutives, nous devons continuer à étiqueter les nouvelles anomalies et recycler le modèle AD. Cependant, l’étiquetage serait coûteux et prendrait du temps. Même sans étiquetage supplémentaire, SPADE peut améliorer les performances AD en utilisant à la fois des données étiquetées et des données non étiquetées nouvellement collectées.
![]() |
Performances AD avec des distributions variant dans le temps à l’aide de deux ensembles de données de détection de fraude dans le monde réel avec un taux d’étiquetage de 10 %. Plus de lignes de base peuvent être trouvées dans le papier. |
Comme indiqué ci-dessus, SPADE surpasse systématiquement les alternate options sur les deux ensembles de données, tirant parti des données non étiquetées et montrant sa robustesse face à l’évolution des distributions.
conclusion
AD a un giant éventail de cas d’utilisation avec une significance significative dans les functions du monde réel, de la détection des menaces de sécurité dans les systèmes financiers à l’identification des comportements défectueux des machines de fabrication.
Un side difficile et coûteux de la development d’un système AD est que les anomalies sont rares et difficilement détectables par les humains. À cette fin, nous avons proposé SRR, un cadre AD canonique pour permettre une AD haute efficiency sans avoir besoin d’étiquettes manuelles pour la formation. SRR peut être intégré de manière versatile à n’importe quel OCC et appliqué sur des données brutes ou sur des représentations entraînables.
La DA semi-supervisée est un autre défi très necessary – dans de nombreux scénarios, les distributions d’échantillons étiquetés et non étiquetés ne correspondent pas. SPADE introduit un mécanisme de pseudo-étiquetage robuste utilisant un ensemble d’OCC et une manière judicieuse de combiner l’apprentissage supervisé et auto-supervisé. De plus, SPADE introduit une approche efficace pour sélectionner les hyperparamètres critiques sans ensemble de validation, un composant essential pour une AD efficace en termes de données.
Dans l’ensemble, nous démontrons que SRR et SPADE surpassent systématiquement les alternate options dans divers scénarios sur plusieurs sorts d’ensembles de données.
Remerciements
Nous tenons à remercier Kihyuk Sohn, Chun-Liang Li, Chen-Yu Lee, Kyle Ziegler, Nate Yoder et Tomas Pfister pour leurs contributions.