Au cours des deux dernières décennies, le trafic réseau a été multiplié par plus de 100. Par conséquent, la détection des cyberattaques les plus inquiétantes d’aujourd’hui, telles que Hameçonnage, téléchargements en voitureet rançongiciel, de cet énorme flux de trafic est devenu beaucoup plus difficile. Essentiellement, la connaissance de la scenario du réseau et la sécurité sont devenues des problèmes de mégadonnées, en particulier sur les grands réseaux.
Pendant des années, l’analyse de la sécurité sur les grands réseaux s’est appuyée sur l’utilisation des données de flux de trafic réseau, telles que Cisco NetFlow. Netflow a été conçu pour échantillonner et conserver les attributs les plus importants des conversations réseau entre TCP/IP terminaux sur de grands réseaux sans avoir à collecter, stocker et analyser tous données du réseau. Le SEI a sorti son outil d’analyse des enregistrements de flux du réseau, Soie (Système de connaissances au niveau Web), il y a 18 ans. Cependant, le quantity croissant du trafic réseau, et donc le quantity des flux de données connexes, a dépassé la capacité de SiLK. Pour combler cet écart, le SEI a publié Motra plus tôt cette année.
Ce billet de weblog SEI vous présentera Mothra et résumera notre recherche récente sur les améliorations de Mothra conçues pour gérer des environnements à grande échelle. Cet article décrit également des recherches visant à démontrer l’efficacité de Mothra à «l’échelle du cloud» dans l’environnement GovCloud d’Amazon Net Providers (AWS).
Gérer le flot de données de flux réseau
À mesure que le trafic réseau international a augmenté, les enregistrements de flux réseau, tels que Cisco NetFlow, ont également augmenté. Détecter les attaques réseau les plus graves nécessite inspection approfondie des paquets (DPI) sur ces flux réseau. Le processus DPI inspecte les données traversant un réseau informatique et peut alerter, bloquer, réacheminer ou enregistrer ces données selon les besoins. Cependant, alors que DPI extrait davantage d’informations sur les composants critiques pour la sécurité d’un flux, il génère également un enregistrement au moins cinq fois plus volumineux qu’un enregistrement de flux non DPI.
L’outil SEI Encore un autre débitmètre (YAF) peut effectuer des DPI, entre autres capacités. YAF est la composante de collecte de données du SEI Suite de sécurité CERT NetSA. Il transforme les paquets en flux réseau et exporte les flux vers Web Protocol Circulation Info Export (IPFIX) de processus de collecte ou un format de fichier basé sur IPFIX pour traitement par des outils en aval, notamment l’outil SiLK du SEI. SiLK, cependant, n’a pas été conçu pour analyser les données DPI ni traiter le quantity de données de flux généré par les organisations à l’échelle des fournisseurs de companies Web.
Nous avons senti que nous avions un problème de données volumineuses entre nos mains et, en 2017, un sponsor gouvernemental a demandé au SEI de faire fonctionner YAF avec un outil d’analyse de données volumineuses. En réponse, nous avons créé le Motra plateforme d’analyse pour permettre des flux de travail analytiques évolutifs qui vont au-delà des limites des enregistrements de flux conventionnels et de la capacité de nos outils existants à les traiter. Motra est une assortment de bibliothèques open supply pour travailler avec des données de flux réseau (telles que Netflow de Cisco) dans le Apache Étincelle moteur d’analyse de données à grande échelle.
Mothra relie les outils auparavant autonomes du Suite de sécurité CERT Community Situational Consciousness (NetSA) et Étincelle. D’autres options de sécurité, telles que les functions antivirus ou les systèmes de détection et de prévention des intrusions, peuvent également exporter des données vers Spark. Mothra permet aux analystes d’accéder aux données de flux réseau aux côtés de ces autres sources, le tout dans un environnement d’analyse de données volumineuses commun. Avec toutes ces sources de données disponibles pour l’analyse, les organisations disposant de très grands réseaux peuvent obtenir des informations plus complètes. connaissance de la scenario du réseau.
Comme l’outil d’analyse préexistant du SEI, Soie Mothra a été conçu pour analyser les enregistrements de flux de réseau, en particulier ceux produits par le SEI YAF (Encore un autre débitmètre). Mothra transforme la sortie YAF en un format lisible par Apache Spark, et la plate-forme Mothra et aussi
- facilite le stockage en masse et l’analyse des données de cybersécurité avec des niveaux élevés de flexibilité, de efficiency et d’interopérabilité
- réduit l’effort d’ingénierie impliqué dans le développement, la transition et l’opérationnalisation de nouvelles analyses
- dessert toutes les principales composantes de la communauté de la sécurité réseau, y compris les scientifiques des données, les intervenants de premier niveau en cas d’incident, les administrateurs système et les amateurs
Mothra traite directement le format binaire IPFIX, une norme du Groupe de travail sur l’ingénierie Web (IETF). Les analystes peuvent extraire efficacement uniquement les éléments qu’ils souhaitent, et ils peuvent ensuite utiliser le moteur d’analyse Spark sur les données IPFIX. Mothra vous permet simplement de déposer les données directement sans avoir à réfléchir à la façon de les transformer. Ces transformations modifient le moins attainable les données collectées, en les préservant pour une analyse future.
Les analystes peuvent utiliser Mothra pour exploiter la puissance de programmation de Spark sur les données de flux réseau à partir du Suite de sécurité NetSA. Les filtres de SiLK permettent des requêtes limitées sur des ensembles de données de flux purs. Mothra et Spark permettent des requêtes beaucoup plus approfondies et flexibles sur un flux enrichi en DPI pour trouver beaucoup plus de données intéressantes. Par exemple, les analystes peuvent désormais extraire tout sort de données qu’ils peuvent exprimer sous forme de programme et peuvent effectuer des extractions itératives dans lesquelles les données extraites changent au fil des itérations. Ils peuvent également extraire des données constituées de paquets plus gros que le nombre moyen de paquets dans l’ensemble de critères correspondant. Quelque selected qui vous demanderait beaucoup de scripts dans SiLK peut maintenant être condensé en une demi-page de code.
L’analyse de toutes ces données de flux nécessite une grande experience en matière de stockage et de programmation. Mothra permet aux organisations disposant de l’infrastructure et du personnel de prendre en cost Apache Spark, d’utiliser leur experience et d’appliquer l’analyse DPI aux données de flux réseau. Ces informations peuvent les aider à évaluer leurs défenses actuelles et à découvrir les failles de sécurité, en particulier sur les réseaux d’entreprise au niveau de l’infrastructure.
Prototypage de Mothra à l’échelle du cloud
Après avoir développé Mothra et montré son utilité dans les environnements de réseau sur website, nous avons ensuite cherché à répondre aux questions suivantes :
- Mothra peut-il être déployé dans un environnement cloud ?
- Un déploiement basé sur le cloud peut-il fonctionner aussi efficacement que Mothra dans un environnement sur website ?
- Remark le déploiement du cloud peut-il être réalisé au mieux pour optimiser les performances de Mothra ?
Pour répondre à ces questions, nous avons recherché des méthodes de déploiement de Mothra et de ses composants système associés dans le Environnement AWS GovCloud. Notre projet a impliqué plusieurs équipes qui ont collaboré pour aborder le développement de code, l’ingénierie système et les assessments. Nous avons construit des prototypes de capacités croissantes qui ont progressé vers les performances du système cible. Ces prototypes ont ingéré des milliards d’enregistrements de flux par jour avec un contenu approprié distribué à travers les données et ont rendu ces données disponibles pour analyse dans un délai acceptable.
La determine 1 illustre l’un des prototypes que nous avons développés, qui a déployé Mothra pour Réduction de la carte élastique Amazon (EMR) exécutant Spark et soutenu par le Système de fichiers EMR (EMRFS) avec stockage dans AmazonS3. EMRFS est une implémentation du Système de fichiers distribué Hadoop (HDFS) que tous les clusters Amazon EMR utilisent pour lire et écrire des fichiers normaux depuis EMR directement vers S3. EMRFS offre la commodité de stocker des données persistantes dans S3 pour une utilisation avec HadoopName tout en offrant des fonctionnalités telles que l’affichage cohérent, le cryptage des données et l’élasticité.
Au cours de nos recherches, nous avons rapidement déterminé que Mothra pouvait être facilement installé et exploité à des vitesses qui répondaient clairement aux besoins des utilisateurs lorsqu’il était déployé dans le cloud. Cependant, les performances des requêtes dans l’environnement cloud n’étaient pas optimales. Pour résoudre ce problème, nous avons entrepris les travaux suivants :
- mis en œuvre plusieurs conceptions de systèmes dans l’environnement de prototypage hybride du SEI (en particulier, nous avons utilisé notre générateur de trafic Ixia pour créer un flux de données synthétiques qui a abouti à un référentiel de données vital au sein d’AWS)
- configurations modifiées au fur et à mesure que les résultats des assessments sont examinés pour résoudre les problèmes observés
- développé des simulateurs pour produire des volumes de flux correspondant à ceux observés sur les systèmes de manufacturing
- plans de check exécutés pour évaluer le processus d’ingestion de données et les opérations de requête représentatives
- développé un nouveau code pour optimiser les opérations de lecture de données
- companies système optimisés (par exemple, Spark)
Notre travail a confirmé que Mothra pouvait s’intégrer avec succès à AWS GovCloud et nous a amenés à produire un ensemble de leviers pouvant être utilisés pour ajuster les companies système à des caractéristiques de données spécifiques. Ces leviers incluent les paramètres de lecture de fichier et la taille de fichier souhaitée, qui sont stockés dans un référentiel système. Pour déterminer systématiquement les paramètres optimaux pour fonctionner dans l’environnement AWS GovCloud, nous avons généré plusieurs référentiels Mothra avec différents scénarios de fichiers et exécuté une série de assessments à l’aide d’une gamme de paramètres.