6.4 C
New York

Premiers pas avec Cloudera Stream Processing Group Version


Cloudera a une solide expérience dans la fourniture d’une resolution complète pour le traitement de flux. Cloudera Stream Processing (CSP), optimisé par Apache Flink et Apache Kafka, fournit une resolution complète de gestion des flux et de traitement avec état. Dans CSP, Kafka sert de substrat de stockage en continu et Flink de moteur de traitement en continu qui prend en cost les interfaces SQL et REST. CSP permet aux développeurs, aux analystes de données et aux scientifiques des données de créer des pipelines de données de streaming hybrides où le temps est un facteur essential, comme la détection des fraudes, l’analyse des menaces réseau, les approbations de prêts instantanées, and so forth.

Nous lançons maintenant Cloudera Stream Processing Group Version (CSP-CE), qui rend tous ces outils et applied sciences facilement disponibles pour les développeurs et tous ceux qui souhaitent les expérimenter et en savoir plus sur le traitement de flux, Kafka et ses amis, Flink et SSB.

Dans cet article de weblog, nous présenterons CSP-CE, montrerons à quel level il est facile et rapide de démarrer avec, et énumérerons quelques exemples intéressants de ce que vous pouvez en faire.

Pour une introduction pratique complète à CSP-CE, veuillez consulter le Set up et Commencer guider dans le Documentation CSP-CEqui contiennent des tutoriels étape par étape sur la façon d’installer et d’utiliser les différents companies inclus.

Vous pouvez également rejoindre le Communauté de traitement de flux Clouderaoù vous trouverez des articles, des exemples et un discussion board où vous pourrez poser des questions connexes.

Cloudera Stream Processing Group Version

L’édition communautaire de CSP facilite le développement de processeurs de flux, automotive cela peut être fait directement depuis votre bureau ou tout autre nœud de développement. Les analystes, les scientifiques des données et les développeurs peuvent désormais évaluer de nouvelles fonctionnalités, développer SQLdes processeurs de flux basés localement à l’aide de SQL Stream Builder optimisé par Flink, et développer des consommateurs/producteurs Kafka et des connecteurs Kafka Join, le tout localement avant de passer à la manufacturing.

CSP-CE est un déploiement de CSP basé sur Docker que vous pouvez installer et exécuter en quelques minutes. Pour le faire fonctionner, il vous suffit de télécharger un petit fichier de configuration composé par Docker et d’exécuter une commande. Si vous suivez les étapes du information d’set up, en quelques minutes, vous aurez la pile CSP prête à être utilisée sur votre ordinateur moveable.

L’set up et le lancement de CSP-CE ne prennent qu’une seule commande et ne prennent que quelques minutes.

Une fois la commande terminée, les companies suivants seront exécutés dans votre environnement :

  • Apache Kafka: courtier de messages Pub/Sub que vous pouvez utiliser pour diffuser des messages sur différentes purposes.
  • Apache Flink: Moteur permettant la création d’purposes de traitement de flux en temps réel.
  • Générateur de flux SQL: Service qui s’exécute au-dessus de Flink et permet aux utilisateurs de créer leurs propres tâches de traitement de flux à l’aide de SQL.
  • Kafka Connexion: Service qui facilite vraiment l’entrée et la sortie de grands ensembles de données de Kafka.
  • Registre de schéma: Dépôt central des schémas utilisés par vos purposes.
  • Gestionnaire de messagerie de flux (SMM): Outil de surveillance Kafka complet.

Dans les sections suivantes, nous explorerons ces outils plus en détail.

Apache Kafka et SMM

Kafka est un service évolutif distribué qui permet un streaming efficace et rapide des données entre les purposes. Il s’agit d’une norme industrielle pour la mise en œuvre d’purposes événementielles.

CSP-CE inclut un service Kafka à un nœud et également SMM, ce qui facilite la gestion et la surveillance de votre service Kafka. Avec SMM, vous n’avez pas besoin d’utiliser la ligne de commande pour effectuer des tâches telles que la création et la reconfiguration de sujets, vérifier l’état du service Kafka ou inspecter le contenu des sujets. Tout cela peut être fait facilement through une interface graphique qui vous donne une vue à 360 degrés du service.

Création d’un sujet dans SMM

Répertorier et filtrer les sujets

Surveillance de l’activité du sujet, des producteurs et des consommateurs

Générateur de flux Flink et SQL

Apache Flink est un moteur de traitement distribué puissant et moderne succesful de traiter des données en streaming avec des latences très faibles et des débits élevés. Il est évolutif et l’API Flink est très riche et expressive avec une prise en cost native d’un sure nombre de fonctionnalités intéressantes telles que, par exemple, la sémantique exactement une fois, le traitement de l’heure des événements, le traitement des événements complexes, les purposes avec état, les agrégations de fenêtres et la prise en cost de la gestion des les données d’arrivée tardive et les événements hors service.

SQL Stream Builder est un service construit sur Flink qui étend la puissance de Flink aux utilisateurs qui connaissent SQL. Avec SSB, vous pouvez créer des tâches de traitement de flux pour analyser et manipuler des données de flux et de traitement par heaps à l’aide de requêtes SQL et d’directions DML.

Il utilise un modèle unifié pour accéder à tous les sorts de données afin que vous puissiez joindre n’importe quel sort de données ensemble. Par exemple, il est doable de traiter en continu les données d’un sujet Kafka, en associant ces données à une desk de recherche dans Apache HBase pour enrichir les données de diffusion en temps réel.

SSB prend en cost un sure nombre de sources et de puits différents, notamment Kafka, Oracle, MySQL, PostgreSQL, Kudu, HBase et toutes les bases de données accessibles through un pilote JDBC. Il fournit également des connecteurs natifs de seize de données de changement de supply (CDC) pour les bases de données Oracle, MySQL et PostgreSQL afin que vous puissiez lire les transactions de ces bases de données au fur et à mesure qu’elles se produisent et les traiter en temps réel.

Console SSB montrant un exemple de requête. Cette requête effectue une auto-jointure d’un sujet Kafka avec lui-même pour rechercher les transactions des mêmes utilisateurs qui se produisent géographiquement très éloignées. Il joint également le résultat de cette auto-jointure avec une desk de recherche stockée dans Kudu pour enrichir les données de streaming avec les détails des comptes purchasers.

SSB permet également de créer des vues matérialisées (MV) pour chaque tâche de streaming. Les MV sont définis avec une clé primaire et conservent le dernier état des données pour chaque clé. Le contenu des MV est servi through un level de terminaison REST, ce qui facilite l’intégration avec d’autres purposes.

Définition d’une vue matérialisée sur la requête récapitulative de la commande précédente, indexée par la colonne order_status. La vue conservera les derniers enregistrements de données pour chaque valeur différente de order_status

Lors de la définition d’un MV, vous pouvez sélectionner les colonnes à ajouter et également spécifier des filtres statiques et dynamiques

Exemple montrant à quel level il est facile d’accéder et d’utiliser le contenu d’un MV à partir d’une software externe, dans le cas d’un Jupyter Pocket book

Toutes les tâches créées et lancées dans SSB sont exécutées en tant que tâches Flink, et vous pouvez utiliser SSB pour les surveiller et les gérer. Si vous avez besoin d’obtenir plus de détails sur l’exécution du travail, SSB dispose d’un raccourci vers le tableau de bord Flink, où vous pouvez accéder aux statistiques et aux compteurs internes du travail.

Tableau de bord Flink affichant le graphique des tâches Flink et les compteurs de métriques

Kafka Connexion

Kafka Join est un service distribué qui facilite le déplacement de grands ensembles de données vers et depuis Kafka. Il est livré avec une variété de connecteurs qui vous permettent d’ingérer des données de sources externes dans Kafka ou d’écrire des données à partir de rubriques Kafka dans des locations externes.

Kafka Join est également intégré à SMM, ce qui vous permet d’exploiter et de surveiller pleinement les déploiements de connecteurs à partir de l’interface graphique SMM. Pour exécuter un nouveau connecteur, il vous suffit de sélectionner un modèle de connecteur, de fournir la configuration requise et de le déployer.

Déploiement d’un nouveau connecteur JDBC Sink pour écrire des données d’un sujet Kafka dans une desk PostgreSQL

Aucun codage n’est requis. Il vous suffit de remplir le modèle avec la configuration requise

Une fois le connecteur déployé, vous pouvez le gérer et le surveiller à partir de l’interface utilisateur SMM.

La web page de surveillance de Kafka Join dans SMM affiche l’état de tous les connecteurs en cours d’exécution et leur affiliation avec les rubriques Kafka

Vous pouvez également utiliser l’interface utilisateur SMM pour explorer les détails d’exécution du connecteur et résoudre les problèmes si nécessaire.

Connecteurs NiFi sans état

Les connecteurs NiFi Kafka sans état vous permettent de créer un flux NiFi en utilisant le grand nombre de processeurs NiFi existants et de l’exécuter en tant que connecteur Kafka sans écrire une seule ligne de code. Lorsque les connecteurs existants ne répondent pas à vos besoins, vous pouvez simplement en créer un dans le NiFi GUI Canvas qui fait exactement ce dont vous avez besoin. Par exemple, vous devez peut-être placer des données sur S3, mais il doit s’agir d’un SequenceFile compressé par Snappy. Il est doable qu’aucun des connecteurs S3 existants ne crée des SequenceFiles. Avec le connecteur NiFi sans état, vous pouvez facilement créer ce flux en faisant glisser, déposer et connecter visuellement deux des processeurs NiFi natifs : CreateHadoopSequenceFile et PutS3Object. Une fois le flux créé, exportez la définition du flux, chargez-la dans le connecteur NiFi sans état et déployez-la dans Kafka Join.

Un flux NiFi qui a été conçu pour être utilisé avec le connecteur NiFi Kafka sans état

Registre de schéma

Schema Registry fournit un référentiel centralisé pour stocker et accéder aux schémas. Les purposes peuvent accéder au registre de schémas et rechercher le schéma spécifique qu’elles doivent utiliser pour sérialiser ou désérialiser les événements. Les schémas peuvent être créés dans ethier Avro ou JSON, et ont évolué selon les besoins tout en permettant aux purchasers de récupérer le schéma spécifique dont ils ont besoin et d’ignorer le reste.

Les schémas sont tous répertoriés dans le registre des schémas, fournissant un référentiel centralisé pour les purposes

Conclusion

Cloudera Stream Processing est une pile puissante et complète pour vous aider à mettre en œuvre des purposes de streaming rapides et robustes. Avec le lancement de l’édition communautaire, il est désormais très facile pour quiconque de créer un bac à sable CSP pour en savoir plus sur Apache Kafka, Kafka Join, Flink et SQL Stream Builder, et commencer rapidement à créer des purposes.

Essayez Cloudera Stream Processing dès aujourd’hui en télécharger l’édition communautaire et démarrer directement sur votre machine locale ! Rejoignez la communauté CSP et obtenez des mises à jour sur les derniers didacticiels, les fonctionnalités et les variations CSP, et apprenez-en plus sur le traitement de flux.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles