18.8 C
New York

Comparez les bases de données d’analyse en temps réel en 2023 : Rockset, Apache Druid, ClickHouse, Pinot


Mis à jour en février 2023

Nous avons construit Fusée avec pour mission de rendre l’analyse en temps réel facile et abordable dans le cloud. Nous accordons la priorité à nos utilisateurs et sommes obsédés par l’idée d’aider nos utilisateurs à atteindre la vitesse, l’évolutivité et la simplicité dans leur pile de données en temps réel moderne (dont j’aborde certaines en détail ci-dessous). Mais nous, en tant qu’équipe, prenons toujours au sérieux les critères de efficiency. Parce qu’ils nous aident à communiquer que la efficiency est l’une des valeurs fondamentales du produit chez Rockset.

Analyse comparative responsable

Nous sommes tout à fait d’accord avec Flocon de neige et Databricks sur une selected : que toute personne qui publie des benchmarks devrait le faire de manière juste, transparente et reproductible. En général, la façon dont les fournisseurs se comportent lors de l’analyse comparative est un bon sign de leur fonctionnement et de leurs valeurs. Plus tôt cette semaine, l’un des Indicate (l’une des sociétés derrière Apache Druid), a publié ce qui semble être un weblog ironique prétendant être plus efficace que Rockset. Eh bien, en tant que consumer averti, voici les facets douteux de la référence d’Indicate à prendre en compte :

  • Indicate a utilisé une configuration matérielle dotée d’un processeur 20% supérieur à celui de Rockset. Les bons benchmarks visent la parité matérielle pour montrer une comparaison de pommes à pommes.
  • Le modèle de consommation cloud de Rockset permet une mise à l’échelle indépendante du calcul et du stockage. Indicate a fait des déclarations inexactes sur le rapport qualité-prix qui déforment les prix des concurrents.

Rockset a battu les performances des requêtes ClickHouse et Druid sur le Star Schema Benchmark. Rockset est 1,67 fois plus rapide que ClickHouse avec la même configuration matérielle. Et 1,12 fois plus rapide que Druid, même si Druid a utilisé 12,5 % de calcul en plus.

Résultats de référence SSB

Le BLU mesure les performances de 13 requêtes typiques des purposes de données. C’est une référence basée sur PTC-H et conçu pour les costs de travail d’entrepôt de données. Plus récemment, il a été utilisé pour mesurer les performances des requêtes impliquant des agrégations et des métriques dans les bases de données orientées colonnes ClickHouse et Druid.

Pour atteindre la parité des ressources, nous avons utilisé la même configuration matérielle qu’Altinity a utilisée dans sa dernière publication ClickHouse Référence de efficiency SSB. Le matériel était une seule occasion Amazon EC2 m5.8xlarge. Indicate a également publié des numéros SSB révisés pour Druid en utilisant une configuration matérielle avec plus de ressources vCPU. Même ainsi, Rockset a pu battre les chiffres de Druid en termes absolus.

Nous avons également mis à l’échelle la taille de l’ensemble de données à 100 Go et 600 hundreds of thousands de lignes de données, un facteur d’échelle de 100, tout comme Altinity et Indicate l’ont fait. Alors qu’Altinity et Indicate ont publié des résultats détaillés sur les performances SSB sur des données dénormalisées, nous avons emboîté le pas. Cela a supprimé le besoin de jointures de temps de requête, même si c’est quelque selected que Rockset est bien équipé pour gérer.

Toutes les requêtes ont été exécutées en moins de 88 millisecondes sur Rockset avec une durée d’exécution globale de 664 millisecondes sur l’ensemble de la suite de requêtes SSB. La durée d’exécution globale de Clickhouse était de 1 112 millisecondes. La durée d’exécution globale de Druid était de 747 millisecondes. Avec ces résultats, Rockset affiche une accélération globale de 1,67 sur ClickHouse et de 1,12 sur Druid.


table ssb

Determine 1 : Graphique comparant les durées d’exécution de ClickHouse, Druid et Rockset sur SSB. La configuration de m5.8xlarge est de 32 vCPU et de 128 Gio de mémoire. c5.9xlarge est de 36 vCPU et 72 Gio de mémoire.


graphique ssb

Determine 2 : Graphique montrant les temps d’exécution de ClickHouse, Druid et Rockset sur les requêtes SSB.

Vous pouvez approfondir les améliorations de la configuration et des performances dans le Évaluation des performances de Rockset sur le Star Schema Benchmark papier blanc. Ce doc fournit une vue d’ensemble des données et des requêtes de référence, décrit la configuration d’exécution de la référence et discute des résultats de l’évaluation.

Données en temps réel dans le monde réel

Les constructeurs vehicles mesurent, optimisent et publient à quelle vitesse ils peuvent passer de 0 à 60 mph, mais vous, en tant que consumer, testez et évaluez une voiture en fonction de cela et d’une pléthore d’autres dimensions. De même, au fur et à mesure que vous choisissez votre resolution temps réel, voici les considérations strategies et les différentes dimensions pour comparer Rockset, Druide Apache et ClickHouse sur.

En partant des premiers principes, voici les cinq caractéristiques des données en temps réel avec lesquelles la plupart des systèmes analytiques ont des problèmes fondamentaux :

  1. Flux de données massifs, souvent en rafales. Avec les données de flux de clics ou de capteurs, le quantity peut être incroyablement élevé – plusieurs téraoctets de données par jour – ainsi qu’incroyablement imprévisible, augmentant et diminuant rapidement.
  2. Modifier les flux de seize de données. Il est désormais doable de capturer en continu les changements au fur et à mesure qu’ils se produisent dans votre base de données opérationnelle comme MongoDB ou Amazon DynamoDB. Le problème? La plupart des bases de données analytiques, y compris Apache Druid et ClickHouse, sont immuables, ce qui signifie que les données ne peuvent pas être facilement mises à jour ou réécrites. Cela rend très difficile sa synchronisation en temps réel avec la base de données OLTP
  3. Flux d’événements en panne. Avec les flux en temps réel, les données peuvent arriver dans le désordre à temps ou être renvoyées, ce qui entraîne des doublons.
  4. JSON profondément imbriqué et schémas dynamiques. Les flux de données en temps réel arrivent généralement bruts et semi-structurés, par exemple sous la forme d’un doc JSON, avec de nombreux niveaux d’imbrication. De plus, de nouveaux champs et colonnes de données apparaissent constamment.
  5. Vacation spot : purposes de données et microservices. Les flux de données en temps réel alimentent généralement l’analyse ou purposes de données. Il s’agit d’un changement essential, automotive les développeurs sont désormais des utilisateurs finaux, et ils ont tendance à itérer et à expérimenter rapidement, tout en exigeant plus de flexibilité que ce qui était attendu des bases de données analytiques de première génération comme Apache Druid.

Comparaison de Rockset, Apache Druid et ClickHouse

Compte tenu des caractéristiques strategies des données en temps réel dans le monde réel, voici les dimensions utiles pour comparer Rockset, Apache Druid et ClickHouse. Apache Pinot n’est pas inclus dans ce tableau de comparaison, mais il est similaire à d’autres bases de données, avec une mise à l’échelle horizontale – un système open supply qui a été conçu à l’époque sur web site. Toutes les comparaisons des concurrents sont dérivées de leur documentation à ce jour

Fusée Druide Apache ClickHouse
Set up
La configuration initiale Créez un compte cloud, commencez à ingérer des données Planifiez la capacité, provisionnez et configurez les nœuds sur web site ou dans le cloud Planifiez la capacité, provisionnez et configurez les nœuds sur web site ou dans le cloud
Ingestion de données
Ingestion de JSON imbriqué Ingérer JSON imbriqué sans aplatir Aplatir le JSON imbriqué Prend en cost JSON imbriqué, mais JSON est généralement aplati
Ingestion de flux CDC La base de données mutable gère les mises à jour, les insertions et les suppressions en place Insérer uniquement La plupart du temps, insérer uniquement, avec des mises à jour asynchrones implémentées en tant qu’directions ALTER TABLE UPDATE
Conception de schéma et partitionnement Ingérer les données telles quelles sans schéma prédéfini Schéma spécifié lors de l’ingestion, du partitionnement et du tri des données nécessaires pour régler les performances Schéma spécifié lors de la création de la desk
Transformer les données
Ingérer les transformations Transformations d’ingestion basées sur SQL, y compris la prise en cost de DBT Utiliser les spécifications d’ingestion pour un filtrage d’ingestion limité Utiliser des vues matérialisées pour transformer les données entre les tables
Kind de cumul d’ingestion Cumuls basés sur SQL avec agrégations sur n’importe quel champ Utiliser les spécifications d’ingestion pour des cumuls temporels spécifiques Utiliser des vues matérialisées pour transformer les données entre les tables
Interroger des données
Langage de requête SQL Langage natif Druid et analyseur pour les requêtes de kind SQL SQL
Prise en cost des JOIN Prend en cost les JOIN Seuls les JOIN diffusés, avec une surcharge de haute efficiency, les données sont dénormalisées pour éviter les JOIN Prend en cost les JOIN
Mise à l’échelle
Mise à l’échelle du calcul Faire évoluer le calcul indépendamment dans le cloud Configurez et ajustez les clusters multi-nœuds, ajoutez des nœuds pour plus de calcul Configurez et ajustez les clusters multi-nœuds, ajoutez des nœuds pour plus de calcul
Mise à l’échelle du stockage Évoluez indépendamment le stockage dans le cloud Configurez et ajustez les clusters multi-nœuds, ajoutez des nœuds pour plus de stockage Configurez et ajustez les clusters multi-nœuds, ajoutez des nœuds pour plus de stockage
Coût complete de possession Service géré optimisé pour l’efficacité du cloud et la productivité des développeurs Nécessite un knowledgeable Apache Druid pour l’ingénierie des performances et le contrôle des coûts Nécessite un knowledgeable ClickHouse pour l’ingénierie des performances et le contrôle des coûts

Le rapport qualité-prix brut est certainement essential, nous continuerons donc à publier des résultats de efficiency – mais à notre époque, l’efficacité du cloud et la productivité des développeurs sont tout aussi importantes. L’efficacité du cloud signifie ne jamais avoir à surprovisionner le calcul ou le stockage, mais plutôt les faire évoluer indépendamment en fonction de la consommation réelle. Les données du monde réel sont désordonnées et complexes, et Rockset permet aux utilisateurs d’économiser un temps et des efforts considérables en éliminant le besoin d’aplatir les données avant l’ingestion. De plus, nous veillons à ce que les utilisateurs n’aient pas à dénormaliser les données avec un modèle JOIN à l’esprit, automotive même si ces modèles étaient connus à l’avance, les dénormalisations sont coûteuses en termes d’effort de l’utilisateur et de vitesse d’itération. En indexant chaque champ, nous éliminons le besoin d’une modélisation complexe des données. Et avec SQL normal, nous visons à vraiment démocratiser l’accès aux informations en temps réel. L’autre domaine dans lequel Rockset brille est qu’il est conçu pour gérer à la fois les flux de données de séries chronologiques ainsi que les flux CDC avec des mises à jour, des insertions et des suppressions, ce qui permet de rester synchronisé en temps réel avec des bases de données telles que DynamoDB, MongoDB, PostgreSQL. , MySQL sans surcharge de réindexation.

Dans les paroles de notre consumer: « Rockset est de la pure magie. Nous avons choisi Rockset plutôt que Druid, automotive il ne nécessite aucune planification en termes d’index ou de mise à l’échelle. En une heure, nous étions opérationnels, répondant à des requêtes OLAP complexes pour nos classements et tableaux de bord en direct à un nombre très élevé de requêtes par seconde. Au fur et à mesure que le trafic augmente, nous pouvons simplement « tourner un bouton » et Rockset évolue avec nous. »

Nous nous concentrons sur accélérant la mise sur le marché de nos shoppers: « Rockset a réduit notre feuille de route de 6 mois en un après-midi« , a déclaré un consumer. Il n’est pas étonnant qu’Indicate se soit lancé dans le projet Shapeshift dans le however de se rapprocher de l’efficacité du cloud de Rockset. Cependant, lever et déplacer la technologie de l’ère des centres de données dans le cloud n’est pas une tâche facile et nous leur souhaitons bonne likelihood. Pour quelqu’un qui prétend se soucier des cas d’utilisation du monde réel plus que des performances, Apache Druid manque étonnamment de fonctionnalités qui comptent réellement dans le monde réel des données en temps réel : facilité de déploiement, facilité d’utilisation, mutabilité, facilité de mise à l’échelle. Rockset continuera d’innover pour rendre l’analyse en temps réel dans le cloud plus efficace pour les utilisateurs en se concentrant sur les cas d’utilisation réels des shoppers. Le rapport qualité-prix compte. Rockset continuera à publier des résultats d’analyse comparative réguliers et soyez assurés que nous ferons tout notre doable pour ne pas nous présenter ou nos concurrents sous un fake jour dans ce processus – et surtout nous n’induirons pas nos shoppers en erreur. En attendant nous vous invitons à tester le Rockset pour vous-même et faites l’expérience d’analyses en temps réel à l’échelle du cloud.

Références approfondies :

  1. Comparez Rockset et ClickHouse avec une analyse approach approfondie ici
  2. Comparez Rockset et Apache Druid avec une analyse approach approfondie ici



Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles