9.6 C
New York

Présentation des robots d’exploration AWS Glue à l’aide de la gestion des autorisations AWS Lake Formation


Les lacs de données fournissent un référentiel centralisé qui consolide vos données à grande échelle et les rend disponibles pour différents varieties d’analyses. Colle AWS Les robots d’exploration sont un moyen populaire d’analyser les données d’un lac de données, de les classer, d’en extraire des informations de schéma et de stocker automatiquement les métadonnées dans le catalogue de données AWS Glue. Formation du lac AWS vous permet de gérer, sécuriser et partager vos données de manière centralisée, et vous permet d’adapter facilement les autorisations.

Nous sommes heureux d’annoncer l’intégration du robotic d’exploration AWS Glue et de Lake Formation. Vous pouvez désormais utiliser les autorisations Lake Formation pour l’accès du robotic d’exploration à vos lacs de données gérés Lake Formation, qu’ils se trouvent dans votre compte ou dans d’autres comptes. Avant cette model, vous deviez configurer le rôle IAM du robotic d’exploration AWS Glue avec Service de stockage easy d’Amazon (Amazon S3) autorisations pour analyser la supply de données sur Amazon S3. Et établissez également des politiques de compartiment Amazon S3 sur le compartiment supply pour que le rôle d’analyseur accède à la supply de données S3. Vous pouvez désormais utiliser l’autorisation AWS Lake Formation définie sur le lac de données pour analyser les données et vous n’avez plus besoin de configurer des autorisations Amazon S3 dédiées pour les robots d’exploration. AWS Lake Formation gère l’accès du rôle IAM du robotic d’exploration à divers compartiments Amazon S3 et/ou à son préfixe à l’aide des autorisations d’emplacement des données pour simplifier la gestion de la sécurité. De plus, vous pouvez appliquer le même modèle de sécurité pour les robots d’exploration en plus des tâches AWS Glue, Amazon Athena pour une gouvernance centralisée.

Lorsque vous configurez un analyseur AWS Glue pour utiliser Lake Formation, par défaut, l’analyseur utilise Lake Formation dans le même compte pour obtenir les informations d’identification d’accès aux données. Cependant, vous pouvez également configurer le robotic d’exploration pour utiliser Lake Formation d’un autre compte en fournissant un ID de compte lors de la création. La capacité intercompte vous permet d’effectuer la gestion des autorisations à partir d’un compte de gouvernance central. Les purchasers préfèrent l’expérience de gouvernance centralisée à l’écriture de politiques de compartiment séparément dans chaque compte propriétaire de compartiment. Pour créer une structure de maillage de données, vous pouvez créer des autorisations dans une seule gouvernance Lake Formation pour gérer l’accès aux emplacements de données et aux robots d’exploration couvrant plusieurs comptes dans votre lac de données. Vous pouvez vous référer à Remark configurer un robotic d’exploration pour utiliser les informations d’identification de Lake Formation pour plus d’informations.

Dans cet article, nous parcourons une structure de compte distinctive qui montre remark activer les autorisations Lake Formation sur le lac de données, configurer un robotic d’exploration AWS Glue avec l’autorisation Lake Formation pour analyser et remplir le schéma d’un lac de données S3 dans les données AWS Glue. Catalog, puis utilisez un moteur d’analyse comme Amazone Athéna pour interroger les données.

Vue d’ensemble de la answer

L’analyseur AWS Glue et l’intégration de Lake Formation prennent en cost l’exploration dans le compte ainsi que l’exploration entre comptes. Vous pouvez configurer un analyseur pour qu’il utilise les autorisations Lake Formation pour accéder à un magasin de données S3 ou à une desk de catalogue de données avec un emplacement S3 sous-jacent au sein du même compte AWS ou d’un autre compte AWS. Vous pouvez configurer une desk Information Catalog existante en tant que cible d’un robotic si le robotic et la desk Information Catalog résident dans le même compte. La determine suivante montre l’structure d’exploration dans le compte.

Situations préalables

Effectuez les étapes préalables suivantes :

  1. Connectez-vous à la console Lake Formation en tant qu’administrateur.
  2. Si c’est la première fois que vous accédez à la console Lake Formation, ajoutez-vous en tant qu’administrateur du lac de données.
  3. Dans le volet de navigation, sous Catalogue de donnéeschoisir Paramètres.
  4. Désélectionner Utiliser uniquement le contrôle d’accès IAM pour les nouvelles bases de données.
  5. Désélectionner Utiliser uniquement le contrôle d’accès IAM pour les nouvelles tables dans les nouvelles bases de données.
  6. Donjon Variante 3 comme la model actuelle entre comptes.
  7. Choisir Sauvegarder.

Configurer les ressources de votre answer

Nous configurons les ressources de la answer à l’aide de AWS CloudFormation. Effectuez les étapes suivantes :

  1. Connectez-vous au Console de gestion AWS en tant qu’administrateur IAM.
  2. Choisir Pile de lancement pour déployer un modèle CloudFormation :
  3. Pour LFBusinessAnalystUserNameconserver par défaut LFBusinessAnalyst.
  4. Créez votre pile.
  5. Une fois la pile terminée, sur la console AWS CloudFormation, accédez au Ressources onglet de la pile.
  6. Notez la valeur de Databasename, DataLakeBucketet GlueCrawlerName.
  7. Choisir la LFBusinessAnalystUserCredentials valeur pour accéder à la Gestionnaire de secrets and techniques AWS console.
  8. Dans le Valeur secrète part, choisissez Récupérer la valeur secrète.
  9. Notez la valeur secrète du mot de passe pour l’utilisateur IAM LFBusinessAnalyst.

Valider les ressources

Dans votre compte, validez les ressources suivantes créées par template :

  • Base de données AWS Glue – La valeur Databasename notée à partir du modèle CloudFormation.
  • Compartiment S3 pour le lac de données avec des exemples de données – Le DataLakeBucketvalue valeur notée à partir du modèle CloudFormation.
  • Robotic d’exploration AWS Glue et rôle IAM avec l’autorisation requise – Le GlueCrawlerName valeur notée à partir du modèle CloudFormation.

Le modèle enregistre le compartiment S3 avec Lake Formation comme emplacement de données. Dans la navigation de gauche de la console Lake Formation, choisissez Information Lake places sous Register and ingest.

Le modèle accorde également l’autorisation d’emplacement des données sur le compartiment S3 au rôle d’analyseur. Dans la navigation de gauche de la console Lake Formation, choisissez Emplacements des données sous Autorisations.

Enfin, le modèle accorde l’autorisation de base de données au rôle de robotic d’exploration. Dans la navigation de gauche de la console Lake Formation, choisissez Autorisations du lac de données sous Autorisations.

Modifier et exécuter le robotic d’exploration AWS Glue

Pour configurer et exécuter l’analyseur AWS Glue, procédez comme swimsuit :

  1. Sur la console AWS Glue, choisissez Crawlers dans le volet de navigation.
  2. Localiser le robotic lfcrawler-<your-account-id> et modifiez-le.
  3. Sous Configuration de la formation du lacsélectionner Utiliser les informations d’identification de Lake Formation pour explorer la supply de données S3.
  4. Choisir Suivant.
  5. Vérifiez et mettez à jour les paramètres du robotic d’exploration.

Notez que le rôle IAM du robotic d’exploration utilise l’autorisation Lake Formation pour accéder aux données et n’a aucune stratégie S3.

  1. Exécutez le robotic et vérifiez que l’exécution du robotic est terminée.
  2. Dans la base de données AWS Glue lfcrawlerdb<your-account-id>vérifiez que la desk est créée et que le schéma correspond à ce que vous avez dans le compartiment S3.

L’analyseur a pu analyser la supply de données S3 et remplir avec succès le schéma à l’aide des autorisations Lake Formation.

Accorder l’accès à l’analyste de données à l’aide de Lake Formation

Désormais, l’administrateur du lac de données peut déléguer des autorisations sur la base de données et la desk au LFBusinessAnalyst utilisateur by way of la console Lake Formation.

Accordez le LFBusinessAnalyst Accès utilisateur IAM à la base de données avec Décrire autorisations.

  1. Sur la console Lake Formation, sous Autorisations dans le volet de navigation, choisissez Autorisation Information Lake .
  2. Choisissez Accorder
  3. Sous Mandataires, sélectionnez les utilisateurs et les rôles IAM.
  4. Choisissez les utilisateurs IAM LFBusinessAnalyst
  5. Sous LF-Tags ou ressources de catalogue, choisissez lfcrawlerdb<your-accountid> pour les bases de données.
  6. Sélectionnez Décrire pour les autorisations de base de données.
  7. Choisissez Accorder pour appliquer les autorisations.

Accordez le LFBusinessAnalyst Utilisateur IAM Sélectionner et Décrire accès au tableau.

  1. Sur la console Lake Formation, sous Autorisations dans le volet de navigation, choisissez Autorisation Information Lake.
  2. Choisissez Accorder.
  3. Sous Mandataires, sélectionnez les utilisateurs et les rôles IAM.
  4. Choisissez les utilisateurs IAM LFBusinessAnalyst.
  5. Sous LF-Tags ou ressources de catalogue, choisissez lfcrawlerdb<your-accountid> pour les bases de données et lf_datalake_<your-accountid>_<area> pour les tables
  6. Choisissez Sélectionner, Décrire pour les autorisations de desk.
  7. Choisissez Accorder pour appliquer les autorisations.

Vérifier les tables à l’aide d’Athena

Pour vérifier les tables à l’aide d’Athena, procédez comme swimsuit :

  1. Se connecter en tant que LFBusinessAnalyst en utilisant le mot de passe noté précédemment by way of la pile CloudFormation.
  2. Sur la console Athena, choisissez lfconsumer-primary-workgroup que le groupe de travail Athena.
  3. Exécutez la requête pour valider l’accès comme indiqué dans la seize d’écran suivante.

Nous avons exploré avec succès le magasin de données Amazon S3 à l’aide de l’analyseur avec l’autorisation Lake Formation et rempli les métadonnées dans AWS Glue Information Catalog. Nous avons accordé l’autorisation de Lake Formation sur la base de données et la desk à l’utilisateur consommateur et l’accès utilisateur validé aux données à l’aide d’Athena.

Nettoyer

Pour éviter des frais indésirables sur votre compte AWS, vous pouvez supprimer les ressources AWS :

  1. Connectez-vous à la console CloudFormation en tant qu’administrateur IAM utilisé pour créer la pile CloudFormation.
  2. Supprimez la pile que vous avez créée.

Résumé

Dans cet article, nous avons montré remark utiliser la nouvelle intégration du robotic AWS Glue avec Lake Formation. Les administrateurs de lac de données peuvent désormais partager des tables explorées avec des analystes de données à l’aide de Lake Formation, ce qui permet aux analystes d’utiliser des providers analytiques tels qu’Athena. Vous pouvez gérer de manière centralisée toutes les autorisations dans Lake Formation, ce qui facilite l’administration et la safety des lacs de données.

Remerciements particuliers à tous ceux qui ont contribué au lancement de cette fonctionnalité de crawler : Anshuman Sharma, Jessica Cheng, Aditya Okay, Sandya Krishnanand

Si vous avez des questions ou des options, soumettez-les dans la part des commentaires.


À propos des auteurs

Sandeep Adwankar est chef de produit method senior chez AWS. Basé dans la région de la baie de Californie, il travaille avec des purchasers du monde entier pour traduire les exigences commerciales et strategies en produits qui permettent aux purchasers d’améliorer la façon dont ils gèrent, sécurisent et accèdent aux données.

Srividya Parthasarathy est architecte Massive Information senior au sein de l’équipe AWS Lake Formation. Elle aime créer des options de maillage de données et les partager avec la communauté.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles