Les lacs de données fournissent un référentiel centralisé qui consolide vos données à grande échelle et les rend disponibles pour différents varieties d’analyses. Colle AWS Les robots d’exploration sont un moyen populaire d’analyser les données d’un lac de données, de les classer, d’en extraire des informations de schéma et de stocker automatiquement les métadonnées dans le catalogue de données AWS Glue. Formation du lac AWS vous permet de gérer, sécuriser et partager vos données de manière centralisée, et vous permet d’adapter facilement les autorisations.
Nous sommes heureux d’annoncer l’intégration du robotic d’exploration AWS Glue et de Lake Formation. Vous pouvez désormais utiliser les autorisations Lake Formation pour l’accès du robotic d’exploration à vos lacs de données gérés Lake Formation, qu’ils se trouvent dans votre compte ou dans d’autres comptes. Avant cette model, vous deviez configurer le rôle IAM du robotic d’exploration AWS Glue avec Service de stockage easy d’Amazon (Amazon S3) autorisations pour analyser la supply de données sur Amazon S3. Et établissez également des politiques de compartiment Amazon S3 sur le compartiment supply pour que le rôle d’analyseur accède à la supply de données S3. Vous pouvez désormais utiliser l’autorisation AWS Lake Formation définie sur le lac de données pour analyser les données et vous n’avez plus besoin de configurer des autorisations Amazon S3 dédiées pour les robots d’exploration. AWS Lake Formation gère l’accès du rôle IAM du robotic d’exploration à divers compartiments Amazon S3 et/ou à son préfixe à l’aide des autorisations d’emplacement des données pour simplifier la gestion de la sécurité. De plus, vous pouvez appliquer le même modèle de sécurité pour les robots d’exploration en plus des tâches AWS Glue, Amazon Athena pour une gouvernance centralisée.
Lorsque vous configurez un analyseur AWS Glue pour utiliser Lake Formation, par défaut, l’analyseur utilise Lake Formation dans le même compte pour obtenir les informations d’identification d’accès aux données. Cependant, vous pouvez également configurer le robotic d’exploration pour utiliser Lake Formation d’un autre compte en fournissant un ID de compte lors de la création. La capacité intercompte vous permet d’effectuer la gestion des autorisations à partir d’un compte de gouvernance central. Les purchasers préfèrent l’expérience de gouvernance centralisée à l’écriture de politiques de compartiment séparément dans chaque compte propriétaire de compartiment. Pour créer une structure de maillage de données, vous pouvez créer des autorisations dans une seule gouvernance Lake Formation pour gérer l’accès aux emplacements de données et aux robots d’exploration couvrant plusieurs comptes dans votre lac de données. Vous pouvez vous référer à Remark configurer un robotic d’exploration pour utiliser les informations d’identification de Lake Formation pour plus d’informations.
Dans cet article, nous parcourons une structure de compte distinctive qui montre remark activer les autorisations Lake Formation sur le lac de données, configurer un robotic d’exploration AWS Glue avec l’autorisation Lake Formation pour analyser et remplir le schéma d’un lac de données S3 dans les données AWS Glue. Catalog, puis utilisez un moteur d’analyse comme Amazone Athéna pour interroger les données.
Vue d’ensemble de la answer
L’analyseur AWS Glue et l’intégration de Lake Formation prennent en cost l’exploration dans le compte ainsi que l’exploration entre comptes. Vous pouvez configurer un analyseur pour qu’il utilise les autorisations Lake Formation pour accéder à un magasin de données S3 ou à une desk de catalogue de données avec un emplacement S3 sous-jacent au sein du même compte AWS ou d’un autre compte AWS. Vous pouvez configurer une desk Information Catalog existante en tant que cible d’un robotic si le robotic et la desk Information Catalog résident dans le même compte. La determine suivante montre l’structure d’exploration dans le compte.
Situations préalables
Effectuez les étapes préalables suivantes :
- Connectez-vous à la console Lake Formation en tant qu’administrateur.
- Si c’est la première fois que vous accédez à la console Lake Formation, ajoutez-vous en tant qu’administrateur du lac de données.
- Dans le volet de navigation, sous Catalogue de donnéeschoisir Paramètres.
- Désélectionner Utiliser uniquement le contrôle d’accès IAM pour les nouvelles bases de données.
- Désélectionner Utiliser uniquement le contrôle d’accès IAM pour les nouvelles tables dans les nouvelles bases de données.
- Donjon Variante 3 comme la model actuelle entre comptes.
- Choisir Sauvegarder.
Configurer les ressources de votre answer
Nous configurons les ressources de la answer à l’aide de AWS CloudFormation. Effectuez les étapes suivantes :
- Connectez-vous au Console de gestion AWS en tant qu’administrateur IAM.
- Choisir Pile de lancement pour déployer un modèle CloudFormation :
- Pour LFBusinessAnalystUserNameconserver par défaut
LFBusinessAnalyst
. - Créez votre pile.
- Une fois la pile terminée, sur la console AWS CloudFormation, accédez au Ressources onglet de la pile.
- Notez la valeur de
Databasename
,DataLakeBucket
etGlueCrawlerName
. - Choisir la
LFBusinessAnalystUserCredentials
valeur pour accéder à la Gestionnaire de secrets and techniques AWS console. - Dans le Valeur secrète part, choisissez Récupérer la valeur secrète.
- Notez la valeur secrète du mot de passe pour l’utilisateur IAM
LFBusinessAnalyst
.
Valider les ressources
Dans votre compte, validez les ressources suivantes créées par template :
- Base de données AWS Glue – La valeur Databasename notée à partir du modèle CloudFormation.
- Compartiment S3 pour le lac de données avec des exemples de données – Le
DataLakeBucketvalue
valeur notée à partir du modèle CloudFormation. - Robotic d’exploration AWS Glue et rôle IAM avec l’autorisation requise – Le
GlueCrawlerName
valeur notée à partir du modèle CloudFormation.
Le modèle enregistre le compartiment S3 avec Lake Formation comme emplacement de données. Dans la navigation de gauche de la console Lake Formation, choisissez Information Lake places sous Register and ingest.
Le modèle accorde également l’autorisation d’emplacement des données sur le compartiment S3 au rôle d’analyseur. Dans la navigation de gauche de la console Lake Formation, choisissez Emplacements des données sous Autorisations.
Enfin, le modèle accorde l’autorisation de base de données au rôle de robotic d’exploration. Dans la navigation de gauche de la console Lake Formation, choisissez Autorisations du lac de données sous Autorisations.
Modifier et exécuter le robotic d’exploration AWS Glue
Pour configurer et exécuter l’analyseur AWS Glue, procédez comme swimsuit :
- Sur la console AWS Glue, choisissez Crawlers dans le volet de navigation.
- Localiser le robotic
lfcrawler-<your-account-id>
et modifiez-le. - Sous Configuration de la formation du lacsélectionner Utiliser les informations d’identification de Lake Formation pour explorer la supply de données S3.
- Choisir Suivant.
- Vérifiez et mettez à jour les paramètres du robotic d’exploration.
Notez que le rôle IAM du robotic d’exploration utilise l’autorisation Lake Formation pour accéder aux données et n’a aucune stratégie S3.
- Exécutez le robotic et vérifiez que l’exécution du robotic est terminée.
- Dans la base de données AWS Glue
lfcrawlerdb<your-account-id>
vérifiez que la desk est créée et que le schéma correspond à ce que vous avez dans le compartiment S3.
L’analyseur a pu analyser la supply de données S3 et remplir avec succès le schéma à l’aide des autorisations Lake Formation.
Accorder l’accès à l’analyste de données à l’aide de Lake Formation
Désormais, l’administrateur du lac de données peut déléguer des autorisations sur la base de données et la desk au LFBusinessAnalyst
utilisateur by way of la console Lake Formation.
Accordez le LFBusinessAnalyst
Accès utilisateur IAM à la base de données avec Décrire autorisations.
- Sur la console Lake Formation, sous Autorisations dans le volet de navigation, choisissez Autorisation Information Lake .
- Choisissez Accorder
- Sous Mandataires, sélectionnez les utilisateurs et les rôles IAM.
- Choisissez les utilisateurs IAM
LFBusinessAnalyst
- Sous LF-Tags ou ressources de catalogue, choisissez
lfcrawlerdb<your-accountid>
pour les bases de données. - Sélectionnez Décrire pour les autorisations de base de données.
- Choisissez Accorder pour appliquer les autorisations.
Accordez le LFBusinessAnalyst
Utilisateur IAM Sélectionner et Décrire accès au tableau.
- Sur la console Lake Formation, sous Autorisations dans le volet de navigation, choisissez Autorisation Information Lake.
- Choisissez Accorder.
- Sous Mandataires, sélectionnez les utilisateurs et les rôles IAM.
- Choisissez les utilisateurs IAM
LFBusinessAnalyst
. - Sous LF-Tags ou ressources de catalogue, choisissez
lfcrawlerdb<your-accountid>
pour les bases de données etlf_datalake_<your-accountid>_<area>
pour les tables - Choisissez Sélectionner, Décrire pour les autorisations de desk.
- Choisissez Accorder pour appliquer les autorisations.
Vérifier les tables à l’aide d’Athena
Pour vérifier les tables à l’aide d’Athena, procédez comme swimsuit :
- Se connecter en tant que
LFBusinessAnalyst
en utilisant le mot de passe noté précédemment by way of la pile CloudFormation. - Sur la console Athena, choisissez
lfconsumer-primary-workgroup
que le groupe de travail Athena. - Exécutez la requête pour valider l’accès comme indiqué dans la seize d’écran suivante.
Nous avons exploré avec succès le magasin de données Amazon S3 à l’aide de l’analyseur avec l’autorisation Lake Formation et rempli les métadonnées dans AWS Glue Information Catalog. Nous avons accordé l’autorisation de Lake Formation sur la base de données et la desk à l’utilisateur consommateur et l’accès utilisateur validé aux données à l’aide d’Athena.
Nettoyer
Pour éviter des frais indésirables sur votre compte AWS, vous pouvez supprimer les ressources AWS :
- Connectez-vous à la console CloudFormation en tant qu’administrateur IAM utilisé pour créer la pile CloudFormation.
- Supprimez la pile que vous avez créée.
Résumé
Dans cet article, nous avons montré remark utiliser la nouvelle intégration du robotic AWS Glue avec Lake Formation. Les administrateurs de lac de données peuvent désormais partager des tables explorées avec des analystes de données à l’aide de Lake Formation, ce qui permet aux analystes d’utiliser des providers analytiques tels qu’Athena. Vous pouvez gérer de manière centralisée toutes les autorisations dans Lake Formation, ce qui facilite l’administration et la safety des lacs de données.
Remerciements particuliers à tous ceux qui ont contribué au lancement de cette fonctionnalité de crawler : Anshuman Sharma, Jessica Cheng, Aditya Okay, Sandya Krishnanand
Si vous avez des questions ou des options, soumettez-les dans la part des commentaires.
À propos des auteurs
Sandeep Adwankar est chef de produit method senior chez AWS. Basé dans la région de la baie de Californie, il travaille avec des purchasers du monde entier pour traduire les exigences commerciales et strategies en produits qui permettent aux purchasers d’améliorer la façon dont ils gèrent, sécurisent et accèdent aux données.
Srividya Parthasarathy est architecte Massive Information senior au sein de l’équipe AWS Lake Formation. Elle aime créer des options de maillage de données et les partager avec la communauté.