Cette série de blogues en trois parties offre un guide complet pour la configuration du catalogue Unity de Databricks dans un environnement VNet. La série couvre les aspects allant de l’introduction au catalogue Unity, la configuration de l’infrastructure et du réseautage, jusqu’à la sécurité, la mise en place du metastore et l’intégration de l’espace de travail.
- Dans la Partie 1, nous avons présenté un aperçu du catalogue Unity et comment le configurer.
- Dans la Partie 2, nous avons couvert le processus de configuration du réseau.
- Ce blogue — Partie 3 — conclut la série en expliquant le processus de configuration du metastore.
Configurons ce metastore.
Configurer le metastore
Étape 1 : Créer le metastore
Un metastore est un référentiel de métadonnées pour le catalogue Unity qui gère les catalogues, les schémas, les tables et les permissions.
- Accédez à l’interface de Databricks → cliquez sur Gérer les comptes (ou rendez-vous ici : https://accounts.azuredatabricks.net)
- Cliquez sur Paramètres administrateur → Créer un metastore
- Saisissez les détails :
- Nom du metastore : (ex. : my_unity_metastore)
- Région : doit correspondre à l’espace de travail Databricks et au connecteur d’accès (un metastore par région)
- Chemin racine du stockage : ex. : abfss://<directory_name>@<storageaccount>. dfs.core.windows.net/
- À titre de bonne pratique, il n’est PAS recommandé d’entreposer des données d’application dans la racine du stockage blob (DBFS)
- Il est fortement recommandé d’entreposer les données d’application sur un stockage ADLS Gen2 externe
- Connecteur d’accès : sélectionnez celui créé (databricks-access-connector)
- Cliquez sur Créer
- Attribuez des permissions au metastore
Étape 2 : Attacher un espace de travail au metastore
- Allez dans Paramètres administrateur → Espaces de travail dans Databricks
- Sélectionnez l’espace de travail Databricks
- Cliquez sur Assigner un metastore et sélectionnez le metastore créé précédemment (my_unity_metastore)
- Cliquez sur Confirmer
Étape 3 : Activer les fonctionnalités du catalogue
Activer le calcul sans serveur
Le calcul sans serveur doit être activé pour que tout modèle puisse accéder à la fonction personnalisée (SQL/Python).
- Dans la console du compte, cliquez sur Paramètres
- Cliquez sur l’onglet Activation des fonctionnalités
- Activez l’option Calcul sans serveur pour les workflows, les notebooks et DLT
Étape 4 : Valider la configuration
- Déployez une machine virtuelle avec le VNet si l’accès frontal est désactivé
- Accédez à l’espace de travail Azure Databricks, lancez et créez un cluster
- Créez un notebook, attachez-le au cluster et effectuez un test
- Accédez à l’éditeur SQL, lancez un entrepôt sans serveur et exécutez une commande DDL/DML pour vérifier l’accès au stockage
- Créez une fonction SQL/Python et allez dans le bac à sable pour y accéder à l’aide d’un modèle afin de vérifier le calcul sans serveur
Conclusion : Résumé de la Partie 3
La configuration du catalogue Unity Databricks sur Azure dans un environnement VNet assure un accès sécurisé, évolutif et gouverné aux données structurées et non structurées. La configuration du réseau, de la sécurité, du metastore et des intégrations d’espaces de travail permet d’établir un modèle centralisé de gouvernance des données tout en maintenant un contrôle d’accès granulaire grâce à Azure AD, au catalogue Unity et aux connecteurs d’accès Databricks.
Avec une gestion appropriée des identités, un contrôle d’accès basé sur les rôles et des politiques de sécurité du stockage, les entreprises peuvent collaborer aisément à travers plusieurs espaces de travail tout en assurant la conformité et la sécurité de l’architecture de données. En suivant ce guide, nous pouvons mettre en œuvre avec succès le catalogue Unity dans une configuration VNet, offrant ainsi aux organisations une gestion des données efficace, bien gouvernée et sécuritaire.
Si vous avez manqué les deux premiers blogues de la série, vous pouvez les retrouver ici :
Références
Qu’est-ce que le catalogue Unity? - Azure Databricks | Microsoft Learn
Réseautage - Azure Databricks | Microsoft Learn
Réseautage du plan de calcul classique - Azure Databricks | Microsoft Learn
Activer Azure Private Link comme déploiement standard - Azure Databricks | Microsoft Learn
