Dans le paysage en évolution de la gestion des données, assurer un accès sécurisé et organisé aux actifs de données est primordial. Azure Databricks, une plateforme unifiée d’analytique de données, propose Unity Catalog — une solution unifiée de gouvernance pour tous les actifs de données et d’IA. Lors du déploiement d’Azure Databricks dans un réseau virtuel (VNet), il est essentiel de comprendre les subtilités de la configuration d’Unity Catalog afin de maintenir à la fois la sécurité et l’efficacité.
Cette série de blogues en trois parties offre un guide complet sur la configuration de Unity Catalog d’Azure Databricks dans un environnement VNet. La série couvre les aspects allant de l’introduction d’Unity Catalog, aux configurations d’infrastructure et de réseau, à la sécurité, à la configuration du metastore et à l’intégration à l’espace de travail.
- Dans la partie 1, nous présentons un aperçu du catalogue Unity et expliquons comment le configurer.
- Dans la partie 2, nous abordons le processus de configuration du réseau.
- Enfin, dans la partie 3, nous concluons la série en configurant le metastore.
Commençons avec la Partie 1.
Aperçu de Unity Catalog
Le Unity Catalog est une solution unifiée de gouvernance Azure Databricks qui offre une gouvernance fine des données et des actifs d’IA. Il offre un endroit centralisé pour administrer et auditer l’accès aux données, ce qui simplifie la sécurité et la gouvernance. Les principales fonctionnalités comprennent :
- Gouvernance centralisée : Gérez le contrôle d’accès aux actifs de données dans tous les espaces de travail.
- Traçabilité des données : Suivez le flux des données à travers divers processus.
- Contrôle d’accès granulaire : Mettez en œuvre des autorisations d’accès précises au niveau du catalogue, du schéma, de la table et de la colonne.

Comment configurer le catalogue Unity
Prérequis
- Abonnement Azure avec les autorisations appropriées
- Espace de travail Azure Databricks Premium ou Enterprise
- Compte Azure avec des autorisations de propriétaire ou de contributeur
- Azure Data Lake Storage Gen2 (ADLS Gen2) comme métastore externe
- Autorisations Azure Active Directory (Azure AD) pour gérer l'accès
Configurer le connecteur d’accès Databricks au compte de stockage et à Unity Catalog

Le connecteur d’accès Databricks est une identité gérée par Azure qui fournit un accès sécurisé au stockage de données Azure Data Lake (ADLS Gen 2) sans exposer les informations d’identification.
Il permet à Unity Catalog de lire et d’écrire des données à partir d’un stockage externe de façon sécuritaire.
Étape 1 : Créer un connecteur de données
- Accédez au portail Azure -> Cherchez Connecteur d’accès Databricks -> Cliquez sur Créer
- Entrez les détails pour l’abonnement, le groupe de ressources, le nom et la région
- Cliquez sur Revoir + créer -> Cliquez sur Créer
Étape 2 : Accès au connecteur de données
Le connecteur d’accès a maintenant besoin d’une autorisation pour accéder à notre compte de stockage ADLS Gen2.
- Accédez au compte de stockage -> Contrôle d’accès (IAM) -> Ajouter une attribution de rôle
- Attribuez le rôle suivant au connecteur d’accès
- Contributeur de données BLOB de stockage (Permet l’accès en lecture/écriture)
- Sélectionner les membres -> Choisir Connecteur d’accès Databricks -> Cliquez sur Sauvegarder
Nous avons maintenant créé notre Unity Catalog. La prochaine grande étape consiste à configurer le réseau. Nous verrons cela dans la Partie 2 puis le mégastore dans la Partie 3.

