Configurer Unity Catalog dans Azure Databricks VNet - Partie 1

Dans le paysage en évolution de la gestion des données, assurer un accès sécurisé et organisé aux actifs de données est primordial. Azure Databricks, une plateforme unifiée d’analytique de données, propose Unity Catalog — une solution unifiée de gouvernance pour tous les actifs de données et d’IA. Lors du déploiement d’Azure Databricks dans un réseau virtuel (VNet), il est essentiel de comprendre les subtilités de la configuration d’Unity Catalog afin de maintenir à la fois la sécurité et l’efficacité.

Cette série de blogues en trois parties offre un guide complet sur la configuration de Unity Catalog d’Azure Databricks dans un environnement VNet. La série couvre les aspects allant de l’introduction d’Unity Catalog, aux configurations d’infrastructure et de réseau, à la sécurité, à la configuration du metastore et à l’intégration à l’espace de travail.

Dans la partie 1, nous présentons un aperçu du catalogue Unity et expliquons comment le configurer.
Dans la partie 2, nous abordons le processus de configuration du réseau.
Enfin, dans la partie 3, nous concluons la série en configurant le metastore.

Commençons avec la Partie 1.

Aperçu de Unity Catalog

Le Unity Catalog est une solution unifiée de gouvernance Azure Databricks qui offre une gouvernance fine des données et des actifs d’IA. Il offre un endroit centralisé pour administrer et auditer l’accès aux données, ce qui simplifie la sécurité et la gouvernance. Les principales fonctionnalités comprennent :

Gouvernance centralisée : Gérez le contrôle d’accès aux actifs de données dans tous les espaces de travail.
Traçabilité des données : Suivez le flux des données à travers divers processus.
Contrôle d’accès granulaire : Mettez en œuvre des autorisations d’accès précises au niveau du catalogue, du schéma, de la table et de la colonne.

Comment configurer le catalogue Unity

Prérequis

Abonnement Azure avec les autorisations appropriées
Espace de travail Azure Databricks Premium ou Enterprise
Compte Azure avec des autorisations de propriétaire ou de contributeur
Azure Data Lake Storage Gen2 (ADLS Gen2) comme métastore externe
Autorisations Azure Active Directory (Azure AD) pour gérer l'accès

Configurer le connecteur d’accès Databricks au compte de stockage et à Unity Catalog

Le connecteur d’accès Databricks est une identité gérée par Azure qui fournit un accès sécurisé au stockage de données Azure Data Lake (ADLS Gen 2) sans exposer les informations d’identification.

Il permet à Unity Catalog de lire et d’écrire des données à partir d’un stockage externe de façon sécuritaire.

Étape 1 : Créer un connecteur de données

Accédez au portail Azure -> Cherchez Connecteur d’accès Databricks -> Cliquez sur Créer
Entrez les détails pour l’abonnement, le groupe de ressources, le nom et la région
Cliquez sur Revoir + créer -> Cliquez sur Créer

Étape 2 : Accès au connecteur de données

Le connecteur d’accès a maintenant besoin d’une autorisation pour accéder à notre compte de stockage ADLS Gen2.

Accédez au compte de stockage -> Contrôle d’accès (IAM) -> Ajouter une attribution de rôle
Attribuez le rôle suivant au connecteur d’accès
1. Contributeur de données BLOB de stockage (Permet l’accès en lecture/écriture)
Sélectionner les membres -> Choisir Connecteur d’accès Databricks -> Cliquez sur Sauvegarder

Nous avons maintenant créé notre Unity Catalog. La prochaine grande étape consiste à configurer le réseau. Nous verrons cela dans la Partie 2 puis le mégastore dans la Partie 3.

Configuration d’un catalogue Unity Azure Databricks dans un réseau VNet, partie 1 sur 3

Configuration d’un catalogue Unity Azure Databricks dans un Vnet, partie 3 sur 3

Partie 2 : Configuration d’un catalogue Unity Azure Databricks dans un réseau Vnet

Configuration d’un catalogue Unity Azure Databricks dans un réseau VNet, partie 1 sur 3

Related Contenu

Redéfinir l’expérience des patient·e·s avec l’IA générative

Transformer les nouvelles recrues en capacité facturable : L'avenir de l'intégration des médecins

HCLTech logIQ : Enquête et résolution d’incidents agentiques sur AWS

Plus de Kalyana Murugan Manicka Vadivel

Configuration d’un catalogue Unity Azure Databricks dans un Vnet, partie 3 sur 3

Partie 2&nbsp;: Configuration d’un catalogue Unity Azure Databricks dans un réseau Vnet

Partie 2 : Configuration d’un catalogue Unity Azure Databricks dans un réseau Vnet