Cette série de blogues en trois parties offre un guide complet sur la configuration du catalogue Unity Databricks d’Azure dans un environnement VNet. La série couvre les aspects allant de l’introduction au catalogue Unity, aux configurations d’infrastructure et de réseautage, jusqu’à la sécurité, la configuration du metastore et l’intégration de l’espace de travail.
- Dans la Partie 1, nous avons présenté un aperçu de Unity Catalog et expliqué comment le configurer.
- Ce billet — Partie 2 — couvre le processus de configuration du réseau.
- Enfin, dans la Partie 3, nous concluons la série en configurant le métamagasin.
Puisque nous avons déjà exploré et établi notre Unity Catalog, concentrons-nous maintenant sur le processus crucial de configuration du réseau.
Configuration du réseau
Pour la configuration initiale, nous devons créer un groupe de ressources pour le réseau. Une fois le groupe de ressources réseau créé, nous pouvons créer le réseau virtuel.
Création du réseau virtuel
Sur la page d'accueil, recherchez réseaux virtuels dans la recherche globale et cliquez sur Créer pour le créer.
- Sous Abonnement, sélectionnez le nom selon le projet
- Sous Groupe de ressources sélectionnez le nom du GR selon le projet
- Donnez un nom au réseau virtuel selon la nomenclature et sélectionnez la région
- Cliquez sur Suivant
Dans la section adresses IP, supprimez l’adresse IP par défaut et saisissez l’adresse IP procurée.

- Après avoir ajouté l’adresse IP, supprimez le sous-réseau par défaut
- Cliquez sur Vérifier + créer pour la validation
- Enfin, cliquez sur Créer
Création de sous-réseau
- Sous le réseau virtuel créé, sélectionnez Sous-réseaux dans le panneau de gauche
- Cliquez sur + Sous-réseau pour en créer un nouveau
- Indiquez le nom du sous-réseau et la plage d'adresses du sous-réseau

Création d’un groupe de sécurité réseau (NSG)
- Dans la recherche globale, recherchez groupe de sécurité réseau et cliquez sur l’icône
- Pour créer un NSG, cliquez sur Créer
- Sous Abonnement, sélectionnez le nom (créez selon le nom du projet)
- Sous Groupe de ressources, sélectionnez le nom du RG
- Donnez un nom au groupe de sécurité réseau selon la nomenclature et sélectionnez la région
- Cliquez sur Vérifier + créer pour la validation
- Une fois le déploiement terminé, le NSG sera créé

Configuration du stockage
Avant de procéder à la création du stockage, un sous-réseau est configuré pour déléguer au compte de stockage.
Étapes pour créer un compte de stockage :
- Accédez au portail Azure et sélectionnez Créer une ressource.
- Dans la zone Rechercher dans la Place de marché, tapez Compte de stockage et sélectionnez-le dans la liste.
- Cliquez sur créer et fournissez les informations selon les exigences dans les onglets de base et avancés.
- Dans l’onglet Réseautage, sous Accès réseau, sélectionnez Désactiver l’accès public et utiliser l’accès privé.
- Cliquez sur + Ajouter un point de terminaison privé

Point de terminaison privé
- Abonnement : Sélectionnez Subscription Name
- Groupe de ressources : Créez un nouveau groupe de ressources ou sélectionnez-en un existant
- Emplacement : Sélectionnez un emplacement (par exemple, Centre des É.-U.)
- Nom du point de terminaison privé : Donnez un nom au point de terminaison privé
- Sous-ressource de stockage : Il s’agit de la sous-ressource précise pour le nouveau compte de stockage auquel ce point de terminaison privé pourra accéder—sélectionnez en conséquence
- Réseau virtuel : Sélectionnez VNET
- Sous-réseau : Sélectionnez un sous-réseau pour le point de terminaison privé
- Intégration DNS privé : Sélectionnez Non pour l’instant—nous configurerons après la création du point de terminaison privé
- Préférence de routage : Sélectionnez Microsoft Network Routing
- Protection des données : Configurez selon vos besoins
- Chiffrement : Configurez selon vos besoins
- Réviser + Créer : Révisez les configurations et cliquez sur Créer
- Configuration DNS : Pour le point de terminaison privé
Ensuite, allez au groupe de ressources dans lequel le point de terminaison privé a été créé, puis cliquez sur le point de terminaison privé, puis cliquez sur Configuration DNS.

Cliquez sur Ajouter une configuration.
- Sélectionnez l’abonnement selon l’emplacement
- Sélectionnez la zone DNS selon le type de ressource que nous créons et cliquez sur Ajouter
La configuration du stockage est maintenant terminée, passons donc à la configuration de Databricks.
Configuration de Databricks
Voici la liste des prérequis avant de déployer Databricks dans un réseau privé virtuel Azure.
| Élément | Détails |
|---|---|
| Réseau virtuel | Réseau virtuel pour déployer le plan de données Azure Databricks (aussi appelé injection VNET)—assurez-vous de choisir les bons blocs CIDR |
| Sous-réseaux | Trois sous-réseaux : Hôte (Public), Conteneur (Privé) et sous-réseau de point de terminaison privé (pour héberger les points de terminaison privés pour le stockage, dbfs et d'autres services Azure) |
| Tables de routage | Dirigez le trafic sortant des sous-réseaux Databricks vers l'appareil réseau, Internet ou sources de données sur site |
| Pare-feu Azure | Inspecte tout le trafic sortant et appliquez des actions selon vos politiques d'autorisation/refus |
| Zones DNS privées | Fournit un service DNS fiable et sécurisé pour gérer et résoudre les noms de domaine dans un réseau virtuel (peuvent être créées automatiquement dans le cadre du déploiement si non disponibles) |
| Azure Key Vault | Stocke la CMK pour le chiffrement de DBFS, des disques gérés et des services gérés |
| Connecteur d'accès Azure Databricks | Nécessaire si la fonctionnalité Unity Catalog est activée afin de connecter des identités managées à un compte Azure Databricks pour accéder aux données enregistrées dans Unity Catalog |
Azure Databricks prend en charge deux types de déploiement du lien privé.
Déploiement standard (recommandé) : Databricks recommande d'utiliser un point de terminaison privé distinct pour la connexion frontale à partir d'un VNet de transit séparé afin d'améliorer la sécurité.
Déploiement simplifié : Certaines organisations ne peuvent pas utiliser le déploiement standard pour diverses raisons liées à la politique réseau, comme l'interdiction de plusieurs points de terminaison privés ou l'évitement des réseaux de transit séparés.
Le schéma suivant illustre le flux réseau dans une mise en œuvre typique du déploiement standard recommandé du lien privé :

Source : https://learn.microsoft.com/en-us/azure/databricks/security/network/classic/private-link-standard
Étape 1 : Déployer Databricks dans un VPN
Dans un VNET, nous avons besoin de 3 sous-réseaux (hôte/public, conteneur/privé et point de terminaison privé).
Créez un réseau virtuel (VNet) dans un groupe de ressources avec trois sous-réseaux :
- Sous-réseau hôte (public) – Pour l'infrastructure de l'espace de travail
- Sous-réseau conteneur (privé) – Pour les ressources du cluster Databricks
- Sous-réseau de point de terminaison privé (PE) – Pour un accès sécurisé via le point de terminaison privé Azure
Planifiez la taille du sous-réseau avant le déploiement, car il n'est pas possible de le redimensionner ou de le modifier une fois l'espace de travail Databricks déployé.

Configurez le service Databricks à partir du portail Azure, comme illustré ci-dessous :



- Cliquez sur Réviser + créer
Considérations clés :
Choisir SCC/NPIP et l’injection VNet
- La connectivité sécurisée de cluster (SCC) et l'option Sans IP publique (NPIP) assurent une communication privée entre les clusters Databricks et le plan de contrôle
- Sélectionnez le VNet approprié où l’espace de travail Databricks sera déployé
Exigences de sous-réseau
- Deux sous-réseaux dédiés sont requis par espace de travail :
- Sous-réseau public – Attribue une adresse IP privée pour la VM hôte du nœud du cluster
- Sous-réseau privé – Attribue une adresse IP privée pour le conteneur Databricks Runtime
- Chaque nœud de cluster aura deux adresses IP privées
- Plage de taille de sous-réseau : /18 à /26 déterminée en fonction des prévisions de charge de travail
- L’espace d’adressage doit correspondre à la stratégie réseau de l’entreprise, même si des adresses non RFC 1918 sont utilisées
Délégation de sous-réseau et règles NSG
- Si le déploiement se fait via le portail Azure, Databricks crée automatiquement et délègue ces sous-réseaux à Microsoft Databricks/espaces de travail.
- Les groupes de sécurité réseau (NSG) sont configurés par Databricks, avec un préavis pour toute mise à jour.
- Des sous-réseaux préexistants peuvent être utilisés s'ils répondent aux exigences de Databricks.
Mappage de sous-réseau et d’espace de travail
- Chaque espace de travail Databricks nécessite sa propre paire de sous-réseaux (public et privé)
- Les sous-réseaux ne peuvent pas être redimensionnés une fois que l’espace de travail est déployé
- Le déploiement crée un groupe de ressources géré, qui ne peut pas être modifié
Améliorations de la sécurité et du lien privé
- Prise en charge des liens privés :
- Interface utilisateur : Désactive l'accès au réseau public pour les connexions utilisateur vers l'espace de travail
- Arrière-plan : Restreint la communication du plan de contrôle sans exposition publique
- Des points de terminaison privés peuvent être configurés pour un déploiement Databricks entièrement privé
Chiffrement et protection des données
- Activer les clés gérées par le client (CMK) pour chiffrer DBFS, les services gérés et les disques afin d'améliorer la sécurité
Règles de sécurité réseau :
Règles entrantes

- Communication entre travailleurs - Permet le trafic entre les instances du cluster afin que les conducteurs et les travailleurs puissent communiquer sans interruption
- Accès au metastore - Permet le trafic sortant du sous-réseau public vers le Hive Metastore (HMS) par défaut pour la gestion des métadonnées
- Accès au plan de contrôle - Permet le trafic sortant du sous-réseau public vers le plan de contrôle Databricks, incluant :
- Connectivité sécurisée du cluster (SCC)
- Applications Web (UI et API)
Remarque : Le tag de service Azure Databricks n'est pas ajouté aux règles NSG si le lien privé en arrière-plan est activé.
- Accès au stockage - Permet le trafic sortant du sous-réseau public vers les ressources essentielles du plan de contrôle, telles que :
- Stockage des journaux
- Artéfacts
- Databricks File System (DBFS)
- Ports additionnels pour le lien privé - Les ports 443 et 6666 doivent être ajoutés pour le trafic sortant vers le sous-réseau de point de terminaison privé
- Les mêmes ports doivent être ouverts pour le trafic entrant dans les règles NSG du sous-réseau de point de terminaison privé
Règles sortantes

Règle de trafic sortant (65001)
- Par défaut, la règle 65001 permet la sortie vers Internet lorsqu'un NSG est créé
- Ce comportement sera ensuite remplacé en faisant passer tout le trafic sortant des sous-réseaux Databricks par un pare-feu, garantissant ainsi qu'il n'y ait aucun accès direct à Internet public
Étape 2 : Étapes pour configurer NCC
La configuration de la connectivité réseau (NCC) est essentielle pour établir des connexions sécurisées entre l’espace de travail Databricks et le calcul sans serveur afin d’assurer un accès sécurisé au compte de stockage, surtout lorsque l’accès réseau public est désactivé.
- Lancer l’espace de travail Databricks
- Cliquez sur Gérer le compte—allez à la console d’administration Unity Catalog
- Cliquez sur Ressources cloud
- Ajouter une configuration de connectivité réseau

- Ajoutez un nom pour l'objet et sélectionnez la région
- Après avoir créé le NCC, allez à l'intérieur et cliquez sur Point de terminaison privé
- Ajoutez un point de terminaison privé de type Dfs et Blob
- Ajoutez l’ID de ressource du compte de stockage, et dans le type de sous-ressource, ajoutez Dfs et Blob

Vérifier la connectivité
- Testez la connexion en exécutant une commande DML/DDL à partir du SQLwarehouse
- Assurez-vous que les paramètres de Pare-feux et réseaux virtuels du compte de stockage permettent l’accès depuis le VNet et l’adresse IP sélectionnés
Recommandation : Pour assurer un accès sécurisé au compte de stockage, il est recommandé de configurer une connectivité privée à partir du calcul sans serveur.
Étape 3 : Déployer des règles dans le pare-feu Azure
Créez une collection de règles réseau et de règles d’application comme suit. Notez que les règles d’application sont facultatives si le trafic sortant passe par UDR (discuté dans la section suivante).
- Le balise de service Azure Databricks n’est pas requise si des points de terminaison privés sont activés pour l’espace de travail
- Azure Databricks effectue également des appels supplémentaires au service NTP, au CDN, à Cloudflare, aux pilotes GPU et au stockage externe pour les ensembles de données de démonstration, qui doivent être dûment ajoutés à la liste d’autorisation
- Attachez la stratégie de pare-feu au pare-feu
Étape 4 : Créer des routes définies par l’utilisateur (UDR)
- À ce stade, la plupart des étapes d'installation de l'infrastructure pour un déploiement sécurisé et verrouillé ont été complétées. Nous devons maintenant acheminer le trafic approprié des sous-réseaux de l'espace de travail Azure Databricks vers le plan de contrôle et le pare-feu Azure.
- Ajoutez des routes dans la table de routage pour acheminer tout le trafic vers les appliances virtuelles (pare-feu Azure).
Nous l'avons fait! La configuration du réseau est terminée. Il ne reste qu'une étape : la configuration du metastore, que nous aborderons dans partie 3. À bientôt!

