Mettre en œuvre une solution d’archivage robuste et évolutive à l’aide de Databricks
Notre client est une entreprise pharmaceutique mondiale spécialisée dans les produits, médicaments, technologies et services vétérinaires avancés pour la santé animale. Ils utilisaient des modèles de données de prévision prédictive stockés dans leur Gestion de la relation client (CRM) et d'autres plateformes de produits infonuagiques pour soutenir la recherche et les stratégies de vente. En raison de volumes élevés de données opérationnelles, la capacité de stockage de leur CRM a atteint le seuil de 90 %, entraînant des ralentissements opérationnels. Les outils d’archivage existants et les autres espaces de stockage infonuagiques étaient inadéquats pour traiter de grands volumes de données. HCLTech a recommandé Databricks pour un stockage et un calcul efficaces, ainsi que Matillion pour l’orchestration des tâches, en stockant les données dans AWS S3 afin de gérer efficacement leur charge.
Les défis
Résoudre les limites de performance et de stockage du CRM
Notre client rencontrait fréquemment des problèmes en production et cherchait une solution efficace immédiate pour remédier au problème de ses utilisateurs d'affaires. Voici quelques-uns des défis rencontrés par notre client :

- Problèmes liés aux performances : Temps de recherche plus longs que prévu, temps d’enregistrement des dossiers prolongés, longue attente pour accéder aux dossiers et remplir les champs à l’écran et autres actions prenant un temps excessif à s’accomplir.
- Processus d’optimisation des données : Le processus manuel d’archivage des données était laborieux. L’impossibilité de mettre à jour les dossiers entraînait des interruptions fréquentes du processus.
- Coût du stockage des données : Près d’un téraoctet de données était généré chaque mois et comme le stockage de données CRM existant était sous licence, cela nécessitait des dépenses supplémentaires pour l’achat.
- Indisponibilité des données lors d’un problème de production : Des tâches critiques échouaient en raison de bris de processus, rendant les données analytiques courantes indisponibles pour les utilisateurs finaux.
- Perte de données client : Un risque de perte de données importantes pendant la suppression des dossiers anciens.
- Risque dans la gestion de la rétention des données : La purge manuelle présentait un risque d’effacement de données à l’intérieur de la période de conservation.
HCLTech a bâti un cluster cloud sur Databricks à l’aide d’une fonctionnalité de calcul propulsée par Apache SparkMC, ce qui a permis de stocker les données dans AWS S3 et nous avons utilisé Matillion ETL pour l’orchestration des tâches.
L’objectif
Mettre en œuvre l’archivage automatique des données CRM à l’aide de Databricks
On nous a confié la tâche de créer une plateforme simplifiée pour l’intégration des données et la gestion de l’infrastructure infonuagique à l’aide de Databricks et Matillion. La plateforme unifiée ainsi obtenue, flexible et rentable, s’est intégrée sans effort au stockage infonuagique AWS, améliorant l’efficacité de la plateforme et favorisant l’analyse des données d’affaires. La solution a permis de relever les défis opérationnels quotidiens, d’optimiser les coûts de licences et de gérer efficacement le stockage – impressionnant le client par ses capacités complètes de traitement, de visualisation et de gestion de la sécurité des données.

La solution
L’informatique en grappe Databricks a efficacement relevé le défi de notre client
Databricks Lakehouse a été choisi pour ses capacités robustes de gestion des données, offrant flexibilité, rentabilité et évolutivité.
L’informatique infonuagique Databricks fournit des ressources pour exécuter divers types de charges de travail telles que l’ingénierie des données, la science des données et l’analytique. La solution d’archivage a tiré parti du calcul Databricks pour exécuter des pipelines d’orchestration Matillion, gérant efficacement la diffusion et le stockage des données CRM. Des fonctionnalités telles que la sauvegarde des notebooks en scripts python et sa plateforme unifiée (offrant Python, SQL, ML-Runtimes, ML-Flow et Spark) ont facilité l’intégration transparente et suscité l’appréciation du client. Les utilisateurs accédaient aux données archivées à l’aide de Python et SQL, au besoin.

L’incidence
La solution d’archivage évolutive d’HCLTech a amélioré l’efficacité des coûts et la productivité
HCLTech a déployé une solution efficace pour répondre aux besoins du client, réduisant les coûts globaux en tirant parti de Databricks cloud sur AWS cloud Marketplace.

Les principaux avantages comprenaient :
- Configuration et administration faciles du cluster informatique cloud Databricks
- Élimination des problèmes de production liés à l’archivage des données
- Productivité, efficacité et fiabilité accrues de 15 % dans le CRM grâce à l’archivage efficace des données historiques à l’aide de Databricks
- ~15 % d’économies sur les coûts de licence de stockage CRM
- Évolutivité améliorée de 10x à 40x pour gérer le traitement de gros volumes de données, y compris le stockage des pièces jointes en format encodé, offrant de la flexibilité pour les besoins futurs
- Automatisation de la politique de conservation des données conforme aux exigences réglementaires
- Archivage réussi des données historiques, libérant de l’espace dans la production actuelle et améliorant les activités d’affaires quotidiennes telles que les chargements ETL et l’accès au CRM
