Rationalisation des flux de données pour améliorer l’efficacité grâce à Databricks
Résumé
Notre client est une société pharmaceutique américaine qui développe des médicaments, des vaccins et des produits de santé animale. Il avait besoin de services de conseil et de données pour mener plusieurs activités de recherche afin d’atteindre ses objectifs commerciaux.
Avec leur plateforme initiale d’ingénierie des données pour construire des pipelines de données intelligents à travers des architectures hybrides et multi-cloud et pour alimenter l’analytique moderne et l’intégration hybride, le client a constaté certains dépassements de périmètre et une augmentation des coûts.
C’est pourquoi il a sollicité l’aide de HCLTech. Nous avons proposé de passer aux workflows Databricks afin d’améliorer la rapidité, l’efficacité, la précision, la flexibilité et la rentabilité. Propulsé par Delta Lake, Databricks combine le meilleur des entrepôts de données et des lacs de données dans une architecture lake house, offrant à nos clients une plateforme unifiée pour la collaboration, les données, l’analytique et la gestion des charges de travail d’IA. HCLTech a créé une nouvelle solution qui intègre le traitement par lots et en continu et comprend une gestion personnalisée des erreurs ainsi que l’envoi de notifications en temps opportun à l’équipe de Support à la Maintenance Applicative (AMS) à l’aide de Databricks.
Le défi
Rationalisation des opérations de données en passant à Databricks pour une efficacité et une intégration accrues
- Notre client a rencontré des défis avec leur plateforme actuelle, car elle ne pouvait pas répondre adéquatement aux tâches d’ingénierie des données et elle était incapable de planifier efficacement les instances backend, entraînant une consommation de ressources inutile
- Dans leur plateforme existante, les sources de données étaient sur plusieurs plateformes et il s’agissait d’une tâche complexe et longue d’intégrer plus de 145 applications, de télécharger des codes et d’exécuter divers travaux
- Leur plateforme actuelle était incapable de planifier les instances backend, qui continuaient de tourner, ce qui augmentait le coût d’utilisation des ressources
- Un cadre de gestion des erreurs n’était pas disponible et les notifications en temps opportun ne pouvaient pas être envoyées à l’équipe AMS
- Enfin, leur plateforme actuelle manquait de stabilité et nécessitait souvent une maintenance régulière, ce qui avait un impact sur les opérations de données
Opter pour Databricks – une plateforme de données cloud, propulsée par Apache Spark™, Delta Lake et ML Flow – permettrait de résoudre leurs problèmes.
L’objectif
Révolutionner l’intelligence des données d’entreprise grâce à l’analytique unifiée et à l’IA à grande échelle
HCLTech s’est vu confier la gestion et le déploiement de l’infrastructure infonuagique en utilisant la plateforme Databricks Data Intelligence. La plateforme d’analytique ouverte et unifiée s’intègre parfaitement au stockage infonuagique AWS et à la sécurité. Les flux de travail personnalisés de HCLTech ont amélioré l’efficacité de la plateforme, permettant la création, le déploiement, le partage et la maintenance réussis de solutions de données, d’analytique et d’IA de niveau entreprise à grande échelle. Avec des capacités allant du traitement des données à la visualisation et à la gestion de la sécurité, notre client a été impressionné lorsque HCLTech a exploité les fonctionnalités d’IA générative pour répondre aux divers besoins de notre client. La solution de HCLTech a de plus optimisé l’efficacité en prenant en charge le traitement par lot et en continu tout en migrant les applications existantes, menant à une meilleure utilisation des ressources et à la cessation des opérations continues d’instances backend.
La solution
Libérer le potentiel des données en tirant parti de Databricks Lakehouse pour des analyses unifiées
Notre client a opté pour Databricks Lakehouse pour sa fusion des capacités de lac de données et d’entrepôt de données, offrant flexibilité, rentabilité et évolutivité en plus de la fiabilité transactionnelle des entrepôts de données. La gestion des données sur Databricks repose sur les principes de transactions ACID (Atomicité, Cohérence, Isolation et Durabilité) couramment associés aux entrepôts de données.
- Le cadre de la plateforme Databricks Data Intelligence a permis l’exécution impeccable de tâches de Business Intelligence (BI) et d’apprentissage automatique (ML) sur une large gamme de types de données
- Notre solution a utilisé Databricks pour construire une gestion de pipelines traitant les flux de données en continu et en lot pour les applications, accommodant divers types de données de manière économique
- Les fonctionnalités de Databricks permettant d’enregistrer les notebooks en tant que scripts Python ont facilité une intégration transparente, tandis que sa plateforme unifiée offrant Python, SQL, ML-Runtimes, ML-Flow et Spark a suscité l’appréciation du client
- Databricks a facilité le déploiement de clusters, s’intégrant de manière transparente à plus de 145 applications, facilitant le téléversement de codes et l’exécution de tâches via une interface utilisateur conviviale basée sur le navigateur ou une API REST pour notre client, afin que toutes leurs données, analyses et tâches d’IA restent sur une plateforme de données unifiée
- Ces pipelines traitaient les données LAN, WiFi et capteurs provenant de divers bâtiments (à partir des systèmes sources), les transformant selon les besoins de l’entreprise avant de les stocker dans le Data Lake AWS S3
- Les utilisateurs finaux accédaient aux tableaux de bord via le Data Lake organisé de façon appropriée, facilitant la gestion des données à travers diverses sources grâce aux pipelines de données facilement accessibles
L'impact
Exploiter Databricks pour une intégration évolutive en optimisant l’infrastructure de données
HCLTech a planifié efficacement les instances sur Databricks afin de répondre aux besoins du client et de réduire les coûts globaux. Databricks a rationalisé l’ingestion de données, automatisé le traitement ETL, assuré l’orchestration fiable des flux de travail et offert une observabilité et une surveillance complètes. Parmi les autres avantages clés :
- Configuration et administration faciles de la plateforme Databricks sur AWS Cloud Marketplace
- Databricks Lakehouse offrait un accès API à plus de 145 intégrations et une connectivité transparente avec des systèmes externes tels que Redshift, Cassandra et Snowflake
- Il y a eu une réduction de 20 % des coûts d’infrastructure infonuagique grâce à l’architecture Databricks Serverless, ce qui a permis une intégration plus rapide
- Un gain d’efficacité de 20 % pour les tâches d’ingénierie des données a été atteint après la migration vers Databricks
- La fonction de mise à l’échelle automatique ajoutait des ressources dynamiquement pour répondre à la demande croissante et les retirait lorsqu’elles n’étaient pas nécessaires, réduisant ainsi considérablement les coûts