Donner à un acteur majeur des sciences de la vie les moyens de moderniser ses données sur AWS
Le client est une entreprise biopharmaceutique américaine de premier plan spécialisée dans la découverte de médicaments, les essais cliniques et la recherche en génomique. Sa mission est d’améliorer les soins de santé et de fournir des médicaments et des solutions innovants. Les travaux de l’entreprise répondent à des défis de santé complexes et améliorent de manière significative la qualité de vie. Elle se consacre au développement, à la fabrication et à la commercialisation de médicaments pour les maladies chroniques et complexes.
Le défi
Le client était confronté à des défis liés à sa chaîne d’approvisionnement, à la qualité des données, à l’inventaire, au système d’exécution de la fabrication (MES) et aux données CS, aux données d’achat, aux données de fabrication et à l’infrastructure de traitement des données de recherche sur les serveurs infonuagiques Amazon. Il utilisait des instances Amazon pour les flux de travail de données via Apache Hadoop et Apache Spark. Cependant, l’augmentation du volume de données et la complexité du traitement ont entraîné des défis en matière de mise à l’échelle, de performance et de coûts.

- Problèmes de mise à l’échelle – L’installation actuelle des serveurs infonuagiques avait du mal à gérer le volume croissant de données génomiques, d’essais cliniques et de recherche, causant des goulets d’étranglement en matière de performance
- Coûts opérationnels élevés – Le maintien et la mise à l’échelle des instances infonuagiques pour le traitement de grands ensembles de données ont entraîné des coûts opérationnels importants
- Gestion complexe – La gestion et la configuration des instances de serveur infonuagique nécessitaient des efforts considérables et une expertise technique, détournant des ressources des activités de recherche principales
- Retards dans le traitement des données – Le traitement de grands ensembles de données prenait beaucoup de temps, affectant l’analyse des essais cliniques, de la génomique, de la découverte de médicaments, de la chaîne d’approvisionnement, de la qualité, de l’inventaire, du MES et des données CS, de l’achat, de la fabrication et des processus de recherche
L'objectif
Améliorer l'infrastructure de traitement des données du client sur les serveurs cloud d'Amazon impliquait d'améliorer la scalabilité afin de gérer des volumes de données croissants, de réduire les coûts opérationnels liés à la maintenance et à la mise à l'échelle des instances cloud, de simplifier la gestion des instances de serveurs cloud et de réduire les retards de traitement des données. L'objectif était d'optimiser l'analyse de divers types de données, améliorant ainsi l'efficacité des activités de recherche principales.


La solution
La solution a permis de faire passer l'infrastructure de traitement des données d'Amazon EC2 à Amazon EMR pour divers types de données. Elle visait à résoudre les problèmes du client en exploitant l'évolutivité et la rentabilité d'Amazon EMR. Ce faisant, elle a optimisé des fonctions clés de l'entreprise telles que la découverte de médicaments, les essais cliniques et la recherche en génomique.
Évaluation et planification
- Une évaluation approfondie de l'infrastructure actuelle basée sur EC2 et des flux de traitement des données propres à la recherche en génomique, aux essais cliniques et à la découverte de médicaments a été réalisée
- Les exigences et les contraintes spécifiques aux besoins de traitement des données du client dans le domaine des sciences de la vie ont été identifiées

Configuration de l'environnement
- Des clusters Amazon EMR adaptés aux besoins en traitement de données du client en génomique, analyse de données cliniques et bio-informatique ont été configurés
- Une connectivité sécurisée entre les sources de données du client et l'environnement EMR a été établie à l'aide d'AWS Direct Connect et d'Amazon VPC, garantissant la conformité avec les réglementations du secteur telles que la HIPAA (Health Insurance Portability and Accountability Act) et le RGPD (Règlement général sur la protection des données)
Migration des données
- Les jeux de données existants ont été transférés d'Amazon EC2 vers Amazon S3 pour faciliter un traitement efficace des données dans Amazon EMR
- L'intégrité des données et un temps d'arrêt minimal ont été assurés pendant la migration, ce qui est crucial pour les essais cliniques et les activités de recherche en cours
Optimisation et tests
- Les configurations des clusters EMR ont été optimisées pour maximiser la performance et la rentabilité lors du traitement de données génomiques à grande échelle et d'analyses d'essais cliniques
- Des tests rigoureux ont été effectués pour valider la performance et la fiabilité de la nouvelle configuration, garantissant l'exactitude et le respect des protocoles de recherche
Déploiement et surveillance
- Les flux de traitement des données ont été déployés sur Amazon EMR, permettant une analyse rationalisée des données génomiques, des résultats des essais cliniques et des ensembles de données sur la découverte de médicaments
- Des mécanismes de surveillance et d'alerte ont été mis en place à l'aide d'Amazon CloudWatch pour assurer le bon fonctionnement et la résolution rapide des incidents, ce qui est essentiel pour maintenir l'intégrité de la recherche et la conformité
L'impact
La migration vers Amazon EMR a considérablement amélioré l'infrastructure de traitement des données du client. Voici l'impact de cette transformation :

- Évolutivité accrue – Le client peut désormais faire évoluer ses capacités de traitement pour gérer des ensembles de données plus volumineux et des exigences accrues en matière de traitement dans la génomique et les essais cliniques
- Réduction des coûts – La migration vers Amazon EMR a permis de réduire considérablement les coûts opérationnels grâce au modèle de tarification avantageux d’EMR
- Performance améliorée – Les temps de traitement des données ont été drastiquement réduits, permettant des analyses et une prise de décision plus rapides en découverte de médicaments et dans les essais cliniques
- Gestion simplifiée – Le client a constaté une réduction de la complexité et des charges opérationnelles grâce à la gestion d’Amazon EMR, permettant aux chercheurs de se concentrer sur les activités scientifiques principales
- Infrastructure pérenne – Doté d'une infrastructure robuste et évolutive, le client est mieux équipé pour faire face à la croissance future et à l’évolution des besoins en traitement de données, assurant une innovation continue dans le secteur des sciences de la vie
- Temps réduit – Le temps consacré à la gestion des clusters est passé de dix heures/semaine à seulement deux heures/semaine, soit une réduction de 80 %
- Processus accéléré – Le temps d’exécution des tâches est passé de huit heures à trois heures, une amélioration de 62,5 %, permettant un traitement des données plus rapide
- Cycle réduit – Le coût par tâche est passé de 500 $ à 200 $, soit une réduction de 60 %, ce qui a également contribué à réduire les coûts opérationnels globaux et à améliorer l’efficacité
- Fiabilité accrue – Le taux d’erreur est passé de 5 % à 1 % et le temps consacré à la résolution des erreurs a considérablement diminué, augmentant ainsi la productivité et la fiabilité globales
Services AWS utilisés
- Amazon EMR
- Amazon EC2
- Amazon EBS
- Image Machine Amazon
- AWS Identity and Access Management
- Amazon VPC
- Amazon S3
