Stabilité et disponibilité avec observabilité complète du stack

Atteindre la stabilité et la disponibilité grâce à l'observabilité du stack complet

5 min de lecture

aperçu

Une grande entreprise fintech mondiale, en collaboration avec HCLTech, a entrepris une voyage d’observabilité visant à améliorer la fiabilité et la performance de ses plateformes principales. Le programme a été conçu en alignement avec les flux de valeur métier pour aider les plateformes à atteindre une meilleure surveillance, gestion du budget d’erreurs et des objectifs de niveau de service (SLO) en mettant en œuvre des outils et des pratiques d’observabilité à travers l’écosystème, en tirant parti des outils existants tels que Dynatrace, Splunk, Prometheus, etc.

Le défi

Les plateformes du client étaient confrontées à plusieurs défis opérationnels, notamment une visibilité limitée sur les processus critiques tels que les transferts en lot, beaucoup de travail manuel lié à la surveillance, des processus de surveillance non standardisés, et l'absence d'une solution centralisée de journalisation. De plus, les SLO n’étaient pas définis, ce qui limitait la capacité à mesurer l’expérience des utilisateurs et la fiabilité du service sur différentes plateformes.

L’objectif

L’objectif principal du programme était d’accélérer la stabilité et la fiabilité de la plateforme pour 80 plateformes couvrant Plateformes de services bancaires de base, de gestion de patrimoine et de marchés des capitaux. Cela exigeait l’identification des parcours clients, la documentation et la mise en œuvre des SLO et des indicateurs de niveau de service (SLI) sur tous les services critiques. Ce faisant, le programme visait à réduire le labeur, à améliorer l’observabilité de la plateforme et à renforcer l’expérience utilisateur tout en respectant les SLA commerciaux contractuels et en intégrant les pratiques d’ingénierie du chaos.

La solution

L’approche d’observabilité axée sur le domaine et la mise en œuvre de HCLTech ont été divisées en phases :

Identification des chaînes de valeur métier : Les chaînes de valeur et les parcours clients ont été identifiés, priorisés et mis en œuvre en fonction de la valeur commerciale livrée.
Documentation SLI/SLO : Une évaluation complète a été réalisée pour documenter les SLO/SLI pour chaque plateforme. Les budgets d’erreurs ont été documentés selon les services critiques et les parcours utilisateurs. Des modèles et documents réutilisables ont été développés pour une opérationnalisation efficace.
Amélioration continue : Les examens mensuels des SLI/SLO, combinés à des politiques de budget d’erreurs, ont aidé à prioriser les améliorations, réduire les tâches répétitives et améliorer l’automatisation.

L'impact

La mise en œuvre du programme a entraîné des améliorations significatives :

Agilité opérationnelle : Amélioration de 2x du nombre de changements livrés en production
Réduction de la charge opérationnelle d’environ 20 % : Les stratégies de journalisation centralisée et les outils d’observabilité ont fourni des informations exploitables, réduisant l’effort manuel nécessaire à la surveillance.
Fiabilité du service améliorée et réduction des incidents de 10 % : Les plateformes possèdent désormais des SLIs et SLOs définis, avec des mécanismes d’alerte en cas de violation des SLO, assurant une meilleure disponibilité et une expérience utilisateur supérieure.
Maturité accrue de la plateforme et amélioration du temps moyen de rétablissement (MTTR) de 30 % : Les plateformes sont passées d’une surveillance basique au niveau de l’infrastructure à une observabilité plus sophistiquée au niveau applicatif, l’expérience utilisateur étant mesurée par la latence et les taux d’erreur.
Cycles de publication des fonctionnalités produits réduits : passage de versions mensuelles à des versions toutes les deux semaines, assurant un déploiement accéléré des nouvelles fonctionnalités

Globalement, le programme a accéléré la maturité des plateformes, les rapprochant de la réalisation de leurs objectifs de fiabilité et d’observabilité.