How a financial services company strengthened infrastructure resilience at scale

La résilience des infrastructures est essentielle à la confiance des clients. À mesure que les volumes de transactions et les exigences réglementaires augmentent, la réduction des points de défaillance uniques est essentielle pour maintenir la continuité à grande échelle.
S'abonner
5 min de lecture
Santosh Mokashi
Santosh Mokashi
EVP & Global Delivery Head, DFS Financial Services, HCLTech
5 min de lecture
microphone microphone Listen à article
30s Backward
0:00 0:00
30s Forward
Comment une entreprise de services financiers a renforcé la résilience de son infrastructure à grande échelle

Dans les , la résilience de l’ est étroitement liée à la confiance des clients. Lorsque les systèmes échouent, l’impact se fait sentir immédiatement sur les transactions, la disponibilité des services et la confiance envers l’institution derrière eux.

Ce défi était au cœur d’une importante société de services financiers pour consommateurs qui gérait 7 000 machines virtuelles, 8 000 serveurs et 20 pétaoctets de données dans un environnement soutenant des millions d’interactions clients. À cette échelle, l’infrastructure n’est pas simplement une fonction en arrière-plan. Elle soutient la disponibilité, l’exactitude et la sécurité auxquelles les clients s’attendent chaque fois qu’ils vérifient un solde, effectuent un paiement ou comptent sur les contrôles antifraude pour fonctionner comme prévu.

Le défi était de plus en plus pressant, car les architectures traditionnelles créaient des points de défaillance unique dans un environnement de plus en plus complexe. Les clients s’attendaient à ce que les services restent continuellement disponibles, tandis que les régulateurs accordaient une plus grande importance à la résilience opérationnelle et à la continuité.

Cette pression se fait sentir dans l’ensemble du secteur. Une étude de McKinsey a révélé que 73 % des grandes banques de la région Asie-Pacifique citent la cybersécurité comme leur principal risque non financier. Plus largement, l’incident de CrowdStrike en 2024 a démontré comment des défaillances technologiques peuvent se répercuter à grande échelle dans les entreprises, causant des dégâts estimés à 5,4 milliards de dollars pour les sociétés du Fortune 500. La réglementation évolue également dans ce sens : le règlement européen sur la résilience opérationnelle numérique (DORA) est entré en vigueur en janvier 2025, renforçant la nécessité d’accroître la continuité et la résilience des opérations dans les services financiers.

Pourquoi les points de défaillance unique sont plus préoccupants à l’échelle des services financiers

Pour les institutions financières, la résilience n’est pas seulement une question de reprise après des incidents majeurs. Il s’agit de réduire la probabilité que des défaillances courantes, des problèmes de performance ou des changements d’infrastructure affectent les clients dès le départ.

Pour cette entreprise, l’ampleur de l’environnement accentuait le défi. Des milliers de machines virtuelles et de serveurs soutenaient des charges de travail critiques, tandis qu’un grand volume de données clients devait demeurer sûr, disponible et récupérable. Dans une architecture traditionnelle, des défaillances matérielles, des problèmes logiciels ou des erreurs de configuration peuvent avoir des conséquences plus vastes lorsque des services clés dépendent de systèmes centralisés ou d’une infrastructure insuffisamment distribuée.

La complexité de la surveillance se rajoutait au problème. Lorsque la visibilité est fragmentée, les signes de dégradation peuvent passer inaperçus jusqu’à ce que la performance soit déjà affectée. Dans un environnement de services financiers, cela peut rapidement se traduire par des retards de transactions, des interruptions de service ou une augmentation du risque opérationnel.

L’entreprise avait besoin d’un modèle plus résilient capable de réduire le risque de concentration, d’améliorer la visibilité sur l’ensemble de l’environnement et de renforcer la protection sans interrompre le service quotidien.

Comment le modèle d’infrastructure a évolué

La transformation visait à réduire les points de défaillance unique, à améliorer la visibilité sur tout l’environnement et à renforcer la protection et la gouvernance des données. Pour appuyer cette démarche, l’entreprise s’est associée à HCLTech afin de moderniser l’infrastructure principale, améliorer la résilience opérationnelle et bâtir une fondation plus évolutive pour la croissance future.

Réduire le risque de concentration grâce à une architecture distribuée

L’un des éléments centraux de la transformation était la migration de 7 000 machines virtuelles vers une architecture de zones de disponibilité conçue pour réduire les points de défaillance unique dans l’environnement de production. En répartissant davantage les charges de travail, l’entreprise créait un environnement mieux capable d’absorber les problèmes localisés de matériel, de réseau ou d’installation sans interruption majeure des services.

Cela signifiait que les activités de maintenance, les mises à jour de sécurité et les défaillances inattendues pouvaient être gérées avec un impact moindre sur les opérations en direct. Plutôt que de dépendre de composants d’infrastructure isolés, l’environnement est devenu résilient par conception.

Améliorer la visibilité et la surveillance proactive

La transformation a également renforcé la visibilité opérationnelle. Une plateforme unifiée VMware Aria a été introduite pour surveiller 10 000 systèmes grâce à des tableaux de bord de performance et capacité en temps réel, offrant aux équipes d’exploitation une vue plus complète de l’état de santé de l’infrastructure.

Cela a permis de détecter plus tôt les problèmes, d’améliorer la planification de capacité et de réduire le risque que des problèmes de performance ne soient détectés qu’après avoir touché les clients. Ce déplacement n’était pas que technologique, mais aussi opérationnel : les équipes étaient mieux placées pour passer d’une gestion réactive des incidents à une surveillance plus proactive.

Renforcer la protection et la capacité de récupération à grande échelle

La protection des données constituait aussi un point clé du modèle de résilience. L’entreprise a mis en place une infrastructure de sauvegarde couvrant 20 pétaoctets, avec des capacités de récupération testées régulièrement afin d’accroître la confiance dans la récupération en cas de conditions difficiles.

Parallèlement, la gestion automatisée des vulnérabilités a été étendue à 13 pétaoctets de stockage et 7 000 règles de pare-feu définies logiciellement ont été appliquées pour améliorer la couverture de sécurité. Cela a permis de créer un modèle de protection mieux aligné sur la taille et la sensibilité des données gérées.

Soutenir le changement par une gouvernance renforcée

En raison de la taille et de la complexité de l’environnement, la gouvernance a également joué un rôle majeur dans la transformation. Un bureau de gestion de projet dédié a été créé pour coordonner les mises à jour des systèmes d’exploitation, la modernisation des bases de données et la mise hors service des systèmes en fin de vie sur l’ensemble de l’environnement.

Cela a aidé l’organisation à gérer les risques lors des changements, à respecter les exigences de conformité et à poursuivre la transformation sans perturber les activités touchant les clients. En pratique, le programme a démontré que la modernisation de l’infrastructure et la continuité opérationnelle peuvent aller de pair lorsque la gouvernance est intégrée au processus dès le départ.

Pourquoi la résilience et la confiance sont de plus en plus liées

Dans les services financiers, la confiance se renforce ou s’affaiblit lors de chaque interaction quotidienne. Les clients ne voient peut-être pas l’infrastructure derrière un paiement, une vérification de solde ou un avertissement de fraude, mais ils en ressentent directement les effets par la rapidité, la fiabilité et la continuité.

Pour cette entreprise, renforcer la résilience de l’infrastructure a permis de créer une plateforme plus stable pour ces interactions. En réduisant les points de défaillance unique, en améliorant la visibilité et en renforçant les capacités de récupération et de gouvernance, l’organisation a pu mieux soutenir des millions de transactions sans compromettre la continuité du service.

Les systèmes sous-jacents peuvent fonctionner en arrière-plan, mais leur rôle est central. Dans un secteur où la résilience est de plus en plus modelée par les attentes des clients et le regard des autorités réglementaires, la conception de l’infrastructure est devenue un élément clé du maintien de la confiance.

Lisez l’étude de cas complète .

DFS Cloud hybride Article How a financial services company strengthened infrastructure resilience at scale