Why AI applications require a new testing playbook

Une stratégie de test moderne qui passe de vérifications axées sur le code à une validation continue des données, des modèles et des risques pour assurer que les systèmes d’IA sont fiables, équitables et prêts pour la production
S'abonner
5 min de lecture
Subramaniam T.S

Author

Subramaniam T.S
SVP and Portfolio Head, AD Services, Digital Business Service
5 min de lecture
microphone microphone Listen à article
30s Backward
0:00 0:00
30s Forward
Pourquoi les applications d’IA nécessitent un nouveau guide de tests

est un moteur actuel de la transformation des entreprises. De l'optimisation des chaînes d'approvisionnement et la personnalisation des expériences client à l’accélération des diagnostics médicaux, les systèmes d’IA se trouvent de plus en plus aux commandes de décisions critiques. À mesure que les organisations intègrent ces technologies puissantes dans leurs opérations principales, elles font face à un nouveau défi majeur. Comment s'assurer que ces applications et systèmes sont fiables, sécuritaires et équitables?

Les enjeux sont bien plus grands qu’avec les logiciels traditionnels. Les défaillances dans les applications d’IA dépassent les simples bogues fonctionnels. Elles peuvent être réputationnelles, financières ou éthiques, créant des risques juridiques importants et érodant la confiance des utilisateurs.

Cette nouvelle réalité exige une approche repensée en assurance qualité. Tester l’IA est une discipline fondamentalement différente, et la maîtriser est la clé pour passer d’un modèle prometteur à un atout de production. Le défi majeur commence par un nouveau paradigme.

Le changement de paradigme dans les tests de l’IA et des applications traditionnelles

Le défi principal découle d’un changement fondamental dans la façon dont le logiciel est « construit ».

Un logiciel traditionnel est déterministe. Il repose sur des règles explicites, écrites par des humains. Un développeur écrit du code stipulant : « Si l’entrée A se produit, effectue l’action B. » Un testeur peut vérifier cette logique avec un simple cas de test : « Est-ce que l’entrée A a donné l’action B? » La réponse est clairement oui ou non.

Les systèmes d’IA et d’apprentissage automatique sont probabilistes. Ils ne sont pas explicitement programmés; ils sont entraînés à partir de vastes ensembles de données. Le système apprend des motifs et crée ses propres règles pour prendre des décisions. Cela introduit plusieurs nouvelles complexités.

  1. Logique indéterminée : Avec de nombreux modèles complexes, comme les réseaux d’apprentissage profond, il est presque impossible de retracer la « logique » exacte que le modèle a utilisée pour arriver à une conclusion particulière. Cette nature de « boîte noire » signifie que nous ne pouvons pas tester les règles internes, seulement le résultat final.
  2. Comportement axé sur les données : La logique du système est un produit direct de ses données d’entraînement. La principale source « d’erreurs » est une faille dans les données. Ces données peuvent être incomplètes, biaisées ou non représentatives du monde réel.
  3. « Justesse » floue : Dans les tests traditionnels, le résultat attendu est connu. En IA, la réponse « correcte » est souvent une question de confiance statistique. Un modèle ne dit pas « Ceci est un chat », il dit « Je suis confiant à 98 % que ceci est un chat ». Les tests doivent déterminer si 98 % est suffisant et ce qu’il se passe quand le modèle n’a qu’une confiance de 60 %.

Les défis uniques de l’assurance qualité de l’IA

Ce nouveau paradigme probabiliste crée des défis particuliers et importants que les méthodologies de tests traditionnelles n’ont jamais été conçues pour gérer.

  • Le problème des entrées infinies : Comment obtenir une « couverture de tests » pour un système qui doit interpréter le monde réel ? Il est impossible de créer des cas de test pour chaque signature manuscrite possible, chaque accent parlé concevable ou chaque fluctuation d’un marché financier
  • Détection des biais et de l’équité : Le biais représente une faille profonde et systémique plutôt qu’un simple bogue fonctionnel. Il peut se cacher dans les données de manière non évidente jusqu’à ce que le modèle soit déployé. Par exemple, un système de reconnaissance vocale principalement entraîné sur des données provenant d’hommes peut donner de moins bons résultats pour les femmes. Identifier cela nécessite des stratégies de test spécialisées et sophistiquées qui « segmentent » les données selon des attributs démographiques ou sensibles
  • La dérive du modèle : Un modèle d’IA est entraîné sur une « photo instantanée » du monde. Mais le monde n’est pas statique. Le comportement des clients, les conditions du marché et les tendances linguistiques évoluent constamment. Un modèle qui était très précis lors de son déploiement verra sa performance se dégrader avec le temps. Ce phénomène est connu sous le nom de dérive du modèle. Le processus de test ne peut pas s’arrêter au déploiement. Il doit être continu
  • Vulnérabilités adversariales : Les systèmes d’IA peuvent être intentionnellement trompés. Un minuscule changement indiscernable pour l’humain dans une entrée, comme la modification de quelques pixels dans une image, peut entraîner une erreur catastrophique du modèle. Tester pour ces vulnérabilités de type sécurité est une nouvelle exigence essentielle

Un cadre pour bâtir une IA digne de confiance

Pour surmonter ces défis, les organisations doivent passer de l’assurance qualité (AQ) traditionnelle à un cadre plus complet d’. Ce cadre doit être un processus de bout en bout axé sur les données, le modèle et son fonctionnement dans le monde réel.

On peut considérer cela comme une approche en trois piliers impliquant la validation, la vérification et la vigilance.

Pilier 1 : Validation des données avant l’entraînement

Une IA de qualité commence par des données de qualité. Cette étape porte sur la mise à l’essai des intrants avant qu’une seule ligne de code du modèle ne soit entraînée.

  • Évaluation de la qualité des données consiste à vérifier l’exhaustivité, l’exactitude et le formatage des données
  • Test de représentativité pose la question suivante : l’ensemble de données reflète-t-il fidèlement l’environnement réel dans lequel le modèle sera déployé?
  • Évaluation des biais signifie analyser de manière proactive les données afin de détecter les distorsions statistiques liées à des attributs sensibles, comme l’âge, le genre ou le lieu. Il s’agit de la méthode la plus rapide et la plus efficace pour atténuer les biais

Pilier 2 : Vérification du modèle pendant et après l’entraînement

Cette phase consiste à tester le modèle lui-même, en passant de la performance générale à des scénarios précis et à haut risque.

  • Évaluation comparative des performances teste les mesures principales du modèle, telles que la précision, le rappel et l’exactitude, à l’aide d’un jeu de données de référence préétabli
  • Test de robustesse évalue le comportement du modèle avec des entrées « hors distribution » ou des cas limites. Cela inclut des données chaotiques, des entrées manquantes et des attaques adverses pour observer la façon dont il échoue
  • Test d’équité et d’éthique va au-delà de la précision globale. Il vérifie les performances du modèle pour différents sous-groupes afin de garantir des résultats équitables et que le modèle ne porte pas préjudice de façon disproportionnée à un groupe particulier
  • Test d’explicabilité demande, pour des décisions critiques, comme le refus d’un prêt, si le modèle peut fournir une justification simple et compréhensible pour ses résultats. Ceci devient une exigence clé aux plans légal et de la confiance des clients

Pilier 3 : Vigilance opérationnelle après le déploiement

Les essais de l’IA se poursuivent bien après le lancement. Ce pilier établit une boucle continue de surveillance et de réentraînerment.

  • Surveillance du dérive du modèle nécessite la mise en place de systèmes qui surveillent en continu la performance du modèle en production et la comparent à ses repères d’entraînement. Une alerte est déclenchée lorsque la performance descend sous un seuil défini
  • Les boucles de rétroaction en temps réel impliquent la création de mécanismes permettant aux utilisateurs finaux de signaler facilement des résultats incorrects, étranges ou biaisés. Cette rétroaction humaine est une source inestimable de données réelles pour les tests
  • Le pipeline CI/CD/CT fait évoluer le pipeline CI/CD (intégration continue/livraison continue) standard pour inclure la formation continue (CT). Lorsqu’un dérive de modèle est détectée ou que de nouvelles données sont disponibles, ce pipeline automatisé peut déclencher un processus de réentraînement, de retestage et de redéploiement

De la puissance à la responsabilité

L’IA représente une occasion extraordinaire d’innovation, mais elle s’accompagne également de la responsabilité de bâtir des systèmes sûrs, fiables et équitables. En adoptant ce nouveau paradigme de tests, les organisations peuvent offrir une IA à la fois puissante et digne de confiance. Ce changement, qui fait passer l’accent du code aux données et d’un événement unique à un processus continu, constitue la différence fondamentale entre les organisations qui expérimentent l’IA et celles qui la mèneront.

Partager
DBS Affaires numériques Article Why AI applications require a new testing playbook