L’IA générative dans l’IdO : comprendre les lacunes de données et leurs causes

L’IA générative (GenIA) s’applique à divers aspects de l’IdO. Cet article explore les lacunes de données, leurs causes profondes, et leur impact sur la GenIA dans les applications de l’IdO.
6 minutes de lecture
Ashay Chaudhary

Author

Ashay Chaudhary
Vice-président associé, Industrie NeXT et IdO, HCLTech
6 minutes de lecture
L’IA générative dans l’IdO : Comprendre les lacunes de données et leurs causes

Introduction

Inhérent à l’ est la génération de grands volumes et d’une grande variété de séries temporelles de télémétrie, ce qui rend l’IA générative (GenAI) applicable à de multiples facettes d’un environnement IoT typique. Dans cette série d’articles sur GenAI et l’IoT, nous explorons plusieurs aspects où GenAI et l’IoT se recoupent.

L’article précédent de cette série — Introduction à l’IA générative dans l’IoT : capacités et limites — définit et décrit la GenAI. Dans ce billet, nous nous concentrons sur la compréhension des lacunes de données.

Les lacunes de données existent depuis l’aube de l’ère numérique et ont été atténuées dans le passé grâce à diverses technologies et outils. Nous explorons ce que sont les lacunes de données, les causes profondes de leur existence et leur diversité de formes.

Comprendre les lacunes de données en IA

Les algorithmes d’apprentissage automatique nécessitent un ensemble de données suffisamment vaste et organisé pour créer un modèle assez précis afin de répondre aux attentes. La taille d’un ensemble de données « adéquat » dépend de l’algorithme d’AA choisi et des résultats attendus, tenant compte du contexte et des nuances des cas d’utilisation. L’ensemble de données doit contenir les variations représentant les conditions que le modèle doit détecter, classifier, analyser, etc. Les termes standard pour ces variations incluent dérive, bruit, erreurs, défaillances et exceptions. Autrement dit, cet ensemble de données doit contenir l’éventail de valeurs pour chaque télémétrie mais aussi toutes les combinaisons de conditions — en particulier les conditions rares mais critiques, comme une panne de machine.

Lacunes de données dans l’entreprise

Examinons les lacunes de données et leurs causes au sein des aspects opérationnels d’une entreprise.

Les entreprises achètent et déploient souvent de l’équipement, des simples machines à café/distributeurs à des systèmes complexes comme des robots de fabrication, des véhicules, etc. Souvent, les pressions budgétaires influencent les décisions d’achat afin d’obtenir de l’équipement pour répondre aux besoins de base. Par ailleurs, l’équipement complexe nécessite généralement des configurations détaillées conçues par des experts du domaine avant son déploiement pour une utilisation opérationnelle/de production sécuritaire et productive.

Insuffisance

Déséquilibre

Les lacunes de données surviennent fréquemment à cause de configurations développées et testées dans des environnements de « laboratoire » qui n’ont souvent ni la variété, ni les différences, ni la diversité des environnements opérationnels. Comme les lacunes de données sont invisibles, leur découverte ne survient qu’après que le modèle produit des résultats inexplicables. Bien souvent, le coût élevé des fournitures et de la main-d’œuvre pour un tel équipement limite les laboratoires quant à la génération d’un volume suffisant de données pour que l’AA/l’IA soit efficace. Autrement dit, les données réelles sont suffisantes pour la validation initiale de la machine, mais il n’y a simplement pas assez de données pour l’apprentissage automatique et l’analytique prédictive, donc il existe une lacune de données.

Déséquilibre

Scénario d’illustration 1 : Des problèmes dans l’équipement pharmaceutique provoquent des arrêts de production

Le déséquilibre était le manque de pannes suffisantes après le déplacement de l’équipement, ce qui a eu un impact sur le schéma de base des vibrations.

Scénario d’illustration 2 : Évaluation automatique des dommages et estimation des réparations pour des réclamations d’assurance automobile

Le déséquilibre était le manque de types de dommages pour toutes les marques, modèles et versions de véhicules.

Texture

La télémétrie d’équipement dans l’IoT comporte typiquement une multitude de paramètres qui s’influencent subtilement les uns les autres ; on peut mentalement imager que ces données ont une texture. Cette texture est unique à chaque équipement, même pour une marque et un modèle identiques installés dans différentes parties d’une installation. Rarement cette texture est-elle lisse comme du verre ; cependant, ces textures sont trop subtiles pour être distinguées par l’humain.

Scénario d’illustration 1 : Des problèmes dans l’équipement pharmaceutique provoquent des arrêts de production

La texture de référence des vibrations de l’équipement au premier emplacement était différente de celle du nouvel emplacement : les caractéristiques vibratoires des équipements lourds voisins ont fait que le modèle d’IA prédictive a incorrectement identifié les anomalies.

Dérive

Une autre forme de lacune de données est la « dérive des données », où de nouvelles variations s’accumulent lentement au fil du temps. Lorsque ces nouvelles variations deviennent suffisamment importantes, le modèle devient moins précis et doit être mis à jour (réentraîné) avec de nouvelles données organisées. Certaines causes de dérive des données sont :

Environnement

Toute modification de l’environnement de fonctionnement de l’équipement, qu’elle soit momentanée ou durable, fait varier quelque peu les données de l’équipement par rapport à la normale, mais pas suffisamment pour déclencher des alertes (ou déclenche parfois à tort une alerte). Ces cas sont généralement appelés faux négatifs ou faux positifs et sont indésirables, les faux positifs ayant un impact sur la productivité.

Scénario d’illustration 1 : Des problèmes dans l’équipement pharmaceutique provoquent des arrêts de production

Parfois, l’équipement à proximité influence l’équipement surveillé ; cela peut être un chariot élévateur plus lourd provoquant un impact de vibration plus important ou un refroidisseur de CVC mis à niveau qui affecte la température ambiante ou un lubrifiant à viscosité différente.

Changements liés à la fabrication

Les fabricants d’équipements doivent s’adapter aux conditions du marché, notamment en s’approvisionnant auprès de différents fournisseurs respectant les mêmes spécifications. Toutefois, même des pièces apparemment identiques peuvent être suffisamment différentes pour perturber la télémétrie attendue par le modèle prédictif.

Scénario d’illustration 2 : Évaluation automatique des dommages et estimation des réparations pour des réclamations d’assurance automobile

Un changement de fournisseur d’acier ou des modifications dans la conception de la zone de déformation font que les dommages paraissent différents d’un modèle fabriqué à quelques années d’intervalle, produisant donc un schéma de dommages (ou un coût estimé de réparation) significativement différent.

Vieillissement

Tous les équipements vieillissent lors de leur utilisation, et l’usure de leurs pièces intervient à différents rythmes selon plusieurs facteurs. À leur tour, les pièces vieillissantes affectent la performance de l’équipement et la télémétrie associée.

Illustrons ces causes fondamentales de la dérive des données à l’aide des signatures vibratoires des équipements. Les pièces rotatives sont courantes dans une grande variété d’équipements ; par exemple, des pompes de dessalement, des ascenseurs ou escaliers mécaniques de bâtiments, des IRM, ainsi que des véhicules de transport (avions, navires, trains, automobiles). Ils génèrent des signatures vibratoires de référence lorsque ces équipements fonctionnent dans leur environnement habituel, et les écarts par rapport à la référence sont essentiels pour détecter les dégradations et les pannes imminentes. Le capteur de vibrations de l’équipement peut être momentanément affecté par un chariot élévateur ou tout autre véhicule lourd passant à proximité — un changement d’environnement. Un remplacement de boîte de vitesses ou de courroie par un fournisseur différent introduit des dynamiques légèrement différentes — un changement dans les variations de fabrication et le vieillissement.

En résumé, même des ensembles de données immenses comportent souvent des lacunes pour différentes conditions, allant de très rares à peu fréquentes. Selon la criticité de ces conditions pour divers cas d’utilisation, ces lacunes de données peuvent avoir un impact significatif.

Points à retenir

  • Il existe de multiples types de lacunes de données, et elles sont présentes dans tous les ensembles de données
  • La criticité des lacunes de données varie selon les cas d’utilisation

Conclusion

Maintenant que l’on comprend bien les nombreux types de lacunes de données, le prochain article portera sur les différentes approches pour y remédier grâce à l’IA discriminante et générative.

Ernst Henle

Coauteur

Ernst Henle
Architecte principal principal, Industry NeXT et IdO, HCLTech
Kumar Ravi

Coauteur

Kumar Ravi
Architecte technique, Industry NeXT et IoT, HCLTech
Etiquettes
Partager sur
IA IA et GenIA Blogues L’IA générative dans l’IdO : comprendre les lacunes de données et leurs causes