Combler l’écart lexical et apprendre à l’IA générative à parler le langage de l’entreprise

Le blogue vise à combler le « fossé lexical » en IA gén. en préconisant des couches sémantiques afin de permettre des analyses fiables, exactes et évolutives par l’IA dans les environnements de données d’entreprise structurées
5 min de lecture
Chitaranjan Behera
Chitaranjan Behera
Chef DU, technologie, ERS
5 min de lecture
GenIA

transforme la façon dont les humains interagissent avec les machines, faisant évoluer les interactions de simples commandes à de véritables conversations. En offrant des interfaces en langage naturel, la GenAI devient plus qu’un outil : elle s’impose comme un partenaire collaboratif qui appuie la prise de décision complexe, automatise les flux de travail et livre des informations en temps réel. Des robots d’assistance à la clientèle aux copilotes de chaînes d’approvisionnement, la GenAI redéfinit rapidement les opérations dans tous les secteurs. Pourtant, malgré son potentiel, la GenAI se heurte à un obstacle majeur lorsqu’il s’agit d’accéder à des structurées. Contrairement aux sources non structurées, telles que les documents PDF ou les courriels, les bases de données structurées comportent souvent des noms de tables cryptiques, des acronymes propres au domaine et des conventions de schéma héritées. Même les plus avancés des grands modèles de langage (LLM) éprouvent des difficultés. Non pas parce qu’ils manquent de capacité de raisonnement, mais à cause d’un « écart de lexique » persistant entre la façon naturelle de poser une question et la manière dont les données sont réellement nommées. Cet écart constitue l’un des principaux freins à l’adoption de la GenAI à grande échelle.

Chez HCLTech, nous avons observé ce défi dans de nombreux secteurs, dont la finance, les télécommunications, la santé et l’industrie manufacturière. Cette expérience nous a appris une chose : pour délivrer des expériences GenAI précises et de calibre entreprise, il faut une couche sémantique robuste. Celle-ci comble le fossé entre le langage d’affaires et la logique des données, afin que les systèmes GenAI soient non seulement puissants, mais aussi précis, fiables et prêts pour la production.

Le défi : Passer de l’analyse à l’action – Pourquoi une « bonne » intention ne suffit pas

Pour générer une véritable valeur d’affaires avec la GenAI dans des environnements de données structurées, le modèle doit maîtriser deux capacités tout aussi essentielles :

  • Interprétation de l’intention – Comprendre la demande de l’utilisateur dans un langage naturel et accessible
  • Correspondance lexicale – Traduire cette intention dans le schéma, la syntaxe et les codes exacts utilisés dans les bases de données d’entreprise

Si les modèles GenAI comprennent bien le contexte et la sémantique, les données structurées posent un défi particulier, relevant moins de la logique que du langage. La plupart des bases de données d’entreprise ne sont pas étiquetées en français courant. Elles regorgent plutôt de noms de champs codés, de codes régionaux et de schémas hérités, façonnés par des années d’évolution commerciale. Un utilisateur peut demander : « Qui ont été nos 10 meilleurs clients APAC en marge brute au T2 ? » mais, en coulisses, le modèle doit interpréter des étiquettes comme MARGIN_GROSS_PCT, REGION_CD_04 et DIM_CAL_DT_FISCAL_WK_NUM.

L’ingénierie de requêtes, l’intégration de plongements et la recherche de vecteurs aident le modèle à saisir l’intention et à retrouver l’information pertinente, surtout dans des contextes non structurés comme les courriels, les PDF ou les transcriptions. Elles montrent toutefois leurs limites lorsque la GenAI doit générer des requêtes SQL, filtrer des données ou déclencher des processus analytiques rattachés à des systèmes structurés. Les modèles ne saisissent pas, naturellement, la terminologie interne propre à chaque entreprise.

Concrètement, cet écart de lexique entraîne :

  • Requêtes malformées qui réfèrent à des champs erronés ou inexistants
  • Inexactitudes silencieuses lorsque le modèle choisit des attributs similaires, mais incorrects
  • Moindre confiance lorsque les utilisateurs d’affaires repèrent des incohérences et retournent à des processus manuels

C’est ici que la couche sémantique prend toute son importance, en traduisant le langage naturel vers le langage précis des données d’entreprise. Elle fait le lien entre les concepts d’affaires et la structure technique, intègre la logique du domaine et garantit l’alignement des requêtes GenAI avec les données stockées. Cette base transforme les prototypes GenAI en solutions prêtes pour la production, pour des insights fiables et constants.

La solution : Une couche sémantique moderne conçue pour la GenAI

Le moyen le plus efficace de combler l’écart de lexique est une couche sémantique moderne : une abstraction conviviale qui relie la GenAI à votre patrimoine de données. Plus qu’une « couche sémantique » de BI traditionnelle, ce cadre remplit deux rôles indispensables à l’ère de la GenAI :

  • Traduction : Elle associe les questions courantes aux tables, colonnes, codes et mesures précises, enfouies dans les schémas d’entreprise, pour garantir des requêtes correctes et optimisées.
  • Encadrement : Elle fournit au LLM du contexte riche – métadonnées, relations, règles et exemples de requêtes – pour que le modèle apprenne le vocabulaire unique de votre organisation ainsi que les bonnes pratiques.

En formant l’IA à « parler le langage d’entreprise », la couche sémantique convertit le langage naturel en code sécurisé, gouverné et efficace, permettant des analyses fiables, des insights accélérés et des solutions GenAI évolutives.

Composantes clés d’une couche sémantique prête pour l’IA

  • Logique d’affaires : Formalise les indicateurs clés, calculs et garde-fous pour éviter toute « improvisation » des règles par le modèle.
  • Dictionnaire de données : Offre des définitions en français courant pour chaque table, colonne et code — éliminant devinettes et ambiguïté.
  • Relations : Décrit les clés primaires–étrangères et le grain des données pour garantir la pertinence et la performance des jointures.
  • Représentation du modèle : Fournit une vue abstraite du schéma, masquant les particularités propriétaires tout en mettant en valeur les entités d’affaires.
  • Gabarits/exemples : Comprend des modèles de requêtes canonique en SQL, Python ou Spark pour guider le LLM dans l’application des meilleures pratiques.
  • Règles d’optimisation : Donne des conseils sur les partitions, prédicats et indexation afin d’assurer la performance du code généré, même à grande échelle.
IA

Les couches sémantiques bien conçues sont déclaratives – souvent exprimées en YAML ou JSON – ce qui permet leur gestion de versions, leur évaluation par les pairs et leur extension par les ingénieurs de données ou les experts métiers.

Comment ce modèle fonctionne concrètement

  • L’utilisateur demande : « Montre la marge brute T2 pour nos 10 meilleurs clients APAC »
  • Le LLM analyse l’intention et identifie les entités marge brute, T2, APAC, top 10
  • La couche sémantique résout le lexique et fait correspondre marge brute à MARGIN_GROSS_PCT et APAC au code région 04
  • Le gabarit de code + conseils d’optimisation guident le modèle dans la création d’une requête d’agrégation efficace
  • Résultat retourné en langage naturel ou sur un tableau de bord. Aucun billet d’ingénierie des données généré, aucune requête SQL manuelle écrite

 

IA

 

Impact réel : Précision, efficacité et confiance

L’équipe de HCLTech a déployé des solutions GenAI activées par une couche sémantique dans la , les , les et le . Les résultats sont éloquents :

  • Jusqu’à 90 % de réduction des réponses erronées : Les données de référence démontrent un gain majeur de précision par rapport aux méthodes reposant sur la seule recherche vectorielle
  • Jusqu’à 60 % de temps de réponse en moins : Des parcours de requête guidés permettent aux LLM d’« analyser » plus vite et de réduire la consommation de jetons
  • Gouvernance et traçabilité accrues : La correspondance claire entre indicateur → champ → système source facilite la conformité et la préparation aux audits
  • Passage accéléré de l’analyse à l’action : Les utilisateurs d’affaires peuvent itérer en temps réel sans générer de billets d’ingénierie

Feuille de route de mise en œuvre : De la vision à la valeur

  1. Prioriser les domaines critiques (p. ex. : finance, opérations, chaîne d’approvisionnement)
  2. Extraire les métadonnées à partir des catalogues, ERD et modèles de BI existants
  3. Tenir des ateliers d’experts métiers pour co-créer les dictionnaires de données et standardiser la terminologie
  4. Encoder les règles et gabarits dans YAML ou JSON avec gestion de versions
  5. Intégrer avec les cadres LangChain/RAG pour l’interaction GenAI en temps réel
  6. Consigner chaque requête générée, retour et performance pour l’observabilité et l’amélioration continue
  7. Évoluer horizontalement en ajoutant des domaines et verticalement en intégrant des données multimodales (p. ex. texte, image, séries chronologiques)

Chez HCLTech, nous accélérons ce parcours grâce à des plateformes comme AI Force pour l’automatisation des flux de travail et des protocoles Agent2Agent (A2A) permettant des interactions collaboratives entre agents.

L’avantage HCLTech : Un nouveau modèle d’exploitation au-delà de la technologie

La couche sémantique va au-delà de la solution technique : c’est un catalyseur stratégique pour la prise de décision assistée par l’IA. En traduisant le contexte d’affaires en logique compréhensible par machine, elle démocratise l’accès à l’information, renforce la gouvernance, réduit la charge et protège les investissements GenAI pour l’avenir.

Chez HCLTech, nos équipes multidisciplinaires conjuguent une expertise sectorielle de pointe et des cadres éprouvés comme AI Force et A2A afin de livrer des solutions GenAI prêtes pour la production, indépendantes du nuage, construites sur des couches sémantiques robustes. Qu’il s’agisse de déployer un copilote de finances ou d’étendre l’analytique conversationnelle, nous aidons les entreprises à générer des insights fiables et précis — car, en affaires, chaque mot et chaque colonne comptent.

Etiquettes
Partager sur
ERS Génie Blogues Combler l’écart lexical et apprendre à l’IA générative à parler le langage de l’entreprise