IA privée au service des entreprises

Aujourd’hui, en parcourant votre journal quotidien, il est impossible d’échapper à l’omniprésence de l’IA générative. Ses histoires traversent les pages, des avancées révolutionnaires jusqu’aux dilemmes éthiques qui remettent en cause le tissu même de notre société. Nous avons entendu parler des questions de droits d’auteur concernant le contenu (images), des deepfakes, du paradoxe de l’IA et des résultats peu fiables. Mais il y a plus dans l’histoire que les gros titres. Il s’agit d’explorer la créativité humaine et les grandes questions soulevées par le progrès technologique.

Selon Gartner, GenAI est une classe d’IA qui apprend à partir de jeux de données existants pour générer de nouveaux ensembles de données réalistes, à une échelle qui reflète les caractéristiques des ensembles d’entraînement mais sans répéter les données. Ici, « ne pas répéter » est le nerf de l’IA générative.

« La capacité d’une machine à créer plutôt qu’à répliquer constitue l’IA générative. »

Si un modèle d’IA apprend à partir de jeux de données et d’artefacts publics non restreints, on parle couramment d’IA publique. Mais s’il est autorisé à apprendre à partir de données et d’artefacts privés dans un environnement contrôlé, on parle alors d’IA privée.

Gartner explique en outre que le risque accumulé d’exactitude, de biais, de propriété intellectuelle, de droits d’auteur, de cybersécurité, de fraude, de durabilité, d’overfitting (capacité élevée), de minima aigus, de non-robustesse, de manque de transparence, de licences commerciales et de problèmes éthiques liés à l’IA générative résulte des artefacts publics.

Toutefois, les entreprises s’inquiètent de la dépendance envers les résultats de l’IA générative publique. Ceci est expliqué dans l’article scientifique « Briser le paradoxe de l'apprentissage profond explicable » par « Arlind Kandra », publié en mai 2023, où un modèle LLM entraîné sur une grande quantité de données publiques a identifié l’image d’un panda comme « panda avec 57,7 % » de confiance et « gibbon avec 99,3 % » après ajout de pixels aléatoires.

Cela prouve qu’aucun important modèle de langage (LLM ou SLM) n’a été spécifiquement conçu pour l’exactitude factuelle ; leur force réside dans la justesse statistique. Ces modèles excellent à prédire ce qu’un humain typique envisagerait après une séquence de mots dans une phrase.

Il est important pour les organisations de comprendre la confidentialité de leurs données et les implications réglementaires, le contrôle des résultats dépend souvent de l’IA générative dans de nombreux cas.

Voyons les termes de manière plus détaillée.

Qu’est-ce que l’IA publique ?

Comprenons-le à travers plusieurs scénarios.

Modèle d’IA open source entraîné sur des données publiques non contrôlées :
Cela fait référence à l’IA publique, où tout algorithme IA accessible au public qui est entraîné sur un large éventail de données non contrôlées est généralement utilisé : les données sont tirées du public ou des clients pour améliorer les services d’IA. Par exemple, ChatGPT-3 est continuellement entraîné avec des données d'entrée provenant d'utilisateurs et de Wikipédia.
Modèle IA sous licence entraîné sur des données publiques non contrôlées :
Même un modèle sous licence entraîné sur des données accessibles au public, y compris du contenu provenant de publications sur les réseaux sociaux, peut générer des informations vraies ou fabriquées de façon convaincante. Cela peut, dans de nombreux cas, aboutir à des résultats différents.
Modèle d’IA open source entraîné sur des données privées et contrôlées :
Cela fait référence à une IA partiellement publique. Ici, les modèles sont entraînés sur des données privées, mais le modèle est open source et tout le monde contribue à sa formation et à sa maturation. Ce modèle IA entraîné est utilisé par des compétiteurs de tout le secteur. Dans ce cas, toutes les stratégies et schémas sous-jacents peuvent être exploités par les concurrents. Par exemple, des modèles IA dans l’industrie aérienne servent à la tarification des billets en temps réel. Ce modèle open source pratiqué à l’échelle du secteur aboutit à une différenciation minimale vis-à-vis des concurrents.
Modèle IA sous licence entraîné sur des données privées et contrôlées :
Cela concerne l’IA privée, où les données sont propres à une organisation particulière, puisque les informations d’usage général peuvent ne pas être pertinentes. Ici, le modèle sous licence commerciale est ajusté ou ré-entraîné sur des jeux de données privés dans un environnement contrôlé afin que les résultats soient exclusifs à l’organisation.

Qu’est-ce que l’IA privée ?

C’est la pratique consistant à entraîner des algorithmes sur des données spécifiques à une organisation, ce qui évite de contribuer à une intelligence collective qui pourrait profiter à vos concurrents.

L’entraînement sur des données privées peut éviter certains écueils, mais il peut tout de même nécessiter des efforts pour rendre les résultats de l’IA générative fiables et précis. De plus, contraindre les ensembles d’entraînement à des domaines plus spécifiques peut restreindre la gamme de réponses possibles.

Dans le respect des pratiques éthiques en IA générative, les organisations créatives ont particulièrement introduit des pratiques d’IA générative privée.

Cela permet d’entraîner des outils et des algorithmes avancés sur d’importantes collections visuelles sous licence appartenant à l’organisation, incluant du contenu vidéo et des images numériques accumulés tout au long de leur histoire opérationnelle.

Bien que ces outils d’IA produisent de nouvelles images, les résultats demeurent strictement conformes aux ententes de licence et de réutilisation qui régissent leurs bibliothèques de contenu. Cette approche vise à limiter les risques potentiels de violation de droits d’auteur tout en créant des opportunités pour les créateurs de donner en licence et de monétiser leur travail au sein de jeux d’entraînement privés.

Les avantages types de l’IA privée pour les entreprises sont : Fiable, Contrôlable, Explicable, Sécurisée, Éthique, Équitable, sous licence, et durable.

Approche de l’IA privée (construire vs acheter)

Il existe deux approches pour mettre en œuvre l’IA privée.

Dans la première approche, l’organisation engage des experts, des scientifiques de données, des ingénieurs et des développeurs logiciels pour construire, entraîner et héberger leur propre modèle IA générative à partir des données internes.

Ceci est appelé Construisez Votre Modèle (BYOM), ce qui permet des performances de classe mondiale, mais peut générer des coûts élevés, incluant les coûts informatiques et ceux de l’équipe science des données. Par exemple, il faut 1,3 million d’heures GPU sur des A100 de 40 Go pour entraîner le modèle Bloomberg GPT.

Dans la seconde approche, l’organisation achète/utilise les modèles ML et LLM déjà disponibles afin d’entraîner la capacité IA générative sur ses données privées, en s’assurant que le modèle n’est jamais entraîné sur l’algorithme largement accessible.

Ici, l’organisation améliore un modèle existant. Cette démarche réduit le besoin d’embaucher une grande équipe pour construire et entretenir les modèles et exécuter des modèles IA privés tout en maintenant la confidentialité des données.

Cependant, les organisations ayant peu de données pour entraîner les modèles d’IA pourraient constater une baisse de performance par rapport aux modèles entraînés sur de grands ensembles de données. Ces organisations se tournent vers des données synthétiques pour l’entraînement des modèles.

Il existe plusieurs modèles d’entreprise : modèles de base, modèles pré-entraînés et plateformes de modèles disponibles pour bâtir des modèles d’entreprise munis de licences commerciales.

Technique d’IA privée

Les organisations peuvent combiner différentes techniques pour améliorer un modèle existant. Voici quelques techniques populaires et privilégiées :

Adjustement fin (Fine-Tuning) : Il s’agit d’une technique économique de machine learning (ML) pour améliorer les performances des grands modèles linguistiques pré-entraînés (LLM) grâce à des ensembles de données sélectionnés. Par exemple, le modèle LIMA (Less Is More for Alignment) de LLM peut s’ajuster avec seulement 1000 exemples pour un coût calcul de 100 $. (substack.com)
RLHF (renforcement par retour humain) : Cela contribue à améliorer le modèle par intervention humaine dans la boucle d’évaluation.
RAG (génération augmentée par récupération) : Elle permet aux entreprises de fournir des informations cruciales aux modèles au moment de la génération afin de produire des réponses plus précises sans entraîner le modèle uniquement sur ces informations, mais en formatant les données dans une base vectorielle selon les similarités de jeux de données en matrice et leur relation via l’angle cosinus.

L’implémentation de l’IA privée implique une sélection minutieuse des techniques en fonction du cas d’usage, équilibrant le besoin de confidentialité et le niveau souhaité de précision et de performance du modèle.

Voici quelques-unes des meilleures pratiques du secteur pour mettre en œuvre l’IA privée :

Confidentialité différentielle : Introduction de bruit (données synthétiques différentiellement privées) ou perturbations dans les données d’entraînement pour éviter l’identification de points de données individuels
Chiffrement homomorphe : Permet d’effectuer des calculs sur des données chiffrées sans les déchiffrer, assurant ainsi la confidentialité lors du traitement
Apprentissage fédéré : Entraîner des modèles sur des appareils décentralisés (télécharger le modèle depuis le centre de données et l’entraîner sur les données privées) sans échange de données en clair, garantissant ainsi la confidentialité au niveau local.
Calcul multipartite sécurisé (SMPC) : Permet à plusieurs parties de calculer conjointement une fonction sur leurs entrées tout en gardant ces entrées privées.
Environnements d’exécution de confiance (TEE) : Utiliser des solutions matérielles pour créer des enclaves sécurisées où les calculs offrent des garanties de confidentialité.

Avantages commerciaux de l’IA privée

Construction de la confiance : L’implémentation de l’IA privée aide à bâtir la confiance parmi les utilisateurs et les parties prenantes dans les organisations ou secteurs soumis à de fortes contraintes de données.
Encourager le partage de données : Les techniques d’IA privée permettent la collaboration et le partage d’informations entre organisations sans exposer de données sensibles.

Entreprises optant pour des systèmes IA internes pour l’IA privée

Au-delà de la scalabilité et de la flexibilité, il existe de nombreuses raisons convaincantes qui expliquent pourquoi certaines organisations choisissent d’élargir leur capacité IA avec des infrastructures GPU dans des centres de données privés.

Conformité réglementaire : Les secteurs ayant des exigences réglementaires en matière de données préfèrent la pratique de l’IA privée en interne
Personnalisation et contrôle : Les organisations peuvent concevoir une infrastructure sur mesure grâce à un système IA interne. Cette personnalisation peut améliorer la performance, l’efficacité et la capacité à effectuer rapidement des changements selon l’évolution des besoins.
Coût à long terme : Sur le long terme, l’IA privée peut s’avérer une option comparable ou préférable dans certains cas avec le TCO, notamment en considérant les coûts de sortie massifs, surtout pour les grandes entreprises disposant d’énormes volumes de données et d’entraînements fréquents.
Réduction de la latence : Pour les applications IA qui nécessitent des réponses en temps réel, comme les systèmes de négociation financière, tout délai induit par la transmission Internet peut être préjudiciable. Les systèmes internes réduisent la latence.
Protection de la propriété intellectuelle : Les organisations qui traitent des brevets, des recherches clients et des droits d’auteur privilégient l’entraînement de leurs modèles IA en interne.
Confidentialité et sécurité des données : Les organisations détenant des données sensibles, qu’elles soient financières, médicales ou issues de recherches propriétaires, hésitent à héberger ces données sur des plateformes tierces

Conclusion

De plus en plus d’organisations optent pour des environnements hybrides offrant flexibilité et interopérabilité des charges de travail pour leur pratique IA, en fonction de divers facteurs et du niveau de dépendance de l’entreprise à l’IA.

Les données sont le carburant de l’IA et les organisations envisagent d’élargir et de faire évoluer leur infrastructure existante afin de profiter de la sécurité, des sauvegardes et de la redondance déjà en place et de garder les données proches du modèle IA dans le nuage hybride afin de réduire la latence dans de nombreux cas.

Les organisations s’appuyant sur l’IA pour la prise de décision commerciale et l’usage commercial utilisent activement l’infrastructure infonuagique hybride pour l’IA privée et souhaitent pouvoir combiner les deux modes de déploiement selon leurs besoins. La tendance à l’IA privée est stimulée par une volonté de contrôle accru, d’amélioration de la sécurité, de conformité réglementaire, et dans certains cas, de recherche d’efficacité des coûts.

L’IA privée incarne un changement visant à responsabiliser les organisations en leur offrant une maîtrise accrue de leurs données et opérations IA, tout en protégeant la confidentialité et la sécurité, et vise à compléter — plutôt qu’à concurrencer — l’infonuagique publique dans de nombreux cas.

Pour plus d’informations, veuillez nous écrire à HCBU-PMG@hcltech.com.

Références :

IA privée pour les entreprises

Related Contenu

HCLTech Centre de contact AI-native : D’un engagement client fragmenté à une résolution agentique sur AWS

CCaaS de nouvelle génération : Redéfinir l’expérience client avec le routage agentique

Sécurité dans l’IA et IA dans la sécurité : établir la confiance à l’ère des entreprises intelligentes