IA Les conversations sur l'infrastructure IA commencent souvent par une question familière : Combien de GPU avons-nous besoin? Bien qu'il s'agisse d'une question importante, ce n'est pas toujours la première que les entreprises devraient se poser.
Une récente discussion dans l'industrie sur le dimensionnement adéquat de l'infrastructure GPU met en lumière un problème réel : une infrastructure sous-dimensionnée peut nuire à la performance, tandis qu'une infrastructure GPU surdimensionnée peut laisser des capacités coûteuses inactives. Elle insiste aussi sur la nécessité de distinguer l'entraînement, les tâches en lots et l'inférence en ligne, car chacune possède des caractéristiques différentes pour la latence, le débit et l'utilisation.
Mais pour de nombreuses entreprises, la question plus stratégique est plus large : quelles tâches ont besoin de GPU, lesquelles peuvent fonctionner efficacement sur des CPU et lesquelles devraient être rapprochées de la périphérie?
Ce changement de perspective est au cœur de l'abordabilité de l'IA.
D'une approche GPU d'abord à une IA axée sur les charges de travail
Les GPU sont indispensables pour de nombreuses charges de travail IA, surtout pour l'entraînement de modèles à grande échelle, l'inférence à haute concurrence, la GenIA à grand contexte et les charges nécessitant une large bande passante mémoire. Toutefois, une stratégie axée sur le GPU peut devenir coûteuse si chaque cas d'utilisation IA est traité comme s'il nécessitait la même catégorie d'accélérateur.
L'IA en entreprise n'est pas une seule charge de travail. Il s'agit d'un portefeuille. Cela inclut la génération augmentée par récupération, les embeddings, le résumé, la classification, les moteurs de recommandation, l'apprentissage automatique classique, la vision par ordinateur, la détection d'anomalies, l'intelligence documentaire, les copilotes IA, les flux de travail agents et le prétraitement des données. Certains de ces cas nécessitent de grands groupes de GPU. Beaucoup non.
Le principe de l'IA abordable est simple : utiliser les GPU là où ils apportent une valeur unique et utiliser le calcul basé sur Intel Xeon là où il offre le bon équilibre entre performance, coût, disponibilité, sécurité et simplicité opérationnelle.
Intel continue d'investir dans la performance IA basée sur les CPU. Intel a indiqué que les processeurs Xeon 6 avec Performance-cores ont atteint une amélioration ~1,9x de la performance moyenne de l'inférence IA comparativement à la 5e génération de Xeon Intel sur six tests MLPerf et jusqu'à 17x d'amélioration sur BERT par rapport aux soumissions Xeon de 3e génération sur quatre ans. La plateforme Xeon de 5e génération d’Intel inclut également une accélération IA dans chaque cœur, afin de cibler l'ensemble des charges de travail IA avant que les clients aient besoin d'ajouter des accélérateurs distincts.
Pourquoi les CPU jouent un rôle clé dans l'IA d'entreprise
Le CPU est déjà le plan de contrôle de l’informatique d’entreprise. Il exécute le système d’exploitation, le réseautage, la sécurité, les transferts de données, la logique applicative, l’orchestration, le prétraitement et le post-traitement qui entourent les modèles IA. Dans de nombreuses applications IA réelles, ces tâches environnantes ne sont pas accessoires; elles constituent la charge de travail.
C’est particulièrement vrai pour l’IA en production. Après tout, un chatbot est plus que la génération de jetons; une solution RAG est plus qu’un simple modèle linguistique; un système de vision par ordinateur est plus que l’inférence. Ces solutions incluent aussi des pipelines de données, la recherche vectorielle, les contrôles de politiques, les appels API, les contrôles d'accès, la surveillance, la journalisation, les garde-fous, l'intégration des flux de travail et les activités de cycle de vie.
C’est là que l’infrastructure basée sur Intel Xeon devient très pertinente. Grâce à Intel Advanced Matrix Extensions, l’accélération IA est intégrée directement dans les cœurs du processeur, permettant l’inférence basée sur CPU pour des charges de travail où l’économie et le modèle opérationnel sont plus avantageux que le déploiement de GPU distincts. AWS a démontré une accélération de l’inférence IA basée sur CPU allant jusqu’à 76 % en utilisant Intel AMX sur les instances Amazon EC2 de 8e génération et que l’inférence CPU peut être appropriée lorsque le coût, la complexité opérationnelle et la compatibilité de l’infrastructure sont des facteurs clés.
Pour les entreprises, cela peut signifier une adoption plus pragmatique de l’IA : commencer avec les modèles d'infrastructure x86 existants, optimiser les modèles grâce à la quantification et à l’accélération logicielle et réserver les GPU pour les charges de travail qui en ont réellement besoin.
Les aspects économiques négligés de l’IA abordable
Un dimensionnement approprié des GPU peut réduire le gaspillage. Mais l’IA abordable exige l’optimisation de la pile de coûts complète :
- Coût d'infrastructure : Chaque charge de travail ne devrait pas consommer une capacité GPU limitée
- Utilisation : Les GPU offrent de la valeur lorsqu'ils sont hautement utilisés. Beaucoup de charges de travail d'inférence en entreprise sont par à-coups, intermittentes ou sensibles à la latence plutôt que saturées de façon continue
- Complexité opérationnelle : Les grappes de GPU introduisent des exigences supplémentaires concernant l'ordonnancement, les pilotes, le réseautage, le refroidissement, la planification de capacité et les opérations spécialisées
- Mouvement des données : Le déplacement de données vers une infrastructure GPU centralisée peut ajouter de la latence, des coûts de bande passante et des risques pour la vie privée
- Sécurité et conformité : Les charges de travail réglementées peuvent bénéficier de garder les données près de l'endroit où elles sont générées ou traitées
- Énergie et durabilité : L'accélérateur le plus puissant n'est pas toujours le choix le plus efficace pour chaque tâche
Une stratégie incluant le CPU aide les entreprises à éviter un faux dilemme : soit acheter une capacité GPU coûteuse, soit retarder l’adoption de l’IA. À la place, elles peuvent bâtir une architecture IA à plusieurs niveaux qui aligne les exigences des charges de travail avec la couche de calcul appropriée.
Le point de vue de HCLTech et Intel : l’IA doit être bien placée, pas seulement dimensionnée
HCLTech et Intel collaborent de longue date dans le cloud, l’IA, périphérie, espace de travail numérique et la modernisation des infrastructures. Le partenariat entre HCLTech et Intel dure depuis plus de 30 ans, avec des équipes de génie, des laboratoires d’expérience client et des laboratoires IA et natif infonuagique dédiés pour soutenir la transformation des entreprises.
Cela importe, car l’IA en entreprise ne peut pas être résolue uniquement par le matériel. Elle requiert une évaluation, une architecture, une modernisation, l’ingénierie de plateformes, la gouvernance et des opérations gérées.
L’approche IA de HCLTech-Intel s’articule autour de cinq principes :
Prioriser le CPU lorsque c’est possible, recourir au GPU si nécessaire
Commencez par classifier les charges de travail. L’inférence légère et moyenne, les embeddings, la classification, la synthèse, le prétraitement de données, les processus d’agent axés sur des règles et de nombreux cas d’usage en vision par ordinateur peuvent fonctionner efficacement sur des points terminaux Intel Xeon ou équipés de l’IA Intel. L’entraînement de grands modèles, la gestion simultanée à grande échelle de LLM et les charges de travail à large contexte peuvent nécessiter des GPU.
L’objectif n’est pas de remplacer les GPU. L’objectif est de protéger les investissements dans les GPU, en ne les utilisant que lorsqu’ils créent une valeur différenciée.
Optimiser le modèle avant d’agrandir le matériel
Beaucoup d’entreprises dépensent trop parce qu’elles mettent à l’échelle l’infrastructure avant d’optimiser les modèles. La quantification, l’élagage, le regroupement, la mise en cache, la distillation du modèle et l’optimisation à l’exécution peuvent considérablement réduire les besoins en puissance de calcul.
L’écosystème logiciel d’Intel, incluant OpenVINO et les optimisations basées sur oneAPI, soutient cette transition vers une inférence efficace sur le matériel Intel. HCLTech met de l’avant la conversion de modèles, la quantification INT8, l’élagage et l’ordonnancement multi-moteurs comme partie des motifs d’inférence évolutifs à la périphérie.
Rapprocher l’IA du processus d’affaires
Rendre l’IA abordable ne concerne pas seulement le centre de données. Certains cas d’utilisation deviennent plus économiques lorsque l’inférence a lieu plus près du point terminal, de l’usine, de la succursale, du poste de travail ou de l’emplacement périphérique.
HCLTech a positionné des solutions de points terminaux alimentés par Intel pour exécuter localement les tâches d’IA sur les appareils terminaux, améliorant la performance, la latence, la confidentialité et la sécurité en réduisant la nécessité d’envoyer les données vers des serveurs distants.
Ceci est particulièrement pertinent dans la fabrication, le commerce de détail, les soins de santé, les services bancaires et les opérations sur le terrain, où la faible latence, la confidentialité des données et la résilience opérationnelle sont critiques.
Construire une architecture IA hybride
L’avenir de l’IA d’entreprise n’est pas uniquement CPU ou uniquement GPU. Il est hybride.
Une architecture IA bien conçue peut inclure :
- Processeurs Intel Xeon pour l’inférence, l’orchestration, le prétraitement, l’apprentissage automatique classique, la logique applicative et les charges de travail d’entreprise sécurisées
- GPUs pour l’entraînement à grande échelle, l’ajustement fin et la prestation de modèles à haut débit
- PC IA et points terminaux en périphérie pour l’inférence locale et la productivité adaptée au contexte utilisateur
- Cloud, cloud privé et plateformes sur site selon les besoins de souveraineté des données, de latence et de conformité
Le travail d’infrastructure cognitive de HCLTech reflète cette orientation, incluant l’inférence sur CPU, la consolidation des GPU, l’optimisation des charges de travail, l’IA privée et les modèles de déploiement hybrides.
Mesurer le coût par résultat, pas le coût par accélérateur
L’unité de valeur en IA n’est pas le nombre de GPU déployés, mais le résultat d’affaires par dollar, par watt et par unité de complexité opérationnelle.
Pour un moteur de synthèse de réclamations, cela peut signifier le coût par document traité. Pour un système industriel de vision, il peut s’agir du coût par ligne d’inspection. Pour un assistant de codage, cela peut signifier le coût par flux de travail développeur. Pour un copilote de service à la clientèle, il peut s’agir du coût par billet résolu.
Cela revoit les décisions d’infrastructure IA autour de la valeur mesurable plutôt qu’une préférence matérielle.
Un modèle pratique de déploiement de l’IA en entreprise
Les entreprises peuvent utiliser le modèle de décision suivant :
| Type de charge de travail | Point de départ privilégié | Quand ajouter l’accélération GPU |
| ML classique, analytique, prétraitement | Intel Xeon | Lorsque la taille de l’ensemble de données ou la cible de latence dépasse l’économie du processeur |
| Embranchements et recherche sémantique | Intel Xeon ou instances optimisées CPU | Pour un débit très élevé ou un traitement par lots à grande échelle |
| Inférence LLM petite et moyenne | Intel Xeon avec AMX et environnements d’exécution optimisés | Pour une forte simultanéité, des modèles plus gros ou des SLAs de latence stricts |
| Applications RAG | Xeon pour l’orchestration, la récupération, le classement et les garde-fous | GPU pour la génération de modèles volumineux à grande échelle |
| Vision par ordinateur en périphérie | Point de terminaison IA / Xeon / Intel Core Ultra, selon l’empreinte | GPU pour multi-caméras, fréquences d’images élevées ou modèles complexes |
| Entraînement et ajustement de grands modèles | GPU | Typiquement, piloté par GPU dès le départ |
| Flux de travail d’IA agentique | Xeon pour l’orchestration, les outils, la politique et l’exécution sécurisée | GPU pour des appels de modèles lourds et une inférence à haut volume |
Une IA abordable est une discipline architecturale
La prochaine phase de l’adoption de l’IA sera définie moins par qui possède la plus grande grappe de GPU que par qui saura industrialiser l’IA de façon efficace.
Cela signifie associer les charges de travail au bon silicium, optimiser les modèles avant de faire évoluer l’infrastructure, rapprocher l’inférence de l’endroit où se prennent les décisions et créer un modèle opérationnel géré auquel les entreprises peuvent faire confiance.
Bien dimensionner les GPU est une pratique précieuse. Mais ce n’est qu’une partie de l’équation de l’IA abordable. La principale opportunité consiste à répartir judicieusement la puissance de calcul de l’IA entre CPU, GPU, périphérie et environnements infonuagiques. Avec les processeurs Intel Xeon, l’accélération IA intégrée, des cadres logiciels optimisés et les capacités d’ingénierie et d’opérations en IA d’entreprise de HCLTech, les organisations peuvent passer de l’expérimentation de l’IA à un déploiement à grande échelle — avec maîtrise des coûts, contrôle et confiance.
L’IA abordable ne consiste pas à choisir les CPU plutôt que les GPU. Il s’agit de choisir la bonne puissance de calcul pour la bonne charge de travail, chaque fois.



