Dans un moment charnière pour la communauté IA, la sortie de DeepSeek R1 a fait sensation dans le monde technologique, non pas pour avoir bouleversé les marchés, mais pour avoir osé redéfinir le potentiel de l’IA open source. Ce modèle de raisonnement apparemment modeste n’a pas simplement repoussé les limites, il les a réimaginées.
DeepSeek R1 est un développement clé qui remet en question les idées reçues de longue date sur l’exclusivité de l’IA avancée. En offrant des capacités de raisonnement sophistiquées à une fraction du coût traditionnel, il démolit la notion selon laquelle une IA puissante doit rester confinée derrière des murs propriétaires. Au contraire, il ouvre la voie à un avenir où une intelligence de pointe est accessible, abordable et inclusive, transformant la façon dont les développeurs, chercheurs et communautés interagissent avec l’IA.
Comprendre l’IA : modèles sans raisonnement vs. modèles avec raisonnement
Avant d’explorer les innovations de DeepSeek, il est utile de comprendre une distinction cruciale dans le paysage actuel de l’IA.
La plupart des grands modèles de langage (LLM) avec lesquels nous interagissons quotidiennement, y compris les premières versions de ChatGPT et des outils similaires, sont principalement des modèles « sans raisonnement ». Ils excellent en reconnaissance de motifs et en prédiction linguistique, mais ne peuvent pas résoudre méthodiquement des problèmes complexes étape par étape.
Les modèles de raisonnement, au contraire, peuvent décomposer des tâches compliquées en séquences logiques—beaucoup plus près de la façon dont les humains abordent la résolution de problèmes. Cette capacité a longtemps été le joyau de systèmes propriétaires comme le modèle o1 d’OpenAI, qui nécessitait des ressources computationnelles massives et des investissements importants pour être développé.
Ces capacités avancées de raisonnement seraient restées l’apanage exclusif des géants technologiques aux poches profondes pour un avenir prévisible, mais DeepSeek R1 a brisé cette hypothèse du jour au lendemain.
Construire avec des contraintes
Le parcours de DeepSeek est particulièrement fascinant car il a commencé avec des contraintes importantes. Alors que les entreprises technos américaines avaient accès aux GPU H100 de Nvidia, les plus puissants, DeepSeek a dû se contenter du H800—une version « bridée » offrant seulement environ 70 % des performances du H100 pour les LLM, en raison de restrictions à l’exportation.
Cette limitation aurait pu signer l’échec d’équipes moins innovantes. Pour DeepSeek, cela est devenu un catalyseur pour réimaginer la façon de construire des modèles d’IA plus efficacement.
Les percées techniques derrière DeepSeek R1
L’avantage du « mélange d’experts »
Plutôt que de faire passer chaque entrée par l’ensemble du réseau neuronal (comme le font les modèles « denses » classiques), DeepSeek a adopté une architecture Mixture-of-Experts (MoE, mélange d’experts). Voyez cela comme un assemblage d’une équipe spécialisée pour chaque tâche, plutôt que de consulter toute l’entreprise.
Lors du traitement du langage, le modèle achemine dynamiquement les entrées vers les sous-réseaux « experts » les plus pertinents. En activant seulement une fraction des paramètres du modèle pour chaque tâche, le MoE réduit considérablement les besoins computationnels tout en maintenant, voire en améliorant, les performances.
Des choix de précision judicieux
DeepSeek a optimisé davantage l’utilisation des ressources grâce à une sélection intelligente de la précision. Pour la plupart des opérations, le modèle utilise des calculs FP8 (à virgule flottante 8 bits), travaillant essentiellement avec des nombres moins précis là où cela n’affecte pas la qualité. Cela double presque la vitesse de calcul tout en réduisant l’utilisation de la mémoire.
Le modèle passe à des formats de plus grande précision pour les calculs les plus sensibles, où la précision compte. Cette approche équilibrée garantit que la justesse n’est pas sacrifiée au profit de l’efficacité.
L’innovation Group Relative Policy Optimization (GRPO)
La contribution la plus révolutionnaire de DeepSeek est venue de sa nouvelle approche de l’apprentissage par renforcement, appelée Group Relative Policy Optimization (GRPO).
L’apprentissage par renforcement traditionnel évalue chaque réponse potentielle isolément. Au lieu de cela, GRPO considère des groupes de réactions possibles, établissant une base de référence et comparant les réponses individuelles à celle-ci. Cette approche s’est révélée particulièrement efficace pour améliorer les capacités de raisonnement tout en minimisant les coûts d’entraînement. Voici comment cela fonctionne en termes simples :
- Évaluation de groupe : Lorsque le modèle reçoit une requête, il génère plusieurs réponses possibles. Au lieu de juger chaque réponse indépendamment, GRPO examine toutes les réponses en groupe.
- Référence et récompenses : Il calcule une récompense moyenne (une référence) à partir de ces réponses. Chaque réponse est ensuite comparée à cette référence. Les récompenses sont basées sur deux facteurs clés :
- Précision : Si la réponse finale est correcte selon des règles prédéfinies.
- Format : Si la réponse suit une structure spécifique, comme l’utilisation de balises spéciales (ex. et ) pour bien montrer le raisonnement.
- Mise à jour de la politique : Le modèle utilise les écarts entre la récompense de chaque réponse et la référence de groupe pour mettre à jour sa stratégie, ou politique, afin de générer les prochaines sorties. Cela signifie qu’avec le temps, le modèle apprend à produire des réponses correctes et bien structurées.
Cette approche a d’abord été appliquée à la base DeepSeek-V3, donnant naissance à DeepSeek-R1-Zero. Au départ, l’équipe a reconnu que si DeepSeek-R1-Zero avait démontré des capacités de raisonnement prometteuses, ses sorties souffraient d’une lisibilité médiocre et d’un mélange de langues. Pour pallier ces insuffisances, ils ont commencé par une phase d’apprentissage supervisé avec le modèle DeepSeek-V3-Base. Cette phase impliquait un ajustement fin d’un jeu de données d’entraînement soigneusement élaboré, composé d’exemples Chain-of-Thought (CoT) de haute qualité adaptés aux humains.
Une fois le modèle optimisé pour cette lisibilité améliorée, il a été introduit à la technique Group Relative Policy Optimization (GRPO). Cette phase d’apprentissage par renforcement a été cruciale pour affiner davantage les capacités de raisonnement du modèle. L’équipe y a ajouté une récompense de cohérence linguistique. Ce nouvel élément sanctionnait les sorties mêlant les langues, afin que la chaîne de raisonnement reste cohérente avec la langue cible.
En résumé, le processus d’entraînement a été judicieusement divisé en deux phases :
- D’abord, une phase d’apprentissage supervisé utilisant des exemples structurés de haute qualité pour établir des schémas de raisonnement clairs et une bonne lisibilité
- Puis, un apprentissage par renforcement basé sur GRPO avec une règle de cohérence linguistique ajoutée
Ce modèle DeepSeek R1—publié sous licence MIT—a prouvé que le raisonnement IA de haut niveau pouvait être atteint à une fraction du coût grâce à une architecture et des méthodes d’entraînement plus innovantes. Cela a brisé le récit selon lequel seuls les plus grands acteurs pouvaient rivaliser dans l’IA de pointe, mettant en évidence la vulnérabilité des fossés économiques protégeant les investissements massifs en IA.
Économie de l’innovation en IA
Nous entrons dans une nouvelle phase de développement de l’IA, où l’ingéniosité en ingénierie et la conception d’algorithmes pourraient compter davantage que la puissance de calcul brute et le capital. Cela ne signifie pas que le calcul est sans importance, mais les innovations de DeepSeek démontrent que la relation entre les ressources investies et les capacités atteintes n’est pas linéaire.
Cela crée un paysage plus complexe pour les investisseurs. Les questions passent de « Qui a le plus de ressources ? » à « Qui utilise ces ressources de façon la plus intelligente ? » Les entreprises qui étaient en tête de l’IA principalement grâce à leur capacité à surpasser les concurrents en dépenses semblent soudain vulnérables.
Barrières à l’innovation
Ce que nous observons aujourd’hui dans le paysage de l’IA n’est pas seulement une évolution technique, mais une reconfiguration fondamentale de l’économie de l’IA. Cette transformation ouvre la voie à un accès élargi aux capacités avancées pour les consommateurs et les entreprises. À mesure que les barrières à l’entrée tombent, la concurrence s’intensifie, faisant baisser les prix et accélérant la démocratisation de la technologie.
Le principal défi est de discerner quelles entreprises sont les mieux positionnées pour réussir dans ce nouveau paradigme—et lesquelles pourraient peiner à justifier leurs investissements IA dans un monde où le principe du « plus c’est mieux » ne garantit plus un avantage.

