L'histoire de DeepSeek est unique parmi les grands laboratoires d'IA. L'entreprise a été fondée en 2023 comme filiale de High-Flyer Capital Management, un fonds spéculatif quantitatif basé à Hangzhou, en Chine, fondé par Liang Wenfeng. High-Flyer construisait sa propre infrastructure d'IA pour le trading depuis 2016 et avait accumulé une grappe de GPU substantielle — environ 10 000 puces NVIDIA A100 selon les rapports — avant que les contrôles à l'exportation américains d'octobre 2022 ne coupent l'accès de la Chine au matériel d'IA le plus avancé. Liang, titulaire de diplômes en ingénierie de l'information électronique de l'Université de Zhejiang, a décidé de réorienter cette infrastructure vers la recherche en IA à usage général. Contrairement au parcours typique d'une startup consistant à lever du capital-risque et à recruter des chercheurs vedettes, DeepSeek était entièrement autofinancée par High-Flyer, donnait peu d'entrevues et publiait des articles qui parlaient d'eux-mêmes. L'équipe était jeune — largement issue des meilleures universités chinoises — et opérait avec un profil public minimal.
Les premières publications de DeepSeek étaient solides mais n'ont pas fait les manchettes. DeepSeek-V1 et les modèles DeepSeek Coder démontraient de la compétence sans pour autant défier la frontière. Tout a changé radicalement avec DeepSeek-V2 en mai 2024, qui a introduit Multi-Head Latent Attention (MLA) — une technique comprimant le cache clé-valeur pendant l'inférence, réduisant considérablement les besoins en mémoire et les coûts. Le modèle utilisait une architecture de mélange d'experts avec 236 milliards de paramètres au total mais seulement 21 milliards actifs par jeton, le rendant à la fois puissant et économique à exécuter. DeepSeek a fixé le prix de son API à environ 1/30e du coût de GPT-4, envoyant une onde de choc dans l'industrie. Puis est arrivé DeepSeek-V3 en décembre 2024, dont l'équipe affirmait que l'entraînement avait coûté environ 5,5 millions de dollars en calcul — un chiffre qui, s'il est exact, représentait un ordre de grandeur de moins que ce que les laboratoires occidentaux dépensaient pour des modèles comparables. V3 utilisait un entraînement en précision mixte FP8, un objectif de prédiction multi-tokens et un équilibrage de charge sans perte auxiliaire pour ses couches MoE, chacun constituant une innovation significative en efficacité d'entraînement.
DeepSeek-R1, publié le 20 janvier 2025, a été le moment où le grand public a pris conscience. R1 était un modèle de raisonnement dans la veine d'o1 d'OpenAI — capable de « réfléchir » à travers des problèmes complexes étape par étape avant de répondre — et il égalait ou surpassait les performances d'o1 sur les indices de référence en mathématiques, programmation et sciences. Le modèle a été publié en poids ouverts sous licence MIT. L'impact a été immédiat et spectaculaire. Le 27 janvier, le jour où les marchés ont pleinement assimilé les implications, l'action de NVIDIA a chuté de près de 17 % en une seule séance — la plus grande perte de capitalisation boursière en une journée de l'histoire américaine à ce moment-là — alors que les investisseurs réévaluaient l'hypothèse selon laquelle le progrès en IA nécessitait des dépenses GPU toujours croissantes. Le « choc DeepSeek » est devenu un événement géopolitique : si un laboratoire chinois pouvait égaler les modèles américains de pointe malgré la coupure d'accès au matériel le plus récent, qu'est-ce que cela disait de l'efficacité des contrôles à l'exportation ? Et si les coûts d'entraînement chutaient, qu'advenait-il des modèles d'affaires des entreprises vendant de l'infrastructure d'IA coûteuse ?
L'histoire technique derrière l'efficacité de DeepSeek est véritablement intéressante et ne se réduit pas à une seule astuce. L'équipe a fait un usage agressif d'innovations architecturales (MLA, DeepSeekMoE avec des experts à granularité fine), de techniques d'entraînement (FP8 dès le début du pré-entraînement plutôt que seulement pour l'inférence, prédiction multi-tokens, calendriers de taux d'apprentissage soigneusement ajustés) et d'ingénierie d'infrastructure (noyaux personnalisés, parallélisme de pipeline agressif). Pour R1 en particulier, ils ont utilisé une approche novatrice d'apprentissage par renforcement : plutôt que de s'appuyer sur des données coûteuses de préférence humaine comme le RLHF, ils ont appliqué Group Relative Policy Optimization (GRPO) sur des tâches de mathématiques et de programmation avec des réponses vérifiables, laissant le modèle découvrir les schémas de raisonnement en chaîne de pensée par lui-même. Un petit ensemble de données de « démarrage à froid » a aidé, mais l'intuition centrale était que le raisonnement pouvait émerger de l'apprentissage par renforcement avec vérification par la vérité terrain plutôt que de nécessiter une annotation humaine massive. Ils ont également démontré la « distillation » — entraîner des modèles plus petits (1,5B, 7B, 8B, 14B, 32B, 70B paramètres) à imiter les chaînes de raisonnement de R1, produisant une famille de modèles efficaces aux performances bien supérieures à ce que leur taille laisserait présager.
DeepSeek ne peut se comprendre en dehors du contexte de la compétition technologique entre les États-Unis et la Chine. Les modèles de l'entreprise respectent les exigences de censure chinoises — posez une question sur la place Tiananmen, l'indépendance de Taïwan ou Xi Jinping, et vous obtiendrez soit un refus, soit la position officielle du gouvernement chinois. C'est une exigence légale pour toute entreprise d'IA opérant en Chine, et non un choix, mais cela limite l'utilité des modèles pour les utilisateurs ayant besoin de résultats non censurés (bien que les poids ouverts signifient que d'autres peuvent supprimer la censure par affinage). Les contrôles à l'exportation américains qui restreignent l'accès de la Chine aux GPU avancés sont à la fois un obstacle que DeepSeek a contourné et, paradoxalement, un aiguillon qui les a poussés vers les innovations d'efficacité devenues leur avantage. Des questions demeurent également sur les ressources réelles de calcul de DeepSeek — certains analystes ont émis l'hypothèse que High-Flyer aurait pu accumuler plus de GPU que ce qui a été publiquement reconnu avant l'interdiction d'exportation, et le chiffre de 5,5 millions de dollars de coût d'entraînement pour V3 a été remis en question comme excluant potentiellement des coûts significatifs de recherche et d'infrastructure préalables. Quoi qu'il en soit, les réalisations de DeepSeek sont réelles, leurs articles sont détaillés et reproductibles, et ils ont fondamentalement changé la conversation sur ce qui est nécessaire pour construire une IA de pointe.