DeepSeek a sorti V4-Pro pis V4-Flash le 24 avril, les deux livres comme poids ouverts sous licence MIT pis immediatement disponibles via l'API DeepSeek. Les chiffres vedettes sont assez pointus pour appartenir a la pile d'evaluation de n'importe quel developpeur cette semaine. V4-Pro, c'est 1,6 trillion de parametres totaux avec 49 milliards actives par token, une configuration MoE avec environ 3 % de densite d'activation qui le rend pas cher a servir par rapport a son plafond de capacite. V4-Flash, c'est la variante plus petite a 284 G / 13 G. Les deux modeles supportent une fenetre de contexte de 1 million de tokens avec une sortie maximale de 384K tokens, les deux shippent sous MIT, pis les deux sont listes a deepseek-ai sur Hugging Face. Le score SWE-bench Verified sur V4-Pro, c'est 80,6 % — a 0,2 point pres de Claude Opus 4.6 — pis le prix API est autour de 1,74 $ entree / 3,48 $ sortie par million de tokens, ce que la couverture de The Rundown estime a environ 7x moins cher par token de sortie que les alternatives proprietaires de frontiere.

Le detail architectural qui devrait attirer plus d'attention que les chiffres de benchmark, c'est le nouveau mecanisme d'attention hybride. V4 combine ce que DeepSeek appelle Compressed Sparse Attention (CSA) pis Heavily Compressed Attention (HCA) pour gerer le contexte 1M efficacement. L'impact rapporte : a 1M tokens, V4-Pro utilise seulement 27 % des FLOPs d'inference par token pis 10 % du KV cache compare a DeepSeek V3.2 sur la meme longueur de contexte. C'est une amelioration structurelle beaucoup plus grande qu'un autre point de MMLU. La taille du KV cache, c'est la contrainte limitante pour servir l'inference long-contexte a n'importe quelle concurrence raisonnable, pis une reduction 10x, c'est la difference entre des marketing bullets et une vraie option de production. D'autres labs vont copier ca vite.

Pour les developpeurs, le shift pratique est dans la frontiere prix-capacite sur les charges de coding. SWE-bench Verified a 80,6 %, c'est essentiellement dans le bruit de Claude Opus 4.6 a 80,8 %, pis a un septieme du cout de sortie ca change le calcul pour tout produit d'agent a haut volume ou l'utilisateur a pas besoin du chiffre absolu du haut. Les agents de coding qui roulent des dizaines d'etapes d'inference par tache — agents de refactor style Cursor, systemes de revue de PR autonomes, outils de migration automatisee — etaient contraints par le cout par token sur les modeles proprietaires de frontiere. Avec V4-Pro, la meme charge roule a un prix plus proche du calcul commodite. Le corollaire, c'est que les fournisseurs de frontiere proprietaire peuvent pas continuer a charger les memes multiples ; le plancher sur l'inference d'agent en production vient de bouger.

Le contexte strategique merite aussi d'etre nomme. DeepSeek a shippe le support Huawei Ascend en meme temps que V4, ce qui veut dire que le stack entier d'entrainement-et-service roule sur du silicium chinois domestique, pas juste le modele entraine. Ca fait de V4 l'argument unique le plus fort a ce jour que les controles a l'export americains ont faconne, pas arrete, le deploiement IA chinois : l'ecart entre les modeles proprietaires de frontiere d'Anthropic pis OpenAI pis les alternatives en poids ouverts de DeepSeek est maintenant assez petit que charge par charge, le choix depend du prix pis du licensing, pas des plafonds de capacite. Les mises en garde honnetes : la methodologie d'evaluation propre de DeepSeek devrait etre verifiee contre des runs independants, l'Intelligence Index d'AA met V4-Pro dans le quatrieme tier plutot que dans le top, pis les scores de benchmark a ce stade du cycle sont de plus en plus contamines par le chevauchement de donnees d'entrainement avec les sets d'eval. Roule tes propres evals internes avant de parier des roadmaps de produit sur les chiffres vedettes. Mais la frontiere open-weights vient de faire un autre pas vers ou la frontiere closed-weights est, pis ca a de vraies implications pour quels modeles l'ecosysteme de developpeurs va standardiser ensuite.