DeepSeek a rendu son pricing V4 Pro permanent à un discount de 75% en date du 22 mai 2026 — cache hit input à 0,003625$ par million de tokens, cache miss input à 0,435$/Mtok, output à 0,87$/Mtok. Le modèle c'est le flagship de DeepSeek avec contexte 1M, performance reasoning, coding et math. L'article ne publie pas les chiffres pré-cut, donc la vérification indépendante du framing "75%" requiert checker l'historique de pricing de DeepSeek — mais les prix absolus eux-mêmes c'est le data point builder-relevant. Pour le contexte de comparaison : une loop d'agent typique qui roule 50K input + 5K output tokens par call coûte maintenant à peu près 0,026$ par call sur V4 Pro (cache-miss) versus essentiellement rien si le prefix hit le cache. C'est le tier de pricing où les agents production deviennent unit-economics-positive sans cost engineering agressif.

La rationale que DeepSeek cite c'est la news architecturale sous le price cut : "constraints in high-end compute capacity" ont driveé le pricing original de V4 Pro à 12× le variant Flash, et le cut s'aligne avec le déploiement large-scale anticipé des chips AI Huawei Ascend 950 en H2 2026. C'est le counterpart inference-side de la story chinese-domestic accelerator que les builders watchent : à mesure que la capacité Ascend vient online, les coûts de serving des frontier-models chinois tombent au point où ils peuvent compete sur prix même sans silicon Nvidia TSMC-fab'é. La couche geopolitical-infra (déploiement Ascend) shape la couche model-pricing (cut V4 Pro), shape la couche builder-economics (les agents deviennent moins chers à rouler). Toute la stack bouge quand un tier bouge.

Lecture écosystème : la story de pression pricing est maintenant bilatérale. La semaine dernière, la division Experiences + Devices de Microsoft a droppé les licences Claude Code à l'interne pour des raisons de coût — c'est la réponse côté demande. Cette semaine DeepSeek prix un modèle frontier-class 1M-context à 0,87$/Mtok output — c'est la réponse côté offre. Le gradient de coût domine les conversations de model selection à l'intérieur des grands orgs eng d'une façon qui n'était pas le cas il y a six mois. Les builders qui évaluent "quel modèle on standardise dessus" devraient re-run les chiffres per-developer-monthly avec cette ligne DeepSeek dans le spreadsheet, spécialement pour les workloads code-completion et high-volume agentic où le pricing cache-hit zero-out essentiellement la portion prefix-heavy du coût.

Lundi matin : si ta stack a déjà un path API DeepSeek (la plupart des gateways de modèles enterprise en ont), la ligne coût V4 Pro vient de devenir l'option 1M-context reasoning la moins chère du marché par une marge significative. Réévalue les workloads où t'as été routing vers GPT-5 ou Claude 4.x purement parce que c'étaient les seules options 1M-context qui hit ta benchmark bar. Caveats honnêtes : statut des weights pas adressé dans le release (DeepSeek a historiquement open-weighted, les builders devraient vérifier la licence spécifique de V4 Pro), parameter count et architecture pas divulgués, benchmarks vs Western frontier models pas fournis dans cet article. Si tu shippes un produit commercial par-dessus l'inference DeepSeek, les questions de data-residency et d'export-control appartiennent au bureau de ton équipe legal séparément de la math de pricing.