DeepSeek hizo su pricing V4 Pro permanente con descuento de 75% a partir del 22 de mayo de 2026 — cache hit input a $0.003625 por millón de tokens, cache miss input a $0.435/Mtok, output a $0.87/Mtok. El modelo es el flagship de DeepSeek con contexto 1M, rendimiento de reasoning, coding y math. El artículo no publica las cifras pre-corte, así que verificación independiente del framing "75%" requiere chequear el historial de pricing de DeepSeek — pero los precios absolutos en sí son el data point relevante para builders. Para contexto de comparación: un loop de agente típico corriendo 50K input + 5K output tokens por llamada ahora cuesta aproximadamente $0.026 por llamada en V4 Pro (cache-miss) versus esencialmente nada si el prefix golpea cache. Ese es el tier de pricing donde los agentes de producción se vuelven unit-economics-positivos sin cost engineering agresivo.

La razón que DeepSeek cita es la noticia arquitectónica bajo el corte de precios: "restricciones en capacidad de cómputo high-end" impulsaron el pricing original de V4 Pro al 12× del costo de la variante Flash, y el corte se alinea con el despliegue anticipado a gran escala de los chips de IA Huawei Ascend 950 en H2 2026. Es el contraparte del lado inferencia de la historia de acelerador chino-doméstico que los builders han estado mirando: a medida que la capacidad Ascend viene online, los costos de serving de frontier-models chinos caen al punto donde pueden competir en precio incluso sin silicon Nvidia fabricado en TSMC. La capa geopolitical-infra (despliegue Ascend) moldea la capa model-pricing (corte V4 Pro), moldea la capa builder-economics (los agentes se vuelven más baratos de correr). Todo el stack se mueve cuando un tier se mueve.

Lectura ecosistema: la historia de presión de precios ahora es bilateral. La semana pasada, la división Experiences + Devices de Microsoft dejó caer las licencias de Claude Code internamente por razones de costo — esa es la respuesta del lado demanda. Esta semana DeepSeek precia un modelo frontier-class de contexto 1M a $0.87/Mtok output — esa es la respuesta del lado oferta. El gradiente de costo está dominando las conversaciones de selección de modelos dentro de grandes orgs de eng de una manera que no era el caso hace seis meses. Los builders evaluando "qué modelo estandarizamos" deberían re-correr los números per-developer-monthly con esta línea DeepSeek en el spreadsheet, especialmente para workloads de code-completion y workloads agénticos de alto volumen donde el pricing cache-hit esencialmente cero-out la porción prefix-heavy del costo.

Lunes por la mañana: si tu stack ya tiene un path API DeepSeek (la mayoría de gateways de modelos enterprise lo tienen), la línea de costo V4 Pro acaba de convertirse en la opción más barata de reasoning con contexto 1M en el mercado por un margen significativo. Reevaluar workloads donde has estado routeando a GPT-5 o Claude 4.x puramente porque eran las únicas opciones de contexto 1M que golpeaban tu barra de benchmark. Caveats honestos: estado de los pesos no abordado en el release (DeepSeek históricamente ha open-weighted, los builders deberían verificar la licencia específica de V4 Pro), parameter count y arquitectura no divulgados, benchmarks vs Western frontier models no proporcionados en este artículo. Si shippas un producto comercial sobre inferencia DeepSeek, las preguntas de data-residency y export-control pertenecen al escritorio de tu equipo legal separadamente de la matemática de precios.