DeepSeek lanzo V4-Pro y V4-Flash el 24 de abril, ambos enviados como open weights bajo licencia MIT y disponibles inmediatamente via la API de DeepSeek. Los numeros destacados son lo suficientemente puntiagudos para pertenecer a la pila de evaluacion de cualquier desarrollador esta semana. V4-Pro es 1.6 trillones de parametros totales con 49 mil millones activados por token, una configuracion MoE con aproximadamente 3% de densidad de activacion que la hace barata de servir relativo a su techo de capacidad. V4-Flash es la variante mas pequena en 284B/13B. Ambos modelos soportan una ventana de contexto de 1 millon de tokens con una salida maxima de 384K tokens, ambos envian bajo MIT, y ambos estan listados en deepseek-ai en Hugging Face. El score SWE-bench Verified en V4-Pro es 80.6% — a 0.2 puntos de Claude Opus 4.6 — y el precio API esta alrededor de $1.74 entrada / $3.48 salida por millon de tokens, lo que la cobertura de The Rundown estima como aproximadamente 7x mas barato por token de salida que las alternativas propietarias de frontera.
El detalle arquitectonico que deberia atraer mas atencion que los numeros de benchmark es el nuevo mecanismo de atencion hibrida. V4 combina lo que DeepSeek llama Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA) para manejar el contexto 1M eficientemente. El impacto reportado: en 1M tokens, V4-Pro usa solo el 27% de los FLOPs de inferencia por token y el 10% del KV cache comparado con DeepSeek V3.2 en la misma longitud de contexto. Esa es una mejora estructural mucho mas grande que otro punto de MMLU. El tamano del KV cache es la restriccion limitante para servir inferencia de contexto largo en cualquier concurrencia razonable, y una reduccion de 10x es la diferencia entre ofrecer 1M de contexto como bullet de marketing y ofrecerlo como opcion real de produccion. Otros laboratorios van a copiar esto rapido.
Para desarrolladores, el cambio practico esta en la frontera precio-capacidad en cargas de coding. SWE-bench Verified en 80.6% esta esencialmente dentro del ruido del 80.8% de Claude Opus 4.6, y a un septimo del costo de salida cambia el calculo para cualquier producto de agente de alto volumen donde el usuario no necesita el numero absoluto del tope. Los agentes de coding que corren docenas de pasos de inferencia por tarea — agentes de refactor estilo Cursor, sistemas autonomos de revision de PR, herramientas de migracion automatizada — estaban limitados por costo por token en modelos propietarios de frontera. Con V4-Pro la misma carga corre a un punto de precio mas cercano a compute de commodity. El corolario es que los proveedores de frontera propietaria no pueden seguir cobrando los mismos multiplos; el piso en inferencia de agente de produccion acaba de moverse.
El contexto estrategico tambien merece nombrarse. DeepSeek envio soporte para Huawei Ascend junto con V4, lo que significa que toda la pila de entrenamiento-y-servicio corre en silicio chino domestico, no solo el modelo entrenado. Eso hace de V4 el argumento unico mas fuerte hasta ahora de que los controles de exportacion de EE.UU. han moldeado, no detenido, el despliegue de IA china: la brecha entre los modelos propietarios de frontera de Anthropic y OpenAI y las alternativas open-weights de DeepSeek es ahora lo suficientemente pequena como para que carga por carga, la eleccion dependa del precio y licencia, no de los techos de capacidad. Las advertencias honestas: la metodologia de evaluacion propia de DeepSeek deberia ser verificada contra corridas independientes, el Intelligence Index de AA pone a V4-Pro en el cuarto tier en lugar del top, y los scores de benchmark en este punto del ciclo estan crecientemente contaminados por superposicion de datos de entrenamiento con los sets de eval. Corre tus propias evals internas antes de apostar roadmaps de producto en los numeros destacados. Pero la frontera open-weights acaba de dar otro paso hacia donde esta la frontera closed-weights, y eso tiene implicaciones reales para que modelos estandariza el ecosistema de desarrolladores a continuacion.
