A DeepSeek lancou V4-Pro e V4-Flash em 24 de abril, ambos entregues como open weights sob licenca MIT e imediatamente disponiveis via a API da DeepSeek. Os numeros de manchete sao afiados o suficiente para pertencerem a pilha de avaliacao de qualquer desenvolvedor esta semana. V4-Pro e 1,6 trilhao de parametros totais com 49 bilhoes ativados por token, uma configuracao MoE com aproximadamente 3% de densidade de ativacao que torna barato servi-lo relativo ao seu teto de capacidade. V4-Flash e a variante menor em 284B/13B. Ambos os modelos suportam uma janela de contexto de 1 milhao de tokens com saida maxima de 384K tokens, ambos enviam sob MIT, e ambos estao listados em deepseek-ai no Hugging Face. O score SWE-bench Verified em V4-Pro e 80,6% — dentro de 0,2 pontos do Claude Opus 4.6 — e o preco da API esta em torno de $1,74 entrada / $3,48 saida por milhao de tokens, que a cobertura do The Rundown estima como aproximadamente 7x mais barato por token de saida do que as alternativas proprietarias de fronteira.
O detalhe arquitetural que deveria atrair mais atencao que os numeros de benchmark e o novo mecanismo de atencao hibrida. V4 combina o que a DeepSeek chama de Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA) para lidar com o contexto 1M eficientemente. O impacto reportado: em 1M tokens, V4-Pro usa apenas 27% dos FLOPs de inferencia por token e 10% do KV cache comparado com DeepSeek V3.2 no mesmo comprimento de contexto. Essa e uma melhoria estrutural muito maior que outro ponto de MMLU. O tamanho do KV cache e a restricao limitante para servir inferencia de contexto longo em qualquer concorrencia razoavel, e uma reducao de 10x e a diferenca entre oferecer 1M de contexto como bullet de marketing e oferece-lo como opcao real de producao. Outros laboratorios vao copiar isso rapido.
Para desenvolvedores, a mudanca pratica esta na fronteira preco-capacidade em workloads de coding. SWE-bench Verified em 80,6% esta essencialmente dentro do ruido do 80,8% do Claude Opus 4.6, e a um setimo do custo de saida muda o calculo para qualquer produto de agente de alto volume onde o usuario nao precisa do numero absoluto do topo. Agentes de coding que rodam dezenas de passos de inferencia por tarefa — agentes de refactor estilo Cursor, sistemas autonomos de revisao de PR, ferramentas de migracao automatizada — eram limitados por custo por token em modelos proprietarios de fronteira. Com V4-Pro o mesmo workload roda em um ponto de preco mais proximo de compute commodity. O corolario e que provedores de fronteira proprietaria nao podem continuar cobrando os mesmos multiplos; o piso em inferencia de agente de producao acabou de se mover.
O contexto estrategico tambem vale ser nomeado. A DeepSeek entregou suporte para Huawei Ascend junto com V4, o que significa que toda a pilha de treinamento-e-servico roda em silicio chines domestico, nao apenas o modelo treinado. Isso faz de V4 o argumento unico mais forte ate agora de que os controles de exportacao dos EUA moldaram, nao pararam, o deployment de IA chines: a lacuna entre os modelos proprietarios de fronteira da Anthropic e OpenAI e as alternativas open-weights da DeepSeek e agora pequena o suficiente para que workload por workload, a escolha depende de preco e licenciamento, nao de tetos de capacidade. As ressalvas honestas: a metodologia de avaliacao propria da DeepSeek deveria ser verificada contra rodadas independentes, o Intelligence Index da AA coloca V4-Pro no quarto tier em vez do topo, e scores de benchmark neste ponto do ciclo estao crescentemente contaminados por sobreposicao de dados de treinamento com os conjuntos de eval. Rode suas proprias evals internas antes de apostar roadmaps de produto nos numeros de manchete. Mas a fronteira open-weights acabou de dar mais um passo em direcao a onde esta a fronteira closed-weights, e isso tem implicacoes reais para quais modelos o ecossistema de desenvolvedores vai padronizar a seguir.
