A DeepSeek tornou seu pricing V4 Pro permanente com desconto de 75% a partir de 22 de maio de 2026 — cache hit input a $0.003625 por milhão de tokens, cache miss input a $0.435/Mtok, output a $0.87/Mtok. O modelo é o flagship da DeepSeek com contexto 1M, performance de reasoning, coding e math. O artigo não publica os números pré-corte, então verificação independente do framing "75%" requer checar o histórico de pricing da DeepSeek — mas os preços absolutos em si são o data point relevante pra builders. Pra contexto de comparação: um loop de agente típico rodando 50K input + 5K output tokens por chamada agora custa aproximadamente $0.026 por chamada no V4 Pro (cache-miss) versus essencialmente nada se o prefix bate cache. Esse é o tier de pricing onde agentes de produção viram unit-economics-positivos sem engenharia de custo agressiva.
A razão que a DeepSeek cita é a notícia arquitetural sob o corte de preço: "constraints em capacidade de compute high-end" levaram o pricing original do V4 Pro a 12× o custo da variante Flash, e o corte se alinha com o deployment antecipado em larga escala dos chips de IA Huawei Ascend 950 em H2 2026. É o contraparte do lado inferência da história de acelerador chinês-doméstico que builders têm observado: à medida que a capacidade Ascend vem online, custos de serving de frontier-models chineses caem ao ponto onde podem competir em preço mesmo sem silício Nvidia fabricado em TSMC. A camada geopolitical-infra (deployment Ascend) molda a camada model-pricing (corte V4 Pro), molda a camada builder-economics (agentes ficam mais baratos pra rodar). Todo o stack se move quando um tier se move.
Leitura ecossistema: a história de pressão de preço agora é bilateral. Semana passada, a divisão Experiences + Devices da Microsoft largou licenças Claude Code internamente por razões de custo — essa é a resposta do lado demanda. Essa semana a DeepSeek precifica um modelo frontier-class de contexto 1M a $0.87/Mtok output — essa é a resposta do lado oferta. O gradiente de custo está dominando conversas de seleção de modelo dentro de grandes orgs de eng de uma forma que não era o caso seis meses atrás. Builders avaliando "qual modelo padronizamos" deveriam re-rodar os números per-developer-monthly com essa linha DeepSeek na planilha, especialmente pra workloads de code-completion e workloads agênticos de alto volume onde o pricing cache-hit essencialmente zera a porção prefix-heavy do custo.
Segunda de manhã: se teu stack já tem um path API DeepSeek (a maioria dos gateways de modelo enterprise tem), a linha de custo V4 Pro acabou de virar a opção mais barata de reasoning com contexto 1M no mercado por uma margem significativa. Reavaliar workloads onde você tem roteado pra GPT-5 ou Claude 4.x puramente porque eram as únicas opções de contexto 1M que batiam tua barra de benchmark. Caveats honestos: status dos pesos não abordado no release (DeepSeek historicamente tem open-weighted, builders devem verificar a licença específica do V4 Pro), parameter count e arquitetura não divulgados, benchmarks vs Western frontier models não fornecidos nesse artigo. Se você shipa um produto comercial em cima da inferência DeepSeek, as perguntas de data-residency e export-control pertencem à mesa do teu time legal separadamente da matemática de pricing.
