Modelos de raciocínio prendem uma GPU por 30 segundos — essa é a conta, não os tokens

O custo de um modelo de raciocínio não se mede em tokens. Se mede nos segundos de relógio em que sua GPU fica presa a uma única requisição. Um modelo padrão prediz em aproximadamente um segundo; um modelo de raciocínio pode segurar a mesma GPU por trinta segundos enquanto navega por pensamento intercalado, chamadas de ferramenta e auto-correção. Essa proporção é a conta real — sua capacidade de usuários simultâneos cai 30×, sua latência P95 fica não-determinística, e o número de tokens-por-milhão na sua fatura é o sintoma, não a doença.

Inference scaling significa que o custo deixa de ser linear com o tamanho da entrada. O artigo da TDS percorre onde isso aparece: decomposição em cadeia de pensamento queimando milhares de tokens em tarefas simples (o clássico loop de "queima tokens para somar 1 a 9900"), ocupação de memória GPU esticando de sub-segundo a 30s+, e variância de latência P95 que "faz aplicações parecerem quebradas" por timeouts. Caso concreto do artigo: mover trabalho simples para fora de um modelo de raciocínio economizou $2.030/dia — $3.000 para $970, um corte de 68% — sem afetar qualidade da tarefa. A lição é que seu modelo de raciocínio não é o barato pra tudo; é o caro que vale a pena às vezes.

É por isso que todo provedor de fronteira está vendendo routing como produto agora. Claude Sonnet 4.5 + Haiku 4.5, OpenAI o3 + gpt-4.1, Gemini 2.5 Pro + Flash — o tier de routing existe porque o formato de custo de raciocínio vs não-raciocínio é genuinamente diferente, e tentar esconder isso dos devs só produz faturas feias. O reframing interessante do artigo: pare de medir "dólares por milhão de tokens" e comece a medir "custo por tarefa bem-sucedida". Um modelo de raciocínio que resolve um problema em 40K tokens mas come dois retries é mais caro que um modelo menor que acerta em 2K. Sua fatura não mostra isso; seu ratio de tarefas completadas, mostra.

Três coisas que você pode fazer esta semana. Primeiro: classifique seu tráfego em Use / Talvez / Evite para raciocínio — matemática, planejamento, debugging multi-step são Use; extração, formatação, lookups simples são Evite. Segundo: ponha tetos duros em tokens de raciocínio, retries e tempo total de requisição pra que um loop de armadilha-de-pensamento não coma seu orçamento numa noite. Terceiro: logue por requisição `tokens × segundos-relógio × sucesso-bool` e olhe a distribuição de custo-por-tarefa-bem-sucedida, não o custo médio por token. O modelo de raciocínio é uma ferramenta real — ele só não é a ferramenta certa setenta por cento das vezes em que você estará tentado a pegá-lo.

Modelos de raciocínio prendem uma GPU por 30 segundos — essa é a conta, não os tokens

Mais notícias