A forma mais simples de computação em tempo de teste é cadeia de pensamento: o modelo gera passos de raciocínio antes da resposta final. Abordagens mais sofisticadas incluem: árvore de pensamento (explorar múltiplos caminhos de raciocínio e selecionar o melhor), autoconsistência (gerar múltiplas respostas e votar), e refinamento iterativo (o modelo critica e revisa sua própria saída). Cada abordagem usa mais tokens (= mais computação = mais custo) mas produz resultados melhores.
Modelos como o1 (OpenAI) e Claude com thinking estendido geram tokens de raciocínio internos que o usuário não vê. Esses "tokens de pensamento" permitem que o modelo decomponha problemas complexos, verifique seu trabalho, considere casos extremos e revise sua abordagem — tudo antes de produzir a resposta visível. O custo é maior (você paga pelos tokens de pensamento) e a latência é mais longa, mas a precisão em tarefas de matemática, programação e raciocínio melhora dramaticamente.
Pesquisas sugerem que computação em tempo de teste segue suas próprias leis de escala: dobrar a computação de inferência (tempo de pensamento) produz melhorias previsíveis na precisão, análogo a como dobrar a computação de treinamento melhora a loss de pré-treinamento. Isso significa que você pode escolher seu trade-off qualidade-custo por consulta: perguntas simples recebem respostas rápidas e baratas; perguntas complexas recebem raciocínio mais longo e mais caro. Essa alocação dinâmica é mais eficiente que usar a mesma computação para toda consulta.