Zubnet AIAprenderWiki › Computação em Tempo de Teste
Fundamentos

Computação em Tempo de Teste

Também conhecido como: Computação em Tempo de Inferência, Cadeia de Pensamento, Tokens de Pensamento
Usar computação adicional durante a inferência (quando o modelo está gerando uma resposta) para melhorar a qualidade da resposta. Em vez de gerar uma resposta imediatamente, o modelo "pensa" por mais tempo — gerando tokens de raciocínio, explorando múltiplas abordagens ou verificando sua própria saída. Mais computação em tempo de teste produz respostas melhores, especialmente para tarefas complexas de raciocínio.

Por que isso importa

Computação em tempo de teste é o mais recente paradigma de escala. A primeira era escalou computação de treinamento (modelos maiores, mais dados). A era atual também escala computação de inferência (mais pensamento por pergunta). Modelos como o1 e Claude com thinking estendido mostram que deixar um modelo raciocinar por 30 segundos frequentemente supera um modelo que responde em 2 segundos, mesmo que o modelo rápido seja tecnicamente maior. Isso muda a economia: qualidade se torna uma função de quanto você está disposto a gastar por consulta.

Em profundidade

A forma mais simples de computação em tempo de teste é cadeia de pensamento: o modelo gera passos de raciocínio antes da resposta final. Abordagens mais sofisticadas incluem: árvore de pensamento (explorar múltiplos caminhos de raciocínio e selecionar o melhor), autoconsistência (gerar múltiplas respostas e votar), e refinamento iterativo (o modelo critica e revisa sua própria saída). Cada abordagem usa mais tokens (= mais computação = mais custo) mas produz resultados melhores.

Thinking Estendido

Modelos como o1 (OpenAI) e Claude com thinking estendido geram tokens de raciocínio internos que o usuário não vê. Esses "tokens de pensamento" permitem que o modelo decomponha problemas complexos, verifique seu trabalho, considere casos extremos e revise sua abordagem — tudo antes de produzir a resposta visível. O custo é maior (você paga pelos tokens de pensamento) e a latência é mais longa, mas a precisão em tarefas de matemática, programação e raciocínio melhora dramaticamente.

Leis de Escala para Inferência

Pesquisas sugerem que computação em tempo de teste segue suas próprias leis de escala: dobrar a computação de inferência (tempo de pensamento) produz melhorias previsíveis na precisão, análogo a como dobrar a computação de treinamento melhora a loss de pré-treinamento. Isso significa que você pode escolher seu trade-off qualidade-custo por consulta: perguntas simples recebem respostas rápidas e baratas; perguntas complexas recebem raciocínio mais longo e mais caro. Essa alocação dinâmica é mais eficiente que usar a mesma computação para toda consulta.

Conceitos relacionados

← Todos os termos
← Colapso de Modelo Conexão Residual →