Zubnet AIAprenderWiki › Test-Time Compute
Fundamentos

Test-Time Compute

Inference-Time Compute, Chain of Thought, Thinking Tokens
Usar computação adicional durante a inferência (quando o modelo está gerando uma resposta) para melhorar a qualidade da resposta. Em vez de gerar uma resposta imediatamente, o modelo “pensa” mais tempo — gerando tokens de raciocínio, explorando múltiplas abordagens ou verificando sua própria saída. Mais compute em tempo de teste produz respostas melhores, especialmente para tarefas complexas de raciocínio.

Por que importa

Test-time compute é o paradigma de scaling mais recente. A primeira era escalava compute de treinamento (modelos maiores, mais dados). A era atual também escala compute de inferência (mais pensamento por pergunta). Modelos como o1 e Claude com extended thinking mostram que deixar um modelo raciocinar por 30 segundos frequentemente supera um modelo que responde em 2 segundos, mesmo que o modelo rápido seja tecnicamente maior. Isso muda a economia: qualidade se torna função de quanto você está disposto a gastar por query.

Deep Dive

The simplest form of test-time compute is chain-of-thought: the model generates reasoning steps before the final answer. More sophisticated approaches include: tree-of-thought (exploring multiple reasoning paths and selecting the best), self-consistency (generating multiple answers and voting), and iterative refinement (the model critiques and revises its own output). Each approach uses more tokens (= more compute = more cost) but produces better results.

Extended Thinking

Models like o1 (OpenAI) and Claude with extended thinking generate internal reasoning tokens that the user doesn't see. These "thinking tokens" let the model decompose complex problems, check its work, consider edge cases, and revise its approach — all before producing the visible response. The cost is higher (you pay for thinking tokens) and latency is longer, but accuracy on math, coding, and reasoning tasks improves dramatically.

Scaling Laws for Inference

Research suggests that test-time compute follows its own scaling laws: doubling inference compute (thinking time) produces predictable improvements in accuracy, analogous to how doubling training compute improves pre-training loss. This means you can choose your quality-cost trade-off per query: simple questions get fast, cheap answers; complex questions get longer, more expensive reasoning. This dynamic allocation is more efficient than using the same compute for every query.

Conceitos relacionados

← Todos os termos
← Tencent Text-to-Speech →