Por anos, modelos de linguagem eram imitadores impressionantes mas pensadores pouco confiáveis. Pergunte ao GPT-3 para resolver um problema de matemática com múltiplas etapas e ele frequentemente pulava direto para uma resposta — às vezes certa, frequentemente errada, sem forma de rastrear onde se perdeu. A descoberta veio de um insight enganosamente simples: se você treina um modelo para mostrar seu trabalho, ele fica dramaticamente melhor em acertar a resposta. Chain-of-thought prompting (demonstrado pela primeira vez por pesquisadores do Google em 2022) mostrou que simplesmente adicionar "vamos pensar passo a passo" a um prompt podia aumentar a precisão em benchmarks de matemática em 20–40%. Mas prompting é apenas a superfície. Verdadeiros modelos de raciocínio — o1 e o3 da OpenAI, DeepSeek-R1, extended thinking do Claude — são treinados especificamente para gerar longos traços de raciocínio internos antes de produzir uma resposta, usando reinforcement learning para recompensar resultados finais corretos independentemente do caminho de raciocínio tomado.
Um modelo de raciocínio não simplesmente "pensa mais forte" — pensa de forma diferente. Quando você dá a um modelo de linguagem padrão um problema complexo, ele gera tokens da esquerda para a direita, se comprometendo com cada palavra antes de ver a solução completa. Um modelo de raciocínio gera uma cadeia de pensamento extensa — às vezes centenas ou milhares de tokens — explorando abordagens, voltando atrás quando encontra becos sem saída, e verificando sua própria lógica antes de se comprometer com uma resposta final. O modelo o3 da OpenAI, por exemplo, pode gastar 10.000 tokens de pensamento em um problema difícil de matemática, tentando uma abordagem, reconhecendo uma falha, trocando de estratégia e finalmente convergindo para uma prova correta. Essa computação extra no tempo de inferência (frequentemente chamada de "test-time compute" ou "tempo de pensamento") é o trade-off chave: modelos de raciocínio são mais lentos e caros por consulta, mas resolvem problemas que modelos padrão simplesmente não conseguem. Em benchmarks como AIME (matemática de competição), GPQA (ciência nível doutorado) e SWE-bench (engenharia de software do mundo real), modelos de raciocínio superam seus equivalentes sem raciocínio por 30–50 pontos percentuais.
Construir um modelo de raciocínio envolve um pipeline de treinamento distinto. A base é um modelo de linguagem pré-treinado forte, mas a etapa crítica é reinforcement learning (RL) em tarefas de raciocínio. A DeepSeek publicou o relato mais detalhado com seu modelo R1: começam com supervised fine-tuning em exemplos de bom raciocínio, depois aplicam Group Relative Policy Optimization (GRPO) — uma variante de reinforcement learning que recompensa respostas finais corretas sem exigir um modelo de recompensa separado. A fase de RL é onde a mágica acontece. O modelo descobre estratégias de raciocínio por conta própria: dividir problemas em subproblemas, verificar seu trabalho, considerar casos extremos e até expressar incerteza quando não tem certeza. Notavelmente, a DeepSeek descobriu que seu modelo desenvolveu espontaneamente esses comportamentos durante o treinamento de RL sem ser explicitamente ensinado — o sinal de recompensa para respostas corretas foi suficiente para incentivar raciocínio rigoroso.
Modelos de raciocínio não são infalíveis, e suas falhas podem ser mais sutis que as de modelos padrão. Um problema comum é "pensar demais" — o modelo gera uma cadeia de pensamento elaborada que parece rigorosa mas chega a uma resposta errada porque seguiu um caminho lógico plausível-mas-incorreto. Outro é o custo de raciocinar sobre questões simples: perguntar a um modelo de raciocínio "Qual é a capital da França?" pode disparar uma deliberação desnecessária que desperdiça tokens e tempo. Modelos também podem exibir problemas de "fidelidade", onde a cadeia de raciocínio visível não reflete realmente a computação interna do modelo — o modelo chega a uma resposta por correspondência de padrões mas depois gera um traço de raciocínio que a racionaliza post hoc. E cadeias longas de raciocínio podem derivar: em uma cadeia de pensamento de 5.000 tokens, um erro na etapa 3 pode se propagar pelas 40 etapas restantes, produzindo uma resposta final confidentemente errada que parece meticulosamente derivada.
A trajetória da pesquisa em raciocínio aponta para modelos que podem alocar adaptativamente tempo de pensamento com base na dificuldade do problema — gastando 50 tokens numa questão fácil e 50.000 numa difícil. Esse raciocínio "compute-optimal" já está emergindo: tanto a OpenAI quanto a Anthropic oferecem modelos que escalam seu pensamento automaticamente. Além do raciocínio de turno único, a fronteira é raciocínio de agente multi-etapas — modelos que podem planejar e executar tarefas complexas ao longo de muitas interações, mantendo uma estratégia coerente enquanto se adaptam a novas informações. Extended thinking do Claude, o3 da OpenAI e DeepSeek-R1 todos representam sistemas de raciocínio de primeira geração. A próxima geração provavelmente combinará raciocínio com uso de ferramentas (calculadoras, execução de código, busca) para verificar etapas intermediárias em vez de depender apenas da própria computação do modelo, fechando a lacuna entre "IA que raciocina" e "IA que confiavelmente acerta a resposta".