O prompting chain-of-thought funciona porque modelos de linguagem são preditores de próximo token, e os tokens que geram se tornam parte de seu próprio contexto. Quando você pede a um modelo para "pensar passo a passo", você não está ativando algum módulo oculto de raciocínio — você está forçando-o a produzir tokens intermediários que restringem e guiam tokens subsequentes em direção a uma resposta correta. Sem esses passos intermediários, o modelo tem que fazer um único salto inferencial massivo da pergunta à resposta, e é exatamente aí que os erros se acumulam. Com CoT, cada passo estreita o espaço de probabilidade para o próximo. É a diferença entre tentar multiplicar 347 por 29 de cabeça de uma só vez versus escrever os produtos parciais no papel.
O artigo original de 2022 de Wei et al. no Google mostrou que o prompting CoT era essencialmente gratuito para modelos grandes — apenas adicionar "Vamos pensar passo a passo" a um prompt aumentou a precisão no GSM8K de cerca de 18% para 57% no PaLM 540B. Mas a técnica mal ajudava modelos menores, o que levou a uma regra prática: CoT é mais útil em modelos acima de aproximadamente 10 bilhões de parâmetros. Abaixo desse limiar, o modelo frequentemente gera passos de raciocínio que soam plausíveis mas estão errados, o que na verdade prejudica mais do que pular direto para a resposta. Isso vale lembrar se você está roteando entre modelos de diferentes tamanhos em produção.
Modelos modernos de fronteira — Claude, GPT-4, Gemini — internalizaram amplamente chain-of-thought durante o treinamento. Anthropic e OpenAI usam variantes de modelos de recompensa de processo e reinforcement learning para treinar modelos que raciocinam sobre problemas antes de responder, mesmo quando você não pede explicitamente. Os modelos o1 e o3 da OpenAI levam isso ao extremo, realizando raciocínio interno estendido que você pode ver em um trace de "pensamento". O extended thinking do Claude funciona de forma similar. A consequência prática é que para modelos de ponta, prompting explícito de CoT importa menos do que em 2023, mas ainda ajuda quando você quer inspecionar o raciocínio, detectar erros, ou quando está trabalhando com modelos menores ou open-source que não receberam esse treinamento.
Um equívoco comum é que chain-of-thought sempre significa respostas mais longas e lentas. Na prática, você pode combinar CoT com saída estruturada — peça ao modelo para raciocinar em uma seção de rascunho e depois produzir uma resposta final concisa. Muitos usuários de API colocam o raciocínio em um campo separado ou usam tags XML para delimitar pensamento da resposta. Isso lhe dá os benefícios de precisão sem forçar seus usuários finais a navegar por parágrafos de raciocínio. Outro detalhe: CoT pode na verdade piorar modelos em tarefas simples onde pensar demais introduz dúvida desnecessária. Se você está perguntando "Qual é a capital da França?" você não precisa de cinco passos de raciocínio — você precisa de uma resposta direta.
As variantes de CoT valem a pena conhecer. Zero-shot CoT (apenas adicionar "pense passo a passo") é a mais simples. Few-shot CoT fornece exemplos resolvidos com cadeias de raciocínio no prompt. Tree-of-thought vai além, permitindo que o modelo explore múltiplos ramos de raciocínio e retroceda. Self-consistency gera vários caminhos de CoT e faz votação por maioria na resposta final, que é um dos impulsionadores de precisão mais confiáveis disponíveis. Cada nível acima custa mais tokens e latência, então a escolha certa depende de se você está otimizando para custo, velocidade ou correção — e quão difícil o problema realmente é.