El prompting chain-of-thought funciona porque los modelos de lenguaje son predictores del siguiente token, y los tokens que generan se convierten en parte de su propio contexto. Cuando le pides a un modelo que "piense paso a paso", no estás activando algún módulo de razonamiento oculto — estás forzándolo a producir tokens intermedios que restringen y guían los tokens subsiguientes hacia una respuesta correcta. Sin esos pasos intermedios, el modelo tiene que hacer un solo salto inferencial masivo de la pregunta a la respuesta, y ahí es exactamente donde se acumulan los errores. Con CoT, cada paso reduce el espacio de probabilidades para el siguiente. Es la diferencia entre intentar multiplicar 347 por 29 de cabeza de una sola vez versus escribir los productos parciales en papel.
El paper original de 2022 de Wei et al. en Google mostró que el prompting CoT era esencialmente gratuito para modelos grandes — solo agregar "Pensemos paso a paso" a un prompt aumentó la precisión en GSM8K de matemáticas de alrededor del 18% al 57% en PaLM 540B. Pero la técnica apenas ayudaba a modelos más pequeños, lo que llevó a una regla práctica: CoT es más útil en modelos por encima de aproximadamente 10 mil millones de parámetros. Por debajo de ese umbral, el modelo frecuentemente genera pasos de razonamiento que suenan plausibles pero son incorrectos, lo que de hecho perjudica más que saltar directo a una respuesta. Esto vale la pena recordar si estás enrutando entre modelos de diferentes tamaños en producción.
Los modelos modernos de frontera — Claude, GPT-4, Gemini — han internalizado en gran medida el chain-of-thought durante el entrenamiento. Anthropic y OpenAI usan variantes de modelos de recompensa de proceso y aprendizaje por refuerzo para entrenar modelos que razonan a través de los problemas antes de responder, incluso cuando no se les pide explícitamente. Los modelos o1 y o3 de OpenAI llevan esto al extremo, realizando razonamiento interno extendido que puedes ver en un trace de "pensamiento". El pensamiento extendido de Claude funciona de manera similar. La consecuencia práctica es que para modelos de vanguardia, el prompting CoT explícito importa menos de lo que importaba en 2023, pero aún ayuda cuando quieres inspeccionar el razonamiento, detectar errores o cuando trabajas con modelos más pequeños o de código abierto que no recibieron ese entrenamiento.
Una idea errónea común es que chain-of-thought siempre significa respuestas más largas y lentas. En la práctica, puedes combinar CoT con salida estructurada — pedir al modelo que razone en una sección de borrador y luego produzca una respuesta final concisa. Muchos usuarios de API ponen el razonamiento en un campo separado o usan etiquetas XML para delimitar el pensamiento de la respuesta. Esto te da los beneficios de precisión sin forzar a tus usuarios finales a leer párrafos de razonamiento. Otro detalle: CoT puede hacer que los modelos empeoren en tareas simples donde pensar de más introduce dudas innecesarias. Si preguntas "¿Cuál es la capital de Francia?" no necesitas cinco pasos de razonamiento — necesitas una respuesta directa.
Las variantes de CoT valen la pena conocerlas. Zero-shot CoT (simplemente agregar "piensa paso a paso") es la más simple. Few-shot CoT proporciona ejemplos resueltos con cadenas de razonamiento en el prompt. Tree-of-thought va más allá, permitiendo al modelo explorar múltiples ramas de razonamiento y retroceder. Self-consistency genera varios caminos CoT y toma un voto mayoritario sobre la respuesta final, que es uno de los potenciadores de precisión más confiables disponibles. Cada paso hacia arriba cuesta más tokens y latencia, así que la elección correcta depende de si estás optimizando para costo, velocidad o corrección — y qué tan difícil es realmente el problema.