Durante años, los modelos de lenguaje fueron imitadores impresionantes pero pensadores poco confiables. Si le pedías a GPT-3 que resolviera un problema de matemáticas con múltiples pasos, frecuentemente saltaba directo a una respuesta — a veces correcta, frecuentemente incorrecta, sin forma de rastrear dónde se desvió. El avance vino de un insight engañosamente simple: si entrenas a un modelo para que muestre su trabajo, mejora dramáticamente en obtener la respuesta correcta. El prompting de cadena de pensamiento (demostrado por primera vez por investigadores de Google en 2022) mostró que simplemente agregar "pensemos paso a paso" a un prompt podía mejorar la precisión en benchmarks de matemáticas entre un 20–40%. Pero el prompting solo rasca la superficie. Los verdaderos modelos de razonamiento — o1 y o3 de OpenAI, DeepSeek-R1, el pensamiento extendido de Claude — son entrenados específicamente para generar trazas de razonamiento internas extensas antes de producir una respuesta, usando aprendizaje por refuerzo para recompensar resultados finales correctos independientemente del camino de razonamiento tomado.
Un modelo de razonamiento no solo "piensa más fuerte" — piensa diferente. Cuando le das a un modelo de lenguaje estándar un problema complejo, genera tokens de izquierda a derecha, comprometiéndose con cada palabra antes de ver la solución completa. Un modelo de razonamiento genera una cadena de pensamiento extendida — a veces cientos o miles de tokens — explorando enfoques, retrocediendo cuando encuentra callejones sin salida, y verificando su propia lógica antes de comprometerse con una respuesta final. El modelo o3 de OpenAI, por ejemplo, podría gastar 10,000 tokens de pensamiento en un problema difícil de matemáticas, intentando un enfoque, reconociendo un fallo, cambiando de estrategia, y finalmente convergiendo en una prueba correcta. Este cómputo extra en tiempo de inferencia (frecuentemente llamado "cómputo en tiempo de prueba" o "tiempo de pensamiento") es la compensación clave: los modelos de razonamiento son más lentos y más costosos por consulta, pero resuelven problemas que los modelos estándar simplemente no pueden. En benchmarks como AIME (matemáticas de competencia), GPQA (ciencia a nivel de doctorado) y SWE-bench (ingeniería de software del mundo real), los modelos de razonamiento superan a sus contrapartes sin razonamiento por 30–50 puntos porcentuales.
Construir un modelo de razonamiento involucra un pipeline de entrenamiento distintivo. La base es un modelo de lenguaje pre-entrenado fuerte, pero el paso crítico es el aprendizaje por refuerzo (RL) en tareas de razonamiento. DeepSeek publicó el relato más detallado con su modelo R1: comienzan con supervised fine-tuning en ejemplos de buen razonamiento, luego aplican Group Relative Policy Optimization (GRPO) — una variante de aprendizaje por refuerzo que recompensa respuestas finales correctas sin requerir un modelo de recompensa separado. La fase de RL es donde ocurre la magia. El modelo descubre estrategias de razonamiento por sí solo: descomponer problemas en sub-problemas, verificar su trabajo, considerar casos extremos, e incluso expresar incertidumbre cuando no está seguro. Notablemente, DeepSeek encontró que su modelo desarrolló espontáneamente estos comportamientos durante el entrenamiento de RL sin que se le enseñaran explícitamente — la señal de recompensa por respuestas correctas fue suficiente para incentivar el razonamiento riguroso.
Los modelos de razonamiento no son infalibles, y sus fallos pueden ser más sutiles que los de modelos estándar. Un problema común es "pensar de más" — el modelo genera una cadena de pensamiento elaborada que parece rigurosa pero llega a una respuesta incorrecta porque siguió una ruta lógica plausible-pero-incorrecta. Otro es el costo de razonar en preguntas simples: preguntarle a un modelo de razonamiento "¿Cuál es la capital de Francia?" podría activar una deliberación innecesaria que desperdicia tokens y tiempo. Los modelos también pueden exhibir problemas de "fidelidad", donde la cadena de razonamiento visible no refleja realmente la computación interna del modelo — el modelo llega a una respuesta por coincidencia de patrones pero luego genera una traza de razonamiento que la racionaliza post hoc. Y las cadenas de razonamiento largas pueden derivar: en una cadena de pensamiento de 5,000 tokens, un error en el paso 3 puede propagarse a través de los 40 pasos restantes, produciendo una respuesta final confidentemente incorrecta que parece meticulosamente derivada.
La trayectoria de la investigación en razonamiento apunta hacia modelos que pueden asignar adaptativamente tiempo de pensamiento basándose en la dificultad del problema — gastando 50 tokens en una pregunta fácil y 50,000 en una difícil. Este razonamiento "cómputo-óptimo" ya está emergiendo: tanto OpenAI como Anthropic ofrecen modelos que escalan su pensamiento automáticamente. Más allá del razonamiento de un solo turno, la frontera es el razonamiento de agente de múltiples pasos — modelos que pueden planificar y ejecutar tareas complejas a lo largo de muchas interacciones, manteniendo una estrategia coherente mientras se adaptan a nueva información. El pensamiento extendido de Claude, o3 de OpenAI y DeepSeek-R1 todos representan sistemas de razonamiento de primera generación. La próxima generación probablemente combinará razonamiento con uso de herramientas (calculadoras, ejecución de código, búsqueda) para verificar pasos intermedios en lugar de depender solo de la computación del propio modelo, cerrando la brecha entre "IA que razona" e "IA que confiablemente obtiene la respuesta correcta".