La forma más simple de cómputo en tiempo de inferencia es la cadena de pensamiento: el modelo genera pasos de razonamiento antes de la respuesta final. Los enfoques más sofisticados incluyen: árbol de pensamiento (explorar múltiples caminos de razonamiento y seleccionar el mejor), autoconsistencia (generar múltiples respuestas y votar) y refinamiento iterativo (el modelo critica y revisa su propia salida). Cada enfoque usa más tokens (= más cómputo = más costo) pero produce mejores resultados.
Los modelos como o1 (OpenAI) y Claude con pensamiento extendido generan tokens de razonamiento internos que el usuario no ve. Estos "tokens de pensamiento" permiten que el modelo descomponga problemas complejos, revise su trabajo, considere casos límite y revise su enfoque — todo antes de producir la respuesta visible. El costo es mayor (pagas por los tokens de pensamiento) y la latencia es más larga, pero la precisión en tareas de matemáticas, código y razonamiento mejora drásticamente.
La investigación sugiere que el cómputo en tiempo de inferencia sigue sus propias leyes de escala: duplicar el cómputo de inferencia (tiempo de pensamiento) produce mejoras predecibles en la precisión, análogo a cómo duplicar el cómputo de entrenamiento mejora la pérdida de preentrenamiento. Esto significa que puedes elegir tu compensación calidad-costo por consulta: las preguntas simples obtienen respuestas rápidas y baratas; las preguntas complejas obtienen razonamiento más largo y más costoso. Esta asignación dinámica es más eficiente que usar el mismo cómputo para cada consulta.