Zubnet AIAprenderWiki › Cómputo en tiempo de inferencia
Fundamentos

Cómputo en tiempo de inferencia

También conocido como: Cómputo en inferencia, Cadena de pensamiento, Tokens de razonamiento
Usar cómputo adicional durante la inferencia (cuando el modelo está generando una respuesta) para mejorar la calidad de la respuesta. En lugar de generar una respuesta inmediatamente, el modelo "piensa" más tiempo — generando tokens de razonamiento, explorando múltiples enfoques o verificando su propia salida. Más cómputo en el momento de la inferencia produce mejores respuestas, especialmente para tareas de razonamiento complejo.

Por qué importa

El cómputo en tiempo de inferencia es el último paradigma de escalado. La primera era escaló el cómputo de entrenamiento (modelos más grandes, más datos). La era actual también escala el cómputo de inferencia (más razonamiento por pregunta). Modelos como o1 y Claude con pensamiento extendido muestran que dejar que un modelo razone 30 segundos a menudo supera a un modelo que responde en 2 segundos, incluso si el modelo rápido es técnicamente más grande. Esto cambia la economía: la calidad se convierte en una función de cuánto estás dispuesto a gastar por consulta.

En profundidad

La forma más simple de cómputo en tiempo de inferencia es la cadena de pensamiento: el modelo genera pasos de razonamiento antes de la respuesta final. Los enfoques más sofisticados incluyen: árbol de pensamiento (explorar múltiples caminos de razonamiento y seleccionar el mejor), autoconsistencia (generar múltiples respuestas y votar) y refinamiento iterativo (el modelo critica y revisa su propia salida). Cada enfoque usa más tokens (= más cómputo = más costo) pero produce mejores resultados.

Pensamiento extendido

Los modelos como o1 (OpenAI) y Claude con pensamiento extendido generan tokens de razonamiento internos que el usuario no ve. Estos "tokens de pensamiento" permiten que el modelo descomponga problemas complejos, revise su trabajo, considere casos límite y revise su enfoque — todo antes de producir la respuesta visible. El costo es mayor (pagas por los tokens de pensamiento) y la latencia es más larga, pero la precisión en tareas de matemáticas, código y razonamiento mejora drásticamente.

Leyes de escala para la inferencia

La investigación sugiere que el cómputo en tiempo de inferencia sigue sus propias leyes de escala: duplicar el cómputo de inferencia (tiempo de pensamiento) produce mejoras predecibles en la precisión, análogo a cómo duplicar el cómputo de entrenamiento mejora la pérdida de preentrenamiento. Esto significa que puedes elegir tu compensación calidad-costo por consulta: las preguntas simples obtienen respuestas rápidas y baratas; las preguntas complejas obtienen razonamiento más largo y más costoso. Esta asignación dinámica es más eficiente que usar el mismo cómputo para cada consulta.

Conceptos relacionados

ESC