Autoregresivo: Definición y significado — Wiki de IA

Un modelo que genera salida un token a la vez, donde cada nuevo token se predice basándose en todos los tokens anteriores. Todo LLM moderno — Claude, GPT, Llama, Gemini — es autoregresivo. El modelo no “planifica” una respuesta completa para luego escribirla; literalmente predice la siguiente palabra, la añade, luego predice la siguiente, una y otra vez hasta que decide parar.

Por qué importa

Entender la generación autoregresiva explica la mayoría de los comportamientos de los LLMs: por qué las respuestas se transmiten token por token, por qué los modelos a veces se contradicen a mitad de párrafo, por qué las salidas más largas son más lentas y más caras, y por qué no puedes pedirle fácilmente a un modelo que “vuelva y arregle el principio.” El modelo siempre avanza, un token a la vez.

En profundidad

La generación autoregresiva suena simple — predecir el siguiente token, repetir — pero las implicaciones son profundas. El modelo produce una distribución de probabilidad sobre todo su vocabulario en cada paso. El token que se selecciona depende de los parámetros de muestreo como la temperatura y top-p.

Por qué es lento

Durante el procesamiento de entrada, el modelo puede procesar todos los tokens de tu prompt en paralelo — esto se llama la fase de "prefill". Pero durante la generación, cada nuevo token requiere un forward pass completo a través de todo el modelo, y ese paso no puede comenzar hasta que se decide el token anterior. Este cuello de botella secuencial es la razón por la que la generación de salida es mucho más lenta que el procesamiento de entrada.

Las consecuencias de avanzar solo hacia adelante

Debido a que el modelo solo puede avanzar, no puede revisar tokens anteriores basándose en insights posteriores. Por eso la técnica de cadena de pensamiento (chain-of-thought) ayuda: al pedirle al modelo que piense antes de responder, le das la oportunidad de trabajar el problema antes de comprometerse con una respuesta final.

Existen alternativas

No todos los modelos generativos son autoregresivos. Los modelos de difusión generan todo a la vez y refinan iterativamente. Alguna investigación explora la generación de texto no autoregresiva. Pero para texto, lo autoregresivo sigue siendo dominante porque el lenguaje tiene una estructura fuertemente secuencial que los modelos autoregresivos explotan de forma natural.

Autoregresivo

Por qué importa

En profundidad

Por qué es lento

Las consecuencias de avanzar solo hacia adelante

Existen alternativas

Conceptos relacionados