La generación autoregresiva suena simple — predecir el siguiente token, repetir — pero las implicaciones son profundas. El modelo produce una distribución de probabilidad sobre todo su vocabulario en cada paso. El token que se selecciona depende de los parámetros de muestreo como la temperatura y top-p.
Durante el procesamiento de entrada, el modelo puede procesar todos los tokens de tu prompt en paralelo — esto se llama la fase de "prefill". Pero durante la generación, cada nuevo token requiere un forward pass completo a través de todo el modelo, y ese paso no puede comenzar hasta que se decide el token anterior. Este cuello de botella secuencial es la razón por la que la generación de salida es mucho más lenta que el procesamiento de entrada.
Debido a que el modelo solo puede avanzar, no puede revisar tokens anteriores basándose en insights posteriores. Por eso la técnica de cadena de pensamiento (chain-of-thought) ayuda: al pedirle al modelo que piense antes de responder, le das la oportunidad de trabajar el problema antes de comprometerse con una respuesta final.
No todos los modelos generativos son autoregresivos. Los modelos de difusión generan todo a la vez y refinan iterativamente. Alguna investigación explora la generación de texto no autoregresiva. Pero para texto, lo autoregresivo sigue siendo dominante porque el lenguaje tiene una estructura fuertemente secuencial que los modelos autoregresivos explotan de forma natural.