A geração autorregressiva parece simples — prever o próximo token, repetir — mas as implicações são profundas. O modelo produz uma distribuição de probabilidade sobre todo o seu vocabulário a cada passo. O token selecionado depende de parâmetros de amostragem como temperatura e top-p.
Durante o processamento da entrada, o modelo pode processar todos os tokens do seu prompt em paralelo — essa é a fase de “prefill”. Mas durante a geração, cada novo token requer uma passagem forward completa por todo o modelo, e essa passagem não pode começar até que o token anterior seja decidido. Esse gargalo sequencial é o motivo pelo qual a geração de saída é muito mais lenta que o processamento de entrada.
Como o modelo só pode avançar, ele não pode revisar tokens anteriores com base em insights posteriores. É por isso que o prompting de cadeia de pensamento ajuda: ao pedir ao modelo para pensar antes de responder, você dá a ele uma chance de trabalhar o problema antes de se comprometer com uma resposta final.
Nem todos os modelos generativos são autorregressivos. Modelos de difusão geram tudo de uma vez e refinam iterativamente. Algumas pesquisas exploram a geração de texto não autorregressiva. Mas para texto, o autorregressivo permanece dominante porque a linguagem tem uma estrutura sequencial forte que modelos autorregressivos exploram naturalmente.