La génération autorégressive semble simple — prédire le prochain token, répéter — mais les implications sont profondes. Le modèle produit une distribution de probabilité sur l'ensemble de son vocabulaire à chaque étape. Le token sélectionné dépend des paramètres d'échantillonnage comme la température et le top-p.
Pendant le traitement de l'entrée, le modèle peut traiter tous les tokens de ton prompt en parallèle — c'est la phase de « prefill ». Mais pendant la génération, chaque nouveau token nécessite un passage complet à travers le modèle entier, et ce passage ne peut pas commencer tant que le token précédent n'est pas décidé. Ce goulot d'étranglement séquentiel est la raison pour laquelle la génération de sortie est beaucoup plus lente que le traitement de l'entrée.
Comme le modèle ne peut qu'avancer, il ne peut pas réviser les tokens antérieurs en fonction d'insights ultérieurs. C'est pourquoi le prompting chain-of-thought aide : en demandant au modèle de réfléchir avant de répondre, tu lui donnes la chance de travailler le problème avant de s'engager sur une réponse finale.
Tous les modèles génératifs ne sont pas autorégressifs. Les modèles de diffusion génèrent tout en même temps et affinent itérativement. Certaines recherches explorent la génération de texte non autorégressive. Mais pour le texte, l'autorégressif reste dominant parce que le langage a une structure séquentielle forte que les modèles autorégressifs exploitent naturellement.