Autorégressif : Définition et signification — Wiki IA

Un modèle qui génère sa sortie un token à la fois, où chaque nouveau token est prédit en fonction de tous les tokens précédents. Chaque LLM moderne — Claude, GPT, Llama, Gemini — est autorégressif. Le modèle ne « planifie » pas une réponse complète avant de l'écrire ; il prédit littéralement le mot suivant, l'ajoute, puis prédit le suivant, encore et encore jusqu'à ce qu'il décide de s'arrêter.

Pourquoi c'est important

Comprendre la génération autorégressive explique la plupart des comportements des LLM : pourquoi les réponses arrivent token par token, pourquoi les modèles se contredisent parfois en plein paragraphe, pourquoi les sorties plus longues sont plus lentes et plus chères, et pourquoi tu ne peux pas facilement demander à un modèle de « revenir corriger le début ». Le modèle avance toujours, un token à la fois.

En profondeur

La génération autorégressive semble simple — prédire le prochain token, répéter — mais les implications sont profondes. Le modèle produit une distribution de probabilité sur l'ensemble de son vocabulaire à chaque étape. Le token sélectionné dépend des paramètres d'échantillonnage comme la température et le top-p.

Pourquoi c'est lent

Pendant le traitement de l'entrée, le modèle peut traiter tous les tokens de ton prompt en parallèle — c'est la phase de « prefill ». Mais pendant la génération, chaque nouveau token nécessite un passage complet à travers le modèle entier, et ce passage ne peut pas commencer tant que le token précédent n'est pas décidé. Ce goulot d'étranglement séquentiel est la raison pour laquelle la génération de sortie est beaucoup plus lente que le traitement de l'entrée.

Les conséquences du sens unique

Comme le modèle ne peut qu'avancer, il ne peut pas réviser les tokens antérieurs en fonction d'insights ultérieurs. C'est pourquoi le prompting chain-of-thought aide : en demandant au modèle de réfléchir avant de répondre, tu lui donnes la chance de travailler le problème avant de s'engager sur une réponse finale.

Les alternatives existent

Tous les modèles génératifs ne sont pas autorégressifs. Les modèles de diffusion génèrent tout en même temps et affinent itérativement. Certaines recherches explorent la génération de texte non autorégressive. Mais pour le texte, l'autorégressif reste dominant parce que le langage a une structure séquentielle forte que les modèles autorégressifs exploitent naturellement.

Autorégressif

Pourquoi c'est important

En profondeur

Pourquoi c'est lent

Les conséquences du sens unique

Les alternatives existent

Concepts connexes