Token : Définition et signification — Wiki IA

La capacité d'un modèle à exécuter précisément ce que l'utilisateur demande — respecter les contraintes de format, les exigences de longueur, les spécifications de style et les instructions comportementales. « Écris exactement 3 points en français sur X » teste le suivi d'instructions : la réponse doit être en points (pas en paragraphes), exactement 3 (pas 2 ou 5), en français (pas en anglais), et sur X (pas sur Y).

Pourquoi c'est important

Le suivi d'instructions est la capacité LLM la plus pratiquement importante. Les utilisateurs se soucient moins de savoir si un modèle « connaît » plus de faits et plus de savoir s'il fait ce qu'on lui a réellement demandé. Un modèle qui écrit de la belle prose mais ignore tes exigences de format est moins utile qu'un autre qui suit les instructions de manière fiable. C'est pourquoi IFEval et d'autres benchmarks de suivi d'instructions sont devenus centraux pour l'évaluation des modèles.

En profondeur

Le suivi d'instructions s'entraîne par l'ajustement par instructions (SFT sur des paires instruction-réponse) et s'affine par RLHF/DPO (apprendre à préférer les réponses qui suivent précisément les instructions). La qualité du suivi d'instructions dépend fortement de la diversité et de la précision des données d'entraînement : les modèles qui voient de nombreux exemples de « exactement 3 éléments » apprennent à compter ; les modèles qui ne voient que des instructions vagues ne le font pas.

Où les modèles échouent

Les échecs courants de suivi d'instructions : ignorer les contraintes de longueur (« sois bref » → écrit quand même des paragraphes), la dérive de format (commencer avec le format demandé puis revenir à la prose), l'amnésie de contraintes (suivre la première contrainte mais oublier les suivantes dans une instruction complexe) et le sur-suivi (interpréter les instructions ambiguës trop littéralement ou trop largement). Ces échecs sont plus courants dans les petits modèles et deviennent plus rares avec l'échelle, mais même les modèles de pointe manquent parfois des contraintes.

Prompts système et hiérarchie

Le suivi d'instructions devient complexe quand les instructions sont en conflit : le prompt système dit « réponds toujours en JSON » mais l'utilisateur dit « écris-moi un poème ». La plupart des modèles implémentent une hiérarchie d'instructions où les instructions de niveau système priment sur les messages utilisateur, mais les frontières sont floues. Les applications bien conçues structurent clairement leur hiérarchie d'instructions et testent les cas limites où différents niveaux d'instructions pourraient entrer en conflit.

Suivi d'instructions

Pourquoi c'est important

En profondeur

Où les modèles échouent

Prompts système et hiérarchie

Concepts connexes