Token : Définition et signification — Wiki IA

L'ajustement fin d'un modèle de langage pré-entraîné sur un jeu de données de paires (instruction, réponse) pour lui apprendre à suivre des instructions. Un modèle de base qui ne fait que prédire du texte devient un modèle qui répond à des questions, suit des directives et se comporte comme un assistant. C'est l'étape qui transforme GPT en ChatGPT, ou un Llama de base en Llama-Chat.

Pourquoi c'est important

L'ajustement par instructions est le pont entre un modèle de langage brut (qui ne sait que compléter du texte) et un assistant utile (qui sait suivre des instructions). Sans cette étape, même le modèle de base le plus puissant ne fait que générer du texte plausible au lieu de faire ce qu'on lui demande. C'est sans doute l'étape post-entraînement la plus importante.

En profondeur

Le processus : collecter des milliers à des millions de paires (instruction, réponse idéale) couvrant des tâches diversifiées — questions-réponses, résumé, codage, écriture créative, mathématiques, conversation. Ajuster le modèle de base sur ces paires en utilisant l'apprentissage supervisé standard (minimiser la perte sur les tokens de réponse étant donné l'instruction). Le modèle apprend le méta-pattern : « quand on me donne une instruction, produire une réponse utile ».

SFT vs. RLHF vs. DPO

L'ajustement par instructions (Supervised Fine-Tuning / SFT) est typiquement la première étape post-entraînement, suivie de l'alignement via RLHF ou DPO. Le SFT enseigne au modèle le format et l'utilité de base. RLHF/DPO affine ensuite le comportement — rendant les réponses plus utiles, moins nocives et mieux calibrées. Certaines approches (comme ORPO) combinent SFT et alignement par préférences en une seule étape.

La qualité des données prime sur la quantité

La recherche montre systématiquement qu'un petit ensemble de paires instruction-réponse de haute qualité surpasse un grand ensemble de basse qualité. L'article LIMA (Zhou et al., 2023) a montré que l'ajustement fin avec seulement 1 000 exemples soigneusement sélectionnés pouvait produire des résultats étonnamment bons. La clé est la diversité (couvrir de nombreux types de tâches) et la qualité (des réponses réellement excellentes, pas simplement adéquates). C'est pourquoi la curation des données d'instruction est devenue une discipline spécialisée.

Ajustement par instructions

Pourquoi c'est important

En profondeur

SFT vs. RLHF vs. DPO

La qualité des données prime sur la quantité

Concepts connexes