Le processus : collecter des milliers à des millions de paires (instruction, réponse idéale) couvrant des tâches diversifiées — questions-réponses, résumé, codage, écriture créative, mathématiques, conversation. Ajuster le modèle de base sur ces paires en utilisant l'apprentissage supervisé standard (minimiser la perte sur les tokens de réponse étant donné l'instruction). Le modèle apprend le méta-pattern : « quand on me donne une instruction, produire une réponse utile ».
L'ajustement par instructions (Supervised Fine-Tuning / SFT) est typiquement la première étape post-entraînement, suivie de l'alignement via RLHF ou DPO. Le SFT enseigne au modèle le format et l'utilité de base. RLHF/DPO affine ensuite le comportement — rendant les réponses plus utiles, moins nocives et mieux calibrées. Certaines approches (comme ORPO) combinent SFT et alignement par préférences en une seule étape.
La recherche montre systématiquement qu'un petit ensemble de paires instruction-réponse de haute qualité surpasse un grand ensemble de basse qualité. L'article LIMA (Zhou et al., 2023) a montré que l'ajustement fin avec seulement 1 000 exemples soigneusement sélectionnés pouvait produire des résultats étonnamment bons. La clé est la diversité (couvrir de nombreux types de tâches) et la qualité (des réponses réellement excellentes, pas simplement adéquates). C'est pourquoi la curation des données d'instruction est devenue une discipline spécialisée.