El proceso: recopilar miles a millones de pares (instrucción, respuesta ideal) que cubran tareas diversas — preguntas y respuestas, resumen, codificación, escritura creativa, matemáticas, conversación. Ajustar el modelo base con estos pares usando aprendizaje supervisado estándar (minimizar la pérdida en los tokens de respuesta dada la instrucción). El modelo aprende el metapatrón: "cuando te dan una instrucción, produce una respuesta útil".
El instruction tuning (Supervised Fine-Tuning / SFT) es típicamente el primer paso de post-entrenamiento, seguido por la alineación vía RLHF o DPO. SFT enseña al modelo el formato y la utilidad básica. RLHF/DPO luego refina el comportamiento — haciendo las respuestas más útiles, menos dañinas y mejor calibradas. Algunos enfoques (como ORPO) combinan SFT y alineación de preferencias en un solo paso.
La investigación muestra consistentemente que un conjunto pequeño de pares instrucción-respuesta de alta calidad supera a un conjunto grande de baja calidad. El paper LIMA (Zhou et al., 2023) mostró que el ajuste fino con solo 1,000 ejemplos cuidadosamente curados podía producir resultados sorprendentemente buenos. La clave es la diversidad (cubrir muchos tipos de tareas) y la calidad (respuestas que son genuinamente excelentes, no solo adecuadas). Por eso la curación de datos de instrucción se ha convertido en una disciplina especializada.