Instruction Tuning: Definición y significado — Wiki de IA

Ajustar un modelo de lenguaje preentrenado con un dataset de pares (instrucción, respuesta) para enseñarle a seguir instrucciones. Un modelo base que solo predice texto se convierte en un modelo que responde preguntas, sigue indicaciones y se comporta como un asistente. Este es el paso que convierte GPT en ChatGPT, o un Llama base en Llama-Chat.

Por qué importa

El instruction tuning es el puente entre un modelo de lenguaje crudo (que solo puede completar texto) y un asistente útil (que puede seguir instrucciones). Sin él, incluso el modelo base más capaz simplemente genera texto que suena plausible en lugar de hacer realmente lo que le pides. Es posiblemente el paso de post-entrenamiento más importante.

En profundidad

El proceso: recopilar miles a millones de pares (instrucción, respuesta ideal) que cubran tareas diversas — preguntas y respuestas, resumen, codificación, escritura creativa, matemáticas, conversación. Ajustar el modelo base con estos pares usando aprendizaje supervisado estándar (minimizar la pérdida en los tokens de respuesta dada la instrucción). El modelo aprende el metapatrón: "cuando te dan una instrucción, produce una respuesta útil".

SFT vs. RLHF vs. DPO

El instruction tuning (Supervised Fine-Tuning / SFT) es típicamente el primer paso de post-entrenamiento, seguido por la alineación vía RLHF o DPO. SFT enseña al modelo el formato y la utilidad básica. RLHF/DPO luego refina el comportamiento — haciendo las respuestas más útiles, menos dañinas y mejor calibradas. Algunos enfoques (como ORPO) combinan SFT y alineación de preferencias en un solo paso.

Calidad de Datos sobre Cantidad

La investigación muestra consistentemente que un conjunto pequeño de pares instrucción-respuesta de alta calidad supera a un conjunto grande de baja calidad. El paper LIMA (Zhou et al., 2023) mostró que el ajuste fino con solo 1,000 ejemplos cuidadosamente curados podía producir resultados sorprendentemente buenos. La clave es la diversidad (cubrir muchos tipos de tareas) y la calidad (respuestas que son genuinamente excelentes, no solo adecuadas). Por eso la curación de datos de instrucción se ha convertido en una disciplina especializada.

Instruction Tuning

Por qué importa

En profundidad

SFT vs. RLHF vs. DPO

Calidad de Datos sobre Cantidad

Conceptos relacionados