O processo: colete milhares a milhões de pares (instrução, resposta ideal) cobrindo tarefas diversas — Q&A, sumarização, codificação, escrita criativa, matemática, conversação. Ajuste fino o modelo base nesses pares usando aprendizado supervisionado padrão (minimize a perda nos tokens de resposta dada a instrução). O modelo aprende o meta-padrão: "quando receber uma instrução, produza uma resposta útil."
O ajuste por instruções (Supervised Fine-Tuning / SFT) é tipicamente o primeiro passo de pós-treinamento, seguido por alinhamento via RLHF ou DPO. O SFT ensina o formato e a utilidade básica ao modelo. RLHF/DPO então refina o comportamento — tornando respostas mais úteis, menos prejudiciais e melhor calibradas. Algumas abordagens (como ORPO) combinam SFT e alinhamento de preferências em uma única etapa.
Pesquisas mostram consistentemente que um conjunto pequeno de pares instrução-resposta de alta qualidade supera um conjunto grande de baixa qualidade. O artigo LIMA (Zhou et al., 2023) mostrou que o ajuste fino com apenas 1.000 exemplos cuidadosamente curados podia produzir resultados surpreendentemente bons. A chave é diversidade (cobrindo muitos tipos de tarefas) e qualidade (respostas genuinamente excelentes, não apenas adequadas). É por isso que a curação de dados de instrução se tornou uma disciplina especializada.