Ajuste por Instruções: Definição e significado — Wiki de IA

Ajuste fino de um modelo de linguagem pré-treinado em um dataset de pares (instrução, resposta) para ensiná-lo a seguir instruções. Um modelo base que apenas prediz texto se torna um modelo que responde perguntas, segue direções e se comporta como um assistente. Este é o passo que transforma o GPT em ChatGPT, ou um Llama base em Llama-Chat.

Por que isso importa

O ajuste por instruções é a ponte entre um modelo de linguagem bruto (que só completa texto) e um assistente útil (que segue instruções). Sem ele, mesmo o modelo base mais capaz apenas gera texto com aparência plausível em vez de realmente fazer o que você pede. É indiscutivelmente o passo de pós-treinamento mais importante.

Em profundidade

O processo: colete milhares a milhões de pares (instrução, resposta ideal) cobrindo tarefas diversas — Q&A, sumarização, codificação, escrita criativa, matemática, conversação. Ajuste fino o modelo base nesses pares usando aprendizado supervisionado padrão (minimize a perda nos tokens de resposta dada a instrução). O modelo aprende o meta-padrão: "quando receber uma instrução, produza uma resposta útil."

SFT vs. RLHF vs. DPO

O ajuste por instruções (Supervised Fine-Tuning / SFT) é tipicamente o primeiro passo de pós-treinamento, seguido por alinhamento via RLHF ou DPO. O SFT ensina o formato e a utilidade básica ao modelo. RLHF/DPO então refina o comportamento — tornando respostas mais úteis, menos prejudiciais e melhor calibradas. Algumas abordagens (como ORPO) combinam SFT e alinhamento de preferências em uma única etapa.

Qualidade dos Dados Acima de Quantidade

Pesquisas mostram consistentemente que um conjunto pequeno de pares instrução-resposta de alta qualidade supera um conjunto grande de baixa qualidade. O artigo LIMA (Zhou et al., 2023) mostrou que o ajuste fino com apenas 1.000 exemplos cuidadosamente curados podia produzir resultados surpreendentemente bons. A chave é diversidade (cobrindo muitos tipos de tarefas) e qualidade (respostas genuinamente excelentes, não apenas adequadas). É por isso que a curação de dados de instrução se tornou uma disciplina especializada.

Ajuste por Instruções

Por que isso importa

Em profundidade

SFT vs. RLHF vs. DPO

Qualidade dos Dados Acima de Quantidade

Conceitos relacionados