Zubnet AIAprenderWiki › Ajuste por Instruções
Treinamento

Ajuste por Instruções

Também conhecido como: Fine-Tuning por Instruções, IFT, SFT
Ajuste fino de um modelo de linguagem pré-treinado em um dataset de pares (instrução, resposta) para ensiná-lo a seguir instruções. Um modelo base que apenas prediz texto se torna um modelo que responde perguntas, segue direções e se comporta como um assistente. Este é o passo que transforma o GPT em ChatGPT, ou um Llama base em Llama-Chat.

Por que isso importa

O ajuste por instruções é a ponte entre um modelo de linguagem bruto (que só completa texto) e um assistente útil (que segue instruções). Sem ele, mesmo o modelo base mais capaz apenas gera texto com aparência plausível em vez de realmente fazer o que você pede. É indiscutivelmente o passo de pós-treinamento mais importante.

Em profundidade

O processo: colete milhares a milhões de pares (instrução, resposta ideal) cobrindo tarefas diversas — Q&A, sumarização, codificação, escrita criativa, matemática, conversação. Ajuste fino o modelo base nesses pares usando aprendizado supervisionado padrão (minimize a perda nos tokens de resposta dada a instrução). O modelo aprende o meta-padrão: "quando receber uma instrução, produza uma resposta útil."

SFT vs. RLHF vs. DPO

O ajuste por instruções (Supervised Fine-Tuning / SFT) é tipicamente o primeiro passo de pós-treinamento, seguido por alinhamento via RLHF ou DPO. O SFT ensina o formato e a utilidade básica ao modelo. RLHF/DPO então refina o comportamento — tornando respostas mais úteis, menos prejudiciais e melhor calibradas. Algumas abordagens (como ORPO) combinam SFT e alinhamento de preferências em uma única etapa.

Qualidade dos Dados Acima de Quantidade

Pesquisas mostram consistentemente que um conjunto pequeno de pares instrução-resposta de alta qualidade supera um conjunto grande de baixa qualidade. O artigo LIMA (Zhou et al., 2023) mostrou que o ajuste fino com apenas 1.000 exemplos cuidadosamente curados podia produzir resultados surpreendentemente bons. A chave é diversidade (cobrindo muitos tipos de tarefas) e qualidade (respostas genuinamente excelentes, não apenas adequadas). É por isso que a curação de dados de instrução se tornou uma disciplina especializada.

Conceitos relacionados

← Todos os termos
← Ajuste fino AlexNet →