Parada Antecipada: Definição e significado — Wiki de IA

Interromper o treinamento quando o desempenho em um conjunto de validação retido para de melhorar, em vez de treinar por um número fixo de passos. Conforme o treinamento continua, a loss de treinamento segue diminuindo mas a loss de validação eventualmente começa a aumentar — o modelo está sobreajustando aos dados de treinamento. A parada antecipada detecta esse ponto de inflexão e salva o melhor modelo antes que a qualidade se degrade.

Por que isso importa

Parada antecipada é a técnica de regularização mais simples e eficaz para fine-tuning. Sem ela, você arrisca treinar demais e destruir as capacidades que queria preservar. Com ela, o modelo para automaticamente em seu melhor ponto. O parâmetro "patience" (quantas avaliações sem melhoria antes de parar) é um dos hiperparâmetros mais importantes no fine-tuning.

Em profundidade

O processo: (1) divida seus dados em conjuntos de treinamento e validação, (2) avalie no conjunto de validação periodicamente durante o treinamento, (3) acompanhe a melhor métrica de validação (loss, acurácia, F1), (4) se a métrica não melhorou por N avaliações (patience), pare o treinamento e reverta para o checkpoint com a melhor pontuação de validação. Isso previne o modelo de memorizar dados de treinamento além do ponto onde ajuda a generalização.

No Fine-Tuning de LLMs

Para fine-tuning de LLMs, parada antecipada é especialmente importante porque o esquecimento catastrófico pode destruir capacidades do modelo base. Um modelo ajustado por tempo demais em dados de suporte ao cliente pode ficar ótimo em suporte mas perder sua capacidade de fazer matemática ou escrever código. Monitorar a loss de validação em múltiplos tipos de tarefa (não apenas a tarefa de fine-tuning) ajuda a detectar isso. Execuções típicas de fine-tuning são de 1–5 épocas com patience de 2–3 avaliações.

Não Usado em Pré-Treinamento

Curiosamente, o pré-treinamento de LLMs raramente usa parada antecipada. As execuções de treinamento são tão caras e os datasets tão grandes que os modelos tipicamente treinam por um número predeterminado de tokens (baseado em leis de escalonamento). Sobreajuste é raro durante o pré-treinamento porque o modelo geralmente nunca vê os mesmos dados duas vezes. Parada antecipada é principalmente uma técnica de fine-tuning e ML clássico.