O processo: (1) divida seus dados em conjuntos de treinamento e validação, (2) avalie no conjunto de validação periodicamente durante o treinamento, (3) acompanhe a melhor métrica de validação (loss, acurácia, F1), (4) se a métrica não melhorou por N avaliações (patience), pare o treinamento e reverta para o checkpoint com a melhor pontuação de validação. Isso previne o modelo de memorizar dados de treinamento além do ponto onde ajuda a generalização.
Para fine-tuning de LLMs, parada antecipada é especialmente importante porque o esquecimento catastrófico pode destruir capacidades do modelo base. Um modelo ajustado por tempo demais em dados de suporte ao cliente pode ficar ótimo em suporte mas perder sua capacidade de fazer matemática ou escrever código. Monitorar a loss de validação em múltiplos tipos de tarefa (não apenas a tarefa de fine-tuning) ajuda a detectar isso. Execuções típicas de fine-tuning são de 1–5 épocas com patience de 2–3 avaliações.
Curiosamente, o pré-treinamento de LLMs raramente usa parada antecipada. As execuções de treinamento são tão caras e os datasets tão grandes que os modelos tipicamente treinam por um número predeterminado de tokens (baseado em leis de escalonamento). Sobreajuste é raro durante o pré-treinamento porque o modelo geralmente nunca vê os mesmos dados duas vezes. Parada antecipada é principalmente uma técnica de fine-tuning e ML clássico.