El proceso: (1) divide tus datos en conjuntos de entrenamiento y validación, (2) evalúa en el conjunto de validación periódicamente durante el entrenamiento, (3) rastrea la mejor métrica de validación (pérdida, precisión, F1), (4) si la métrica no ha mejorado durante N evaluaciones (patience), detén el entrenamiento y revierte al checkpoint con la mejor puntuación de validación. Esto previene que el modelo memorice datos de entrenamiento más allá del punto donde ayuda a la generalización.
Para el ajuste fino de LLMs, la parada temprana es especialmente importante porque el olvido catastrófico puede destruir las capacidades del modelo base. Un modelo ajustado durante demasiado tiempo en datos de soporte al cliente podría volverse excelente en soporte pero perder su capacidad de hacer matemáticas o escribir código. Monitorear la pérdida de validación en múltiples tipos de tareas (no solo la tarea de ajuste fino) ayuda a detectar esto. Las ejecuciones de ajuste fino típicas son de 1–5 épocas con patience de 2–3 evaluaciones.
Curiosamente, el pre-entrenamiento de LLMs raramente usa parada temprana. Las ejecuciones de entrenamiento son tan costosas y los datasets tan grandes que los modelos típicamente entrenan por un número predeterminado de tokens (basado en leyes de escalado). El sobreajuste es raro durante el pre-entrenamiento porque el modelo usualmente nunca ve los mismos datos dos veces. La parada temprana es principalmente una técnica de ajuste fino y ML clásico.