Parada Temprana: Definición y significado — Wiki de IA

Detener el entrenamiento cuando el rendimiento en un conjunto de validación reservado deja de mejorar, en lugar de entrenar por un número fijo de pasos. A medida que el entrenamiento continúa, la pérdida de entrenamiento sigue disminuyendo pero la pérdida de validación eventualmente comienza a aumentar — el modelo está sobreajustando a los datos de entrenamiento. La parada temprana captura este punto de inflexión y guarda el mejor modelo antes de que la calidad se degrade.

Por qué importa

La parada temprana es la técnica de regularización más simple y efectiva para el ajuste fino. Sin ella, corres el riesgo de entrenar demasiado tiempo y destruir las capacidades que querías preservar. Con ella, el modelo se detiene automáticamente en su mejor punto. El parámetro "patience" (cuántas evaluaciones sin mejora antes de detenerse) es uno de los hiperparámetros más importantes en el ajuste fino.

En profundidad

El proceso: (1) divide tus datos en conjuntos de entrenamiento y validación, (2) evalúa en el conjunto de validación periódicamente durante el entrenamiento, (3) rastrea la mejor métrica de validación (pérdida, precisión, F1), (4) si la métrica no ha mejorado durante N evaluaciones (patience), detén el entrenamiento y revierte al checkpoint con la mejor puntuación de validación. Esto previene que el modelo memorice datos de entrenamiento más allá del punto donde ayuda a la generalización.

En el ajuste fino de LLMs

Para el ajuste fino de LLMs, la parada temprana es especialmente importante porque el olvido catastrófico puede destruir las capacidades del modelo base. Un modelo ajustado durante demasiado tiempo en datos de soporte al cliente podría volverse excelente en soporte pero perder su capacidad de hacer matemáticas o escribir código. Monitorear la pérdida de validación en múltiples tipos de tareas (no solo la tarea de ajuste fino) ayuda a detectar esto. Las ejecuciones de ajuste fino típicas son de 1–5 épocas con patience de 2–3 evaluaciones.

No se usa en pre-entrenamiento

Curiosamente, el pre-entrenamiento de LLMs raramente usa parada temprana. Las ejecuciones de entrenamiento son tan costosas y los datasets tan grandes que los modelos típicamente entrenan por un número predeterminado de tokens (basado en leyes de escalado). El sobreajuste es raro durante el pre-entrenamiento porque el modelo usualmente nunca ve los mismos datos dos veces. La parada temprana es principalmente una técnica de ajuste fino y ML clásico.