El overfitting ocurre cuando un modelo tiene suficiente capacidad para memorizar los patrones específicos en sus datos de entrenamiento — incluyendo ruido, valores atípicos y correlaciones incidentales — en lugar de aprender los patrones generalizables subyacentes. Mecánicamente, lo detectas rastreando dos curvas de pérdida durante el entrenamiento: la pérdida de entrenamiento y la pérdida de validación (calculada en un conjunto reservado que el modelo nunca ve durante el entrenamiento). En un entrenamiento saludable, ambas curvas bajan juntas. El overfitting se muestra como una divergencia: la pérdida de entrenamiento sigue disminuyendo mientras la pérdida de validación se estabiliza o comienza a subir. Esa brecha es el modelo gastando su capacidad en memorización en lugar de generalización.
Las defensas clásicas contra el overfitting se han refinado durante décadas y la mayoría aún aplican al entrenamiento moderno de LLMs. Dropout aleatoriamente pone en cero una fracción de las activaciones de neuronas durante el entrenamiento, forzando al modelo a construir representaciones redundantes en lugar de depender de una sola vía. Weight decay (regularización L2) penaliza valores de peso grandes, desalentando al modelo de ajustarse a patrones estrechos de alta magnitud. Early stopping significa monitorear la pérdida de validación y detener el entrenamiento cuando deja de mejorar, incluso si la pérdida de entrenamiento sigue bajando. Data augmentation — crear variaciones sintéticas de tus datos de entrenamiento — efectivamente expande el dataset sin recopilar nuevos datos. Para modelos de lenguaje, esto podría significar parafraseo, retrotraducción o estrategias de ventana de contexto que presentan el mismo texto con diferente contexto circundante.
En la era de los modelos de lenguaje grandes, el overfitting tiene algunas características no obvias. Modelos muy grandes entrenados en datasets muy grandes a menudo están en el régimen de “underfitting” para el pre-entrenamiento — podrían beneficiarse de más datos o más pasos de entrenamiento, no menos. Las leyes de escalamiento de Chinchilla formalizaron esto: para un presupuesto de cómputo dado, hay un balance óptimo entre tamaño de modelo y tokens de entrenamiento, y la mayoría de los LLMs tempranos estaban sobreentrenados con muy pocos tokens relativos a su conteo de parámetros. El overfitting durante el pre-entrenamiento a escala frontera es raro precisamente porque los datasets son tan enormes. Pero se convierte en una preocupación seria durante el fine-tuning, donde los datasets son típicamente órdenes de magnitud más pequeños. Hacer fine-tuning de un modelo de 7B en unos pocos miles de ejemplos durante más de 2-3 epochs casi siempre produce overfitting, y los síntomas son reconocibles: el modelo empieza a repetir ejemplos de entrenamiento textualmente, pierde la capacidad de manejar prompts que difieren del formato de entrenamiento, y puede incluso degradarse en tareas generales que previamente manejaba bien.
Una de las formas más insidiosas de overfitting en la IA moderna es el overfitting de benchmarks, donde los datos de entrenamiento resultan contener (o se seleccionan deliberadamente para contener) preguntas similares a las evaluaciones de benchmarks. El modelo puntúa bien en el benchmark pero no ha adquirido realmente la capacidad subyacente. Esto es diferente del overfitting clásico porque el modelo generaliza bien a datos similares a su conjunto de entrenamiento — el problema es que el benchmark está midiendo rendimiento adyacente al conjunto de entrenamiento en lugar de capacidad real. Por eso el campo se ha movido hacia conjuntos de evaluación reservados, detección de contaminación y evaluación basada en preferencia humana como Chatbot Arena, donde las preguntas de prueba no se conocen de antemano y no pueden ser manipuladas a través de la selección de datos.
Para los practicantes, el modelo mental más útil es que el overfitting no es un estado binario sino un espectro. Algún grado de memorización es inevitable e incluso deseable — quieres que el modelo sepa que París es la capital de Francia, lo cual es un hecho memorizado. El problema surge cuando la memorización desplaza a la generalización: el modelo recuerda la frase exacta del entrenamiento en lugar de entender el concepto lo suficientemente bien como para responder preguntas novedosas sobre él. Observar la brecha de pérdida entrenamiento-validación, usar métodos eficientes en parámetros como LoRA (que limitan la capacidad del modelo para hacer overfitting) y probar con ejemplos genuinamente fuera de distribución son las mejores defensas prácticas.