Validación Cruzada: Definición y significado — Wiki de IA

Una técnica para evaluar el rendimiento del modelo cuando no tienes suficientes datos para un conjunto de prueba separado. La validación cruzada K-fold divide los datos en K partes iguales, entrena con K−1 partes y evalúa con la parte restante, rotando K veces para que cada punto de datos se use tanto para entrenamiento como para evaluación. La puntuación promedio de todos los K folds da una estimación de rendimiento más confiable que una sola división entrenamiento/prueba.

Por qué importa

La validación cruzada es esencial cuando los datos son escasos — si solo tienes 500 ejemplos, reservar 100 para pruebas significa entrenar con 20% menos datos. La validación cruzada usa todos los datos tanto para entrenamiento como para evaluación. También te da un intervalo de confianza (varianza entre folds) en lugar de un solo número, diciéndote qué tan estable es el rendimiento de tu modelo.

En profundidad

CV de 5-fold: divide los datos en 5 partes. Entrena con las partes 1-4, evalúa con la parte 5. Luego entrena con las partes 1-3+5, evalúa con la parte 4. Repite para los 5 folds. Promedia las 5 puntuaciones de evaluación. El resultado es más confiable que una sola división 80/20 porque es robusto a la división particular — un conjunto de prueba "afortunado" o "desafortunado" no puede sesgar el resultado. La desviación estándar entre folds indica confiabilidad.

K-Fold estratificado

Para clasificación con clases desbalanceadas (enfermedad rara: 5% positivo, 95% negativo), la división aleatoria podría poner todos los positivos en un fold. K-fold estratificado asegura que cada fold tenga la misma distribución de clases que el dataset completo. Esto previene folds sin ejemplos positivos (inútiles para evaluación) y da estimaciones de rendimiento más confiables para clases minoritarias. Siempre usa K-fold estratificado para clasificación.

Cuándo no usarla

La validación cruzada es computacionalmente costosa (K veces el costo de entrenamiento) y rara vez se usa para modelos grandes. Hacer fine-tuning de un modelo de 7B cinco veces para CV de 5-fold es impráctico. Para LLMs, un solo conjunto de validación retenido es estándar porque: los datasets son lo suficientemente grandes para evaluación confiable con una sola división, el entrenamiento es costoso, y las representaciones preentrenadas del modelo lo hacen menos sensible a la división específica de entrenamiento. La validación cruzada es más valiosa para datasets pequeños con modelos clásicos de ML.