CV de 5-fold: divide los datos en 5 partes. Entrena con las partes 1-4, evalúa con la parte 5. Luego entrena con las partes 1-3+5, evalúa con la parte 4. Repite para los 5 folds. Promedia las 5 puntuaciones de evaluación. El resultado es más confiable que una sola división 80/20 porque es robusto a la división particular — un conjunto de prueba "afortunado" o "desafortunado" no puede sesgar el resultado. La desviación estándar entre folds indica confiabilidad.
Para clasificación con clases desbalanceadas (enfermedad rara: 5% positivo, 95% negativo), la división aleatoria podría poner todos los positivos en un fold. K-fold estratificado asegura que cada fold tenga la misma distribución de clases que el dataset completo. Esto previene folds sin ejemplos positivos (inútiles para evaluación) y da estimaciones de rendimiento más confiables para clases minoritarias. Siempre usa K-fold estratificado para clasificación.
La validación cruzada es computacionalmente costosa (K veces el costo de entrenamiento) y rara vez se usa para modelos grandes. Hacer fine-tuning de un modelo de 7B cinco veces para CV de 5-fold es impráctico. Para LLMs, un solo conjunto de validación retenido es estándar porque: los datasets son lo suficientemente grandes para evaluación confiable con una sola división, el entrenamiento es costoso, y las representaciones preentrenadas del modelo lo hacen menos sensible a la división específica de entrenamiento. La validación cruzada es más valiosa para datasets pequeños con modelos clásicos de ML.