CV 5-fold : divise les données en 5 parties. Entraîne sur les parties 1-4, évalue sur la partie 5. Puis entraîne sur les parties 1-3+5, évalue sur la partie 4. Répète pour les 5 folds. Fais la moyenne des 5 scores d'évaluation. Le résultat est plus fiable qu'un seul découpage 80/20 parce qu'il est robuste au découpage particulier — un jeu de test « chanceux » ou « malchanceux » ne peut pas biaiser le résultat. L'écart-type entre les folds indique la fiabilité.
Pour la classification avec des classes déséquilibrées (maladie rare : 5 % positifs, 95 % négatifs), un découpage aléatoire pourrait mettre tous les positifs dans un seul fold. Le K-fold stratifié s'assure que chaque fold a la même distribution de classes que le jeu de données complet. Ça évite les folds sans exemples positifs (inutiles pour l'évaluation) et donne des estimations de performance plus fiables pour les classes minoritaires. Utilise toujours le K-fold stratifié pour la classification.
La validation croisée est coûteuse en calcul (K fois le coût d'entraînement) et rarement utilisée pour les grands modèles. Fine-tuner un modèle de 7B cinq fois pour un CV 5-fold est impraticable. Pour les LLM, un seul jeu de validation retenu est la norme parce que : les jeux de données sont assez grands pour une évaluation fiable sur un seul découpage, l'entraînement est cher, et les représentations pré-entraînées du modèle le rendent moins sensible au découpage spécifique. La validation croisée est plus utile pour les petits jeux de données avec des modèles classiques de ML.