Validation croisée : Définition et signification — Wiki IA

Une technique pour évaluer la performance d'un modèle quand tu n'as pas assez de données pour un jeu de test séparé. La validation croisée K-fold divise les données en K parties égales, entraîne sur K−1 parties et évalue sur la partie restante, en effectuant une rotation K fois pour que chaque point de données soit utilisé à la fois pour l'entraînement et l'évaluation. Le score moyen sur tous les K folds donne une estimation de performance plus fiable qu'un seul découpage entraînement/test.

Pourquoi c'est important

La validation croisée est essentielle quand les données sont rares — si tu n'as que 500 exemples, en mettre 100 de côté pour les tests signifie s'entraîner sur 20 % de données en moins. La validation croisée utilise toutes les données à la fois pour l'entraînement et l'évaluation. Elle te donne aussi un intervalle de confiance (variance entre les folds) plutôt qu'un seul chiffre, te disant à quel point la performance de ton modèle est stable.

En profondeur

CV 5-fold : divise les données en 5 parties. Entraîne sur les parties 1-4, évalue sur la partie 5. Puis entraîne sur les parties 1-3+5, évalue sur la partie 4. Répète pour les 5 folds. Fais la moyenne des 5 scores d'évaluation. Le résultat est plus fiable qu'un seul découpage 80/20 parce qu'il est robuste au découpage particulier — un jeu de test « chanceux » ou « malchanceux » ne peut pas biaiser le résultat. L'écart-type entre les folds indique la fiabilité.

K-Fold stratifié

Pour la classification avec des classes déséquilibrées (maladie rare : 5 % positifs, 95 % négatifs), un découpage aléatoire pourrait mettre tous les positifs dans un seul fold. Le K-fold stratifié s'assure que chaque fold a la même distribution de classes que le jeu de données complet. Ça évite les folds sans exemples positifs (inutiles pour l'évaluation) et donne des estimations de performance plus fiables pour les classes minoritaires. Utilise toujours le K-fold stratifié pour la classification.

Quand ne pas l'utiliser

La validation croisée est coûteuse en calcul (K fois le coût d'entraînement) et rarement utilisée pour les grands modèles. Fine-tuner un modèle de 7B cinq fois pour un CV 5-fold est impraticable. Pour les LLM, un seul jeu de validation retenu est la norme parce que : les jeux de données sont assez grands pour une évaluation fiable sur un seul découpage, l'entraînement est cher, et les représentations pré-entraînées du modèle le rendent moins sensible au découpage spécifique. La validation croisée est plus utile pour les petits jeux de données avec des modèles classiques de ML.