Zubnet AIApprendreWiki › Cross-Validation
Training

Cross-Validation

K-Fold CV, Leave-One-Out
Une technique pour évaluer la performance du modèle quand tu n'as pas assez de données pour un test set séparé. La K-fold cross-validation split les données en K parties égales, entraîne sur K−1 parties et évalue sur la partie restante, tournant K fois donc chaque point de données est utilisé à la fois pour l'entraînement et l'évaluation. Le score moyen à travers les K folds donne une estimation de performance plus fiable qu'un seul split train/test.

Pourquoi c'est important

La cross-validation est essentielle quand les données sont rares — si t'as seulement 500 exemples, mettre de côté 100 pour les tests veut dire entraîner sur 20 % moins de données. La cross-validation utilise toutes les données pour l'entraînement et l'évaluation. Elle te donne aussi un intervalle de confiance (variance à travers les folds) plutôt qu'un seul nombre, te disant à quel point la performance de ton modèle est stable.

Deep Dive

5-fold CV: split data into 5 parts. Train on parts 1-4, evaluate on part 5. Then train on parts 1-3+5, evaluate on part 4. Repeat for all 5 folds. Average the 5 evaluation scores. The result is more reliable than a single 80/20 split because it's robust to the particular split — a "lucky" or "unlucky" test set can't skew the result. The standard deviation across folds indicates reliability.

Stratified K-Fold

For classification with imbalanced classes (rare disease: 5% positive, 95% negative), random splitting might put all positives in one fold. Stratified K-fold ensures each fold has the same class distribution as the full dataset. This prevents folds with no positive examples (useless for evaluation) and gives more reliable performance estimates for minority classes. Always use stratified K-fold for classification.

When Not to Use It

Cross-validation is computationally expensive (K times the training cost) and rarely used for large models. Fine-tuning a 7B model 5 times for 5-fold CV is impractical. For LLMs, a single held-out validation set is standard because: the datasets are large enough for reliable single-split evaluation, training is expensive, and the model's pre-trained representations make it less sensitive to the specific training split. Cross-validation is most valuable for small datasets with classical ML models.

Concepts liés

← Tous les termes
ESC