Zubnet AIApprendreWiki › Precision & Recall
Fondamentaux

Precision & Recall

F1 Score, Confusion Matrix
Deux métriques complémentaires pour évaluer les classifieurs. La precision répond « parmi les items que le modèle a flaggés comme positifs, combien le sont vraiment ? » Le recall répond « parmi tous les vrais positifs, combien le modèle en a trouvé ? » Un filtre antispam avec haute precision marque rarement de vrais emails comme spam. Un avec haut recall attrape la plupart des spams. Le F1 score est leur moyenne harmonique — un seul nombre qui équilibre les deux.

Pourquoi c'est important

L'exactitude seule est trompeuse. Un modèle qui ne prédit jamais « fraude » atteint 99,9 % d'exactitude si seulement 0,1 % des transactions sont frauduleuses — mais il est complètement inutile. La precision et le recall révèlent les trade-offs : attraper plus de fraude (plus haut recall) veut dire plus de fausses alertes (plus basse precision), et vice-versa. Chaque système de classification en production est tuné basé sur ce trade-off.

Deep Dive

The confusion matrix organizes predictions into four categories: True Positives (correctly flagged), False Positives (incorrectly flagged — Type I error), True Negatives (correctly passed), and False Negatives (missed — Type II error). Precision = TP / (TP + FP). Recall = TP / (TP + FN). F1 = 2 · (Precision · Recall) / (Precision + Recall).

The Trade-off in Practice

Most classifiers output a confidence score, and you choose a threshold above which to predict "positive." A low threshold catches more positives (high recall) but creates more false positives (low precision). A high threshold is more selective (high precision) but misses more positives (low recall). The optimal threshold depends on costs: in medical screening, missing a disease (false negative) is worse than a false alarm. In spam filtering, marking a real email as spam (false positive) is worse than letting spam through.

Beyond Binary

For multi-class problems, precision and recall are computed per class and then averaged. Macro-averaging treats all classes equally. Micro-averaging weights by class frequency. Weighted averaging weights by class support. The choice matters: if 90% of your data is class A, micro-average will be dominated by class A performance, potentially hiding poor performance on minority classes. In AI fairness work, per-class metrics are essential for ensuring the model works well for all groups.

Concepts liés

← Tous les termes
← Pre-training Prompt →