La matrice de confusion organise les prédictions en quatre catégories : Vrais Positifs (correctement signalés), Faux Positifs (signalés incorrectement — erreur de type I), Vrais Négatifs (correctement ignorés) et Faux Négatifs (manqués — erreur de type II). Précision = VP / (VP + FP). Rappel = VP / (VP + FN). F1 = 2 · (Précision · Rappel) / (Précision + Rappel).
La plupart des classifieurs produisent un score de confiance, et tu choisis un seuil au-dessus duquel prédire « positif ». Un seuil bas attrape plus de positifs (rappel élevé) mais crée plus de faux positifs (précision basse). Un seuil élevé est plus sélectif (précision élevée) mais manque plus de positifs (rappel bas). Le seuil optimal dépend des coûts : en dépistage médical, manquer une maladie (faux négatif) est pire qu'une fausse alerte. En filtrage de spam, marquer un vrai courriel comme spam (faux positif) est pire que de laisser passer du spam.
Pour les problèmes multi-classes, la précision et le rappel sont calculés par classe puis moyennés. La macro-moyenne traite toutes les classes également. La micro-moyenne pondère par la fréquence de classe. La moyenne pondérée pondère par le support de classe. Le choix compte : si 90 % de tes données sont de la classe A, la micro-moyenne sera dominée par la performance sur la classe A, masquant potentiellement une mauvaise performance sur les classes minoritaires. En travaux sur l'équité en IA, les métriques par classe sont essentielles pour s'assurer que le modèle fonctionne bien pour tous les groupes.