Token : Définition et signification — Wiki IA

Deux métriques complémentaires pour évaluer les classifieurs. La précision répond à « parmi les éléments que le modèle a signalés comme positifs, combien le sont réellement ? » Le rappel répond à « parmi tous les vrais positifs, combien le modèle en a-t-il trouvé ? » Un filtre anti-spam avec une haute précision marque rarement de vrais courriels comme spam. Un filtre avec un haut rappel attrape la plupart des spams. Le score F1 est leur moyenne harmonique — un nombre unique qui équilibre les deux.

Pourquoi c'est important

L'exactitude seule est trompeuse. Un modèle qui ne prédit jamais « fraude » atteint 99,9 % d'exactitude si seulement 0,1 % des transactions sont frauduleuses — mais il est complètement inutile. La précision et le rappel révèlent les compromis : attraper plus de fraudes (rappel plus élevé) signifie plus de fausses alertes (précision plus basse), et vice versa. Chaque système de classification en production est ajusté en fonction de ce compromis.

En profondeur

La matrice de confusion organise les prédictions en quatre catégories : Vrais Positifs (correctement signalés), Faux Positifs (signalés incorrectement — erreur de type I), Vrais Négatifs (correctement ignorés) et Faux Négatifs (manqués — erreur de type II). Précision = VP / (VP + FP). Rappel = VP / (VP + FN). F1 = 2 · (Précision · Rappel) / (Précision + Rappel).

Le compromis en pratique

La plupart des classifieurs produisent un score de confiance, et tu choisis un seuil au-dessus duquel prédire « positif ». Un seuil bas attrape plus de positifs (rappel élevé) mais crée plus de faux positifs (précision basse). Un seuil élevé est plus sélectif (précision élevée) mais manque plus de positifs (rappel bas). Le seuil optimal dépend des coûts : en dépistage médical, manquer une maladie (faux négatif) est pire qu'une fausse alerte. En filtrage de spam, marquer un vrai courriel comme spam (faux positif) est pire que de laisser passer du spam.

Au-delà du binaire

Pour les problèmes multi-classes, la précision et le rappel sont calculés par classe puis moyennés. La macro-moyenne traite toutes les classes également. La micro-moyenne pondère par la fréquence de classe. La moyenne pondérée pondère par le support de classe. Le choix compte : si 90 % de tes données sont de la classe A, la micro-moyenne sera dominée par la performance sur la classe A, masquant potentiellement une mauvaise performance sur les classes minoritaires. En travaux sur l'équité en IA, les métriques par classe sont essentielles pour s'assurer que le modèle fonctionne bien pour tous les groupes.

Précision et rappel

Pourquoi c'est important

En profondeur

Le compromis en pratique

Au-delà du binaire

Concepts connexes