Classification : Définition et signification — Wiki IA

La tâche d'assigner une entrée à l'une d'un ensemble prédéfini de catégories. « Ce courriel est-il du spam ou non ? » (classification binaire). « Cette image est-elle un chat, un chien ou un oiseau ? » (multi-classe). « Quelles étiquettes s'appliquent à cet article ? » (multi-étiquettes). La classification est la tâche d'apprentissage supervisé la plus courante et la base d'innombrables applications réelles de l'IA.

Pourquoi c'est important

La classification est là où la plupart des gens rencontrent l'apprentissage automatique en pratique — filtres anti-spam, modération de contenu, diagnostic médical, détection de fraude, analyse de sentiment. Comprendre la classification t'aide à comprendre tout le pipeline d'apprentissage supervisé : données étiquetées en entrée, modèle entraîné, prédictions en sortie.

En profondeur

Un classifieur produit une distribution de probabilités sur les classes. Pour la classification binaire, un seul nombre entre 0 et 1 suffit (la probabilité de la classe positive). Pour le multi-classe, le modèle produit une probabilité pour chaque classe, typiquement en utilisant une fonction softmax pour s'assurer qu'elles totalisent 1. La classe prédite est généralement celle avec la probabilité la plus élevée, mais tu peux ajuster le seuil de décision selon ta tolérance aux faux positifs vs. faux négatifs.

Les LLM comme classifieurs

Les LLM modernes sont des classifieurs étonnamment bons. Au lieu d'entraîner un modèle dédié, tu peux prompter un LLM : « Classe cet avis client comme positif, négatif ou neutre. » Pour beaucoup de tâches de classification, cette approche zero-shot égale ou dépasse les classifieurs spécialisés, surtout quand la tâche nécessite de comprendre la nuance ou le contexte. Le compromis est le coût et la latence — un appel API LLM est beaucoup plus cher que de faire tourner un petit classifieur localement.

Les métriques qui comptent

L'exactitude (pourcentage correct) est la métrique la plus intuitive mais peut être trompeuse. Si 99 % des courriels ne sont pas du spam, un modèle qui prédit toujours « pas du spam » obtient 99 % d'exactitude mais n'attrape aucun spam. La précision (parmi les positifs prédits, combien sont corrects), le rappel (parmi les positifs réels, combien ont été trouvés) et le F1 (moyenne harmonique de la précision et du rappel) donnent une image plus complète. La bonne métrique dépend du coût des erreurs dans ton application spécifique.

Classification

Pourquoi c'est important

En profondeur

Les LLM comme classifieurs

Les métriques qui comptent

Concepts connexes