Un classifieur produit une distribution de probabilités sur les classes. Pour la classification binaire, un seul nombre entre 0 et 1 suffit (la probabilité de la classe positive). Pour le multi-classe, le modèle produit une probabilité pour chaque classe, typiquement en utilisant une fonction softmax pour s'assurer qu'elles totalisent 1. La classe prédite est généralement celle avec la probabilité la plus élevée, mais tu peux ajuster le seuil de décision selon ta tolérance aux faux positifs vs. faux négatifs.
Les LLM modernes sont des classifieurs étonnamment bons. Au lieu d'entraîner un modèle dédié, tu peux prompter un LLM : « Classe cet avis client comme positif, négatif ou neutre. » Pour beaucoup de tâches de classification, cette approche zero-shot égale ou dépasse les classifieurs spécialisés, surtout quand la tâche nécessite de comprendre la nuance ou le contexte. Le compromis est le coût et la latence — un appel API LLM est beaucoup plus cher que de faire tourner un petit classifieur localement.
L'exactitude (pourcentage correct) est la métrique la plus intuitive mais peut être trompeuse. Si 99 % des courriels ne sont pas du spam, un modèle qui prédit toujours « pas du spam » obtient 99 % d'exactitude mais n'attrape aucun spam. La précision (parmi les positifs prédits, combien sont corrects), le rappel (parmi les positifs réels, combien ont été trouvés) et le F1 (moyenne harmonique de la précision et du rappel) donnent une image plus complète. La bonne métrique dépend du coût des erreurs dans ton application spécifique.