La matriz de confusión organiza las predicciones en cuatro categorías: Verdaderos Positivos (correctamente marcados), Falsos Positivos (incorrectamente marcados — Error Tipo I), Verdaderos Negativos (correctamente pasados), y Falsos Negativos (omitidos — Error Tipo II). Precisión = VP / (VP + FP). Recall = VP / (VP + FN). F1 = 2 · (Precisión · Recall) / (Precisión + Recall).
La mayoría de los clasificadores generan una puntuación de confianza, y tú eliges un umbral por encima del cual predecir "positivo". Un umbral bajo atrapa más positivos (alto recall) pero crea más falsos positivos (baja precisión). Un umbral alto es más selectivo (alta precisión) pero pierde más positivos (bajo recall). El umbral óptimo depende de los costos: en tamizaje médico, perder una enfermedad (falso negativo) es peor que una falsa alarma. En filtrado de spam, marcar un correo real como spam (falso positivo) es peor que dejar pasar spam.
Para problemas multiclase, precisión y recall se calculan por clase y luego se promedian. El macro-promedio trata todas las clases por igual. El micro-promedio pondera por frecuencia de clase. El promedio ponderado pondera por soporte de clase. La elección importa: si el 90% de tus datos es clase A, el micro-promedio estará dominado por el rendimiento de la clase A, potencialmente ocultando el mal rendimiento en clases minoritarias. En trabajo de equidad en IA, las métricas por clase son esenciales para asegurar que el modelo funciona bien para todos los grupos.