Precisión y Recall: Definición y significado — Wiki de IA

Dos métricas complementarias para evaluar clasificadores. La precisión responde "de los ítems que el modelo marcó como positivos, ¿cuántos realmente lo son?" El recall responde "de todos los positivos reales, ¿cuántos encontró el modelo?" Un filtro de spam con alta precisión raramente marca correo real como spam. Uno con alto recall atrapa la mayoría del spam. El F1 score es su media armónica — un número único que equilibra ambos.

Por qué importa

La exactitud sola es engañosa. Un modelo que nunca predice "fraude" logra 99.9% de exactitud si solo el 0.1% de las transacciones son fraudulentas — pero es completamente inútil. Precisión y recall revelan los compromisos: atrapar más fraude (mayor recall) significa más falsas alarmas (menor precisión), y viceversa. Cada sistema de clasificación en producción se ajusta basándose en este compromiso.

En profundidad

La matriz de confusión organiza las predicciones en cuatro categorías: Verdaderos Positivos (correctamente marcados), Falsos Positivos (incorrectamente marcados — Error Tipo I), Verdaderos Negativos (correctamente pasados), y Falsos Negativos (omitidos — Error Tipo II). Precisión = VP / (VP + FP). Recall = VP / (VP + FN). F1 = 2 · (Precisión · Recall) / (Precisión + Recall).

El Compromiso en la Práctica

La mayoría de los clasificadores generan una puntuación de confianza, y tú eliges un umbral por encima del cual predecir "positivo". Un umbral bajo atrapa más positivos (alto recall) pero crea más falsos positivos (baja precisión). Un umbral alto es más selectivo (alta precisión) pero pierde más positivos (bajo recall). El umbral óptimo depende de los costos: en tamizaje médico, perder una enfermedad (falso negativo) es peor que una falsa alarma. En filtrado de spam, marcar un correo real como spam (falso positivo) es peor que dejar pasar spam.

Más Allá de lo Binario

Para problemas multiclase, precisión y recall se calculan por clase y luego se promedian. El macro-promedio trata todas las clases por igual. El micro-promedio pondera por frecuencia de clase. El promedio ponderado pondera por soporte de clase. La elección importa: si el 90% de tus datos es clase A, el micro-promedio estará dominado por el rendimiento de la clase A, potencialmente ocultando el mal rendimiento en clases minoritarias. En trabajo de equidad en IA, las métricas por clase son esenciales para asegurar que el modelo funciona bien para todos los grupos.

Precisión y Recall

Por qué importa

En profundidad

El Compromiso en la Práctica

Más Allá de lo Binario

Conceptos relacionados