Precisão & Recall: Definição e significado — Wiki de IA

Duas métricas complementares para avaliar classificadores. Precisão responde "dos itens que o modelo marcou como positivos, quantos realmente são?" Recall responde "de todos os positivos reais, quantos o modelo encontrou?" Um filtro de spam com alta precisão raramente marca e-mails reais como spam. Um com alto recall detecta a maioria dos spams. O F1 score é a média harmônica entre ambos — um número único que equilibra os dois.

Por que isso importa

Acurácia sozinha é enganosa. Um modelo que nunca prediz "fraude" atinge 99,9% de acurácia se apenas 0,1% das transações são fraudulentas — mas é completamente inútil. Precisão e recall revelam os trade-offs: detectar mais fraude (recall mais alto) significa mais alarmes falsos (precisão mais baixa), e vice-versa. Todo sistema de classificação em produção é ajustado com base nesse trade-off.

Em profundidade

A matriz de confusão organiza predições em quatro categorias: Verdadeiros Positivos (corretamente marcados), Falsos Positivos (incorretamente marcados — Erro Tipo I), Verdadeiros Negativos (corretamente ignorados) e Falsos Negativos (perdidos — Erro Tipo II). Precisão = VP / (VP + FP). Recall = VP / (VP + FN). F1 = 2 · (Precisão · Recall) / (Precisão + Recall).

O Trade-off na Prática

A maioria dos classificadores produz um score de confiança, e você escolhe um limiar acima do qual prever "positivo". Um limiar baixo captura mais positivos (recall alto) mas cria mais falsos positivos (precisão baixa). Um limiar alto é mais seletivo (precisão alta) mas perde mais positivos (recall baixo). O limiar ideal depende dos custos: em triagem médica, perder uma doença (falso negativo) é pior que um alarme falso. Em filtragem de spam, marcar um e-mail real como spam (falso positivo) é pior que deixar spam passar.

Além do Binário

Para problemas multi-classe, precisão e recall são calculados por classe e depois agregados. Macro-averaging trata todas as classes igualmente. Micro-averaging pondera pela frequência da classe. Weighted averaging pondera pelo suporte da classe. A escolha importa: se 90% dos seus dados são classe A, micro-average será dominado pelo desempenho da classe A, potencialmente escondendo desempenho ruim em classes minoritárias. Em trabalho de fairness de IA, métricas por classe são essenciais para garantir que o modelo funcione bem para todos os grupos.

Precisão & Recall

Por que isso importa

Em profundidade

O Trade-off na Prática

Além do Binário

Conceitos relacionados