A matriz de confusão organiza predições em quatro categorias: Verdadeiros Positivos (corretamente marcados), Falsos Positivos (incorretamente marcados — Erro Tipo I), Verdadeiros Negativos (corretamente ignorados) e Falsos Negativos (perdidos — Erro Tipo II). Precisão = VP / (VP + FP). Recall = VP / (VP + FN). F1 = 2 · (Precisão · Recall) / (Precisão + Recall).
A maioria dos classificadores produz um score de confiança, e você escolhe um limiar acima do qual prever "positivo". Um limiar baixo captura mais positivos (recall alto) mas cria mais falsos positivos (precisão baixa). Um limiar alto é mais seletivo (precisão alta) mas perde mais positivos (recall baixo). O limiar ideal depende dos custos: em triagem médica, perder uma doença (falso negativo) é pior que um alarme falso. Em filtragem de spam, marcar um e-mail real como spam (falso positivo) é pior que deixar spam passar.
Para problemas multi-classe, precisão e recall são calculados por classe e depois agregados. Macro-averaging trata todas as classes igualmente. Micro-averaging pondera pela frequência da classe. Weighted averaging pondera pelo suporte da classe. A escolha importa: se 90% dos seus dados são classe A, micro-average será dominado pelo desempenho da classe A, potencialmente escondendo desempenho ruim em classes minoritárias. Em trabalho de fairness de IA, métricas por classe são essenciais para garantir que o modelo funcione bem para todos os grupos.