单独的准确率具有误导性。一个从不预测“欺诈”的模型,如果只有 0.1% 的交易是欺诈的,就能达到 99.9% 的准确率——但它完全无用。精确率和召回率揭示了权衡:捕获更多欺诈(更高召回率)意味着更多误报(更低精确率),反之亦然。每个投入生产的分类系统都基于这种权衡进行调优。
混淆矩阵将预测组织为四个类别:真正例(正确标记)、假正例(错误标记——第一类错误)、真反例(正确通过)和假反例(遗漏——第二类错误)。精确率 = TP / (TP + FP)。召回率 = TP / (TP + FN)。F1 = 2 · (精确率 · 召回率) / (精确率 + 召回率)。
大多数分类器输出一个置信度分数,你选择一个阈值来决定何时预测"正例"。低阈值捕获更多正例(高召回率)但产生更多假正例(低精确率)。高阈值更具选择性(高精确率)但遗漏更多正例(低召回率)。最佳阈值取决于成本:在医学筛查中,漏诊(假反例)比误报更糟糕。在垃圾邮件过滤中,将正常邮件标记为垃圾(假正例)比放过垃圾邮件更糟糕。
对于多分类问题,精确率和召回率按类别计算然后取平均。宏平均对所有类别一视同仁。微平均按类别频率加权。加权平均按类别支持度加权。选择很重要:如果 90% 的数据是 A 类,微平均将被 A 类性能主导,可能掩盖少数类别的糟糕表现。在 AI 公平性工作中,按类别的指标对确保模型对所有群体都表现良好至关重要。