精确率与召回率：定义与含义 — AI 维基

评估分类器的两个互补指标。精确率回答“模型标记为正例的项目中，有多少确实是正例？”召回率回答“所有实际正例中，模型找到了多少？”一个高精确率的垃圾邮件过滤器很少将正常邮件标记为垃圾。一个高召回率的过滤器能捕获大多数垃圾邮件。F1 分数是两者的调和平均——一个平衡两者的单一数值。

为什么重要

单独的准确率具有误导性。一个从不预测“欺诈”的模型，如果只有 0.1% 的交易是欺诈的，就能达到 99.9% 的准确率——但它完全无用。精确率和召回率揭示了权衡：捕获更多欺诈（更高召回率）意味着更多误报（更低精确率），反之亦然。每个投入生产的分类系统都基于这种权衡进行调优。

深度解析

混淆矩阵将预测组织为四个类别：真正例（正确标记）、假正例（错误标记——第一类错误）、真反例（正确通过）和假反例（遗漏——第二类错误）。精确率 = TP / (TP + FP)。召回率 = TP / (TP + FN)。F1 = 2 · (精确率 · 召回率) / (精确率 + 召回率)。

实践中的权衡

大多数分类器输出一个置信度分数，你选择一个阈值来决定何时预测"正例"。低阈值捕获更多正例（高召回率）但产生更多假正例（低精确率）。高阈值更具选择性（高精确率）但遗漏更多正例（低召回率）。最佳阈值取决于成本：在医学筛查中，漏诊（假反例）比误报更糟糕。在垃圾邮件过滤中，将正常邮件标记为垃圾（假正例）比放过垃圾邮件更糟糕。

超越二分类

对于多分类问题，精确率和召回率按类别计算然后取平均。宏平均对所有类别一视同仁。微平均按类别频率加权。加权平均按类别支持度加权。选择很重要：如果 90% 的数据是 A 类，微平均将被 A 类性能主导，可能掩盖少数类别的糟糕表现。在 AI 公平性工作中，按类别的指标对确保模型对所有群体都表现良好至关重要。

精确率与召回率

为什么重要

深度解析

实践中的权衡

超越二分类

相关概念