Zubnet AI学习Wiki › 精确率与召回率
基础

精确率与召回率

别名:F1 分数、混淆矩阵
评估分类器的两个互补指标。精确率回答“模型标记为正例的项目中,有多少确实是正例?”召回率回答“所有实际正例中,模型找到了多少?”一个高精确率的垃圾邮件过滤器很少将正常邮件标记为垃圾。一个高召回率的过滤器能捕获大多数垃圾邮件。F1 分数是两者的调和平均——一个平衡两者的单一数值。

为什么重要

单独的准确率具有误导性。一个从不预测“欺诈”的模型,如果只有 0.1% 的交易是欺诈的,就能达到 99.9% 的准确率——但它完全无用。精确率和召回率揭示了权衡:捕获更多欺诈(更高召回率)意味着更多误报(更低精确率),反之亦然。每个投入生产的分类系统都基于这种权衡进行调优。

深度解析

混淆矩阵将预测组织为四个类别:真正例(正确标记)、假正例(错误标记——第一类错误)、真反例(正确通过)和假反例(遗漏——第二类错误)。精确率 = TP / (TP + FP)。召回率 = TP / (TP + FN)。F1 = 2 · (精确率 · 召回率) / (精确率 + 召回率)。

实践中的权衡

大多数分类器输出一个置信度分数,你选择一个阈值来决定何时预测"正例"。低阈值捕获更多正例(高召回率)但产生更多假正例(低精确率)。高阈值更具选择性(高精确率)但遗漏更多正例(低召回率)。最佳阈值取决于成本:在医学筛查中,漏诊(假反例)比误报更糟糕。在垃圾邮件过滤中,将正常邮件标记为垃圾(假正例)比放过垃圾邮件更糟糕。

超越二分类

对于多分类问题,精确率和召回率按类别计算然后取平均。宏平均对所有类别一视同仁。微平均按类别频率加权。加权平均按类别支持度加权。选择很重要:如果 90% 的数据是 A 类,微平均将被 A 类性能主导,可能掩盖少数类别的糟糕表现。在 AI 公平性工作中,按类别的指标对确保模型对所有群体都表现良好至关重要。

相关概念

← 所有术语
← 端点 系统提示词 →
ESC