精確率與召回率：定義與含義 — AI 維基

兩個互補的分類器評估指標。精確率回答「模型標記為正的項目中，有多少是真正的正？」召回率回答「所有實際的正中，模型找到了多少？」高精確率的垃圾郵件過濾器很少將真正的郵件標記為垃圾郵件。高召回率的過濾器則能捕捉到大部分垃圾郵件。F1 分數是兩者的調和平均數——一個平衡兩者的單一數字。

為什麼重要

單獨的準確率是具有誤導性的。一個從不預測「詐欺」的模型在只有 0.1% 的交易是詐欺時達到 99.9% 的準確率——但它完全沒有用。精確率和召回率揭示了權衡：捕捉更多詐欺（更高的召回率）意味著更多的誤報（更低的精確率），反之亦然。生產環境中的每個分類系統都是基於這種權衡來調整的。

深度解析

混淆矩陣將預測組織成四個類別：真正（正確標記）、偽正（錯誤標記——第一類錯誤）、真負（正確通過）和偽負（遺漏——第二類錯誤）。精確率 = TP / (TP + FP)。召回率 = TP / (TP + FN)。F1 = 2 · (精確率 · 召回率) / (精確率 + 召回率)。

實踐中的權衡

大多數分類器輸出一個信心分數，你選擇一個閾值，超過該閾值就預測為「正」。低閾值會捕捉更多正例（高召回率）但會產生更多誤報（低精確率）。高閾值更具選擇性（高精確率）但會遺漏更多正例（低召回率）。最佳閾值取決於成本：在醫療篩查中，遺漏疾病（偽負）比誤報更糟糕。在垃圾郵件過濾中，將真正的郵件標記為垃圾郵件（偽正）比讓垃圾郵件通過更糟糕。

超越二元分類

對於多分類問題，精確率和召回率按類別計算然後取平均。巨集平均對所有類別同等對待。微觀平均按類別頻率加權。加權平均按類別支持度加權。選擇很重要：如果你的資料中 90% 是類別 A，微觀平均將被類別 A 的表現主導，可能隱藏了少數類別的不良表現。在 AI 公平性工作中，按類別的指標對於確保模型對所有群體都能良好運作至關重要。

精確率與召回率

為什麼重要

深度解析

實踐中的權衡

超越二元分類

相關概念