混淆矩陣將預測組織成四個類別:真正(正確標記)、偽正(錯誤標記——第一類錯誤)、真負(正確通過)和偽負(遺漏——第二類錯誤)。精確率 = TP / (TP + FP)。召回率 = TP / (TP + FN)。F1 = 2 · (精確率 · 召回率) / (精確率 + 召回率)。
大多數分類器輸出一個信心分數,你選擇一個閾值,超過該閾值就預測為「正」。低閾值會捕捉更多正例(高召回率)但會產生更多誤報(低精確率)。高閾值更具選擇性(高精確率)但會遺漏更多正例(低召回率)。最佳閾值取決於成本:在醫療篩查中,遺漏疾病(偽負)比誤報更糟糕。在垃圾郵件過濾中,將真正的郵件標記為垃圾郵件(偽正)比讓垃圾郵件通過更糟糕。
對於多分類問題,精確率和召回率按類別計算然後取平均。巨集平均對所有類別同等對待。微觀平均按類別頻率加權。加權平均按類別支持度加權。選擇很重要:如果你的資料中 90% 是類別 A,微觀平均將被類別 A 的表現主導,可能隱藏了少數類別的不良表現。在 AI 公平性工作中,按類別的指標對於確保模型對所有群體都能良好運作至關重要。