分類器輸出的是各類別的機率分布。對於二元分類,一個 0 到 1 之間的數字就足夠了(正類的機率)。對於多類別分類,模型為每個類別輸出一個機率,通常使用 softmax 函數確保它們的總和為 1。預測的類別通常是機率最高的那個,但你可以根據對偽陽性與偽陰性的容忍度來調整決策閾值。
現代大型語言模型是出乎意料好的分類器。你不需要訓練一個專門的模型,只需提示一個 LLM:「將這條客戶評論分類為正面、負面或中性。」對於許多分類任務,這種零樣本方法的表現與專門建造的分類器持平或超越,特別是當任務需要理解細微差別或上下文時。權衡在於成本和延遲——一次 LLM API 呼叫比在本地運行小型分類器貴得多。
準確率(正確的百分比)是最直覺的指標,但可能具有誤導性。如果 99% 的電子郵件不是垃圾郵件,一個永遠預測「非垃圾郵件」的模型可以達到 99% 的準確率,但一封垃圾郵件都抓不到。精確率(預測為正的案例中,有多少是正確的)、召回率(實際為正的案例中,有多少被找到)和 F1 分數(精確率和召回率的調和平均數)提供了更完整的圖像。正確的指標取決於你特定應用中錯誤的代價。