Zubnet AI學習Wiki › Classification
基礎

Classification

別名:分類器、分類法
將輸入分配到預定義類別之一的任務。「這封電子郵件是垃圾郵件嗎?」(二元分類)。「這張影像是貓、狗還是鳥?」(多類別分類)。「這些標籤中哪些適用於這篇文章?」(多標籤分類)。分類是最常見的監督式學習任務,也是無數實際 AI 應用的基礎。

為什麼重要

分類是大多數人在實務中首次接觸機器學習的場景——垃圾郵件過濾、內容審核、醫療診斷、詐欺偵測、情感分析。理解分類有助於理解整個監督式學習流程:標註資料輸入、訓練模型、輸出預測。

深度解析

分類器輸出的是各類別的機率分布。對於二元分類,一個 0 到 1 之間的數字就足夠了(正類的機率)。對於多類別分類,模型為每個類別輸出一個機率,通常使用 softmax 函數確保它們的總和為 1。預測的類別通常是機率最高的那個,但你可以根據對偽陽性與偽陰性的容忍度來調整決策閾值。

LLM 作為分類器

現代大型語言模型是出乎意料好的分類器。你不需要訓練一個專門的模型,只需提示一個 LLM:「將這條客戶評論分類為正面、負面或中性。」對於許多分類任務,這種零樣本方法的表現與專門建造的分類器持平或超越,特別是當任務需要理解細微差別或上下文時。權衡在於成本和延遲——一次 LLM API 呼叫比在本地運行小型分類器貴得多。

重要的指標

準確率(正確的百分比)是最直覺的指標,但可能具有誤導性。如果 99% 的電子郵件不是垃圾郵件,一個永遠預測「非垃圾郵件」的模型可以達到 99% 的準確率,但一封垃圾郵件都抓不到。精確率(預測為正的案例中,有多少是正確的)、召回率(實際為正的案例中,有多少被找到)和 F1 分數(精確率和召回率的調和平均數)提供了更完整的圖像。正確的指標取決於你特定應用中錯誤的代價。

相關概念

← 所有術語
← Chatbot(聊天機器人) CLIP →
ESC