分类器输出各类别的概率分布。对于二分类,一个0到1之间的数字就足够了(正类的概率)。对于多分类,模型为每个类别输出一个概率,通常使用softmax函数确保它们之和为1。预测的类别通常是概率最高的那个,但你可以根据对假阳性和假阴性的容忍度来调整决策阈值。
现代LLM是出人意料的优秀分类器。无需训练专用模型,你可以提示LLM:“将这条客户评价分类为正面、负面或中性。”对于许多分类任务,这种零样本方法可以匹配或超越专用分类器,特别是当任务需要理解细微差别或上下文时。权衡在于成本和延迟——一次LLM API调用比在本地运行小型分类器要昂贵得多。
准确率(正确百分比)是最直观的指标,但可能会产生误导。如果99%的邮件不是垃圾邮件,一个总是预测“非垃圾邮件”的模型准确率达到99%,但一封垃圾邮件都没有捕获。精确率(在预测的正例中,有多少是正确的)、召回率(在实际的正例中,有多少被找到了)和F1值(精确率和召回率的调和平均值)给出更完整的图景。正确的指标取决于你特定应用中错误的代价。