人工评估有几种形式:绝对评分(对这个回复的有用性打1-5分)、成对比较(这两个回复哪个更好?)、以及任务特定评估(模型是否正确提取了这篇文档中的所有实体?)。成对比较通常比绝对评分更可靠,因为人类更擅长比较而非打分——这就是Chatbot Arena使用成对投票的原因。
人工评估成本高昂:需要熟练的标注者、清晰的指南、质量控制和统计显著性,这些都需要时间和金钱。跨多样化任务评估一个模型可能需要数千次人工判断。这就是自动化指标存在的原因——它们免费且即时。务实的方法是在开发中的快速迭代使用自动化指标,在里程碑决策(发布、A/B测试、安全审计)中使用人工评估。
一种折中方案:使用强大的LLM来评估较弱模型的输出。这比人工评估更便宜,且通常与人类判断有较好的相关性。但它有已知的偏差:LLM评判者倾向于偏好更长的回复、格式更丰富的回复、以及与自身风格匹配的回复。使用多个评判模型并根据人类评分进行校准有所帮助,但LLM-as-judge应该补充而非替代人工评估用于重要决策。