人工评估：定义与含义 — AI 维基

通过让人类直接判断来评估AI输出质量。人类评估流畅性、准确性、有用性、安全性，以及输出是否真正满足了请求。尽管成本高昂且速度较慢，人工评估仍然是金标准，因为自动化指标常常忽略对用户真正重要的东西。

为什么重要

每个自动化指标都是人类判断的代理，而每个代理都有盲点。BLEU无法检测事实错误。困惑度无法衡量有用性。即使LLM-as-judge方法也继承了偏差（例如偏好冗长的回复）。当风险很高时——发布产品、比较模型版本、评估安全性——人工评估不可替代。

深度解析

人工评估有几种形式：绝对评分（对这个回复的有用性打1-5分）、成对比较（这两个回复哪个更好？）、以及任务特定评估（模型是否正确提取了这篇文档中的所有实体？）。成对比较通常比绝对评分更可靠，因为人类更擅长比较而非打分——这就是Chatbot Arena使用成对投票的原因。

成本问题

人工评估成本高昂：需要熟练的标注者、清晰的指南、质量控制和统计显著性，这些都需要时间和金钱。跨多样化任务评估一个模型可能需要数千次人工判断。这就是自动化指标存在的原因——它们免费且即时。务实的方法是在开发中的快速迭代使用自动化指标，在里程碑决策（发布、A/B测试、安全审计）中使用人工评估。

LLM-as-Judge

一种折中方案：使用强大的LLM来评估较弱模型的输出。这比人工评估更便宜，且通常与人类判断有较好的相关性。但它有已知的偏差：LLM评判者倾向于偏好更长的回复、格式更丰富的回复、以及与自身风格匹配的回复。使用多个评判模型并根据人类评分进行校准有所帮助，但LLM-as-judge应该补充而非替代人工评估用于重要决策。

人工评估

为什么重要

深度解析

成本问题

LLM-as-Judge

相关概念