Zubnet AI学习Wiki › 人工评估
基础

人工评估

别名:人类评估、手动评估
通过让人类直接判断来评估AI输出质量。人类评估流畅性、准确性、有用性、安全性,以及输出是否真正满足了请求。尽管成本高昂且速度较慢,人工评估仍然是金标准,因为自动化指标常常忽略对用户真正重要的东西。

为什么重要

每个自动化指标都是人类判断的代理,而每个代理都有盲点。BLEU无法检测事实错误。困惑度无法衡量有用性。即使LLM-as-judge方法也继承了偏差(例如偏好冗长的回复)。当风险很高时——发布产品、比较模型版本、评估安全性——人工评估不可替代。

深度解析

人工评估有几种形式:绝对评分(对这个回复的有用性打1-5分)、成对比较(这两个回复哪个更好?)、以及任务特定评估(模型是否正确提取了这篇文档中的所有实体?)。成对比较通常比绝对评分更可靠,因为人类更擅长比较而非打分——这就是Chatbot Arena使用成对投票的原因。

成本问题

人工评估成本高昂:需要熟练的标注者、清晰的指南、质量控制和统计显著性,这些都需要时间和金钱。跨多样化任务评估一个模型可能需要数千次人工判断。这就是自动化指标存在的原因——它们免费且即时。务实的方法是在开发中的快速迭代使用自动化指标,在里程碑决策(发布、A/B测试、安全审计)中使用人工评估。

LLM-as-Judge

一种折中方案:使用强大的LLM来评估较弱模型的输出。这比人工评估更便宜,且通常与人类判断有较好的相关性。但它有已知的偏差:LLM评判者倾向于偏好更长的回复、格式更丰富的回复、以及与自身风格匹配的回复。使用多个评判模型并根据人类评分进行校准有所帮助,但LLM-as-judge应该补充而非替代人工评估用于重要决策。

相关概念

← 所有术语
← 交叉注意力 优化 →