Pratik R 本周在 Towards Data Science 发表了一份针对生产 AI agent 的 12 指标评测 harness,根据作者描述,来自 100+ 个企业部署。这是一位实战派的 playbook,不是规范标准——而这恰恰是它值得拎出来的理由:阈值具体到能直接借走,失败模式的分类讲到了大多数 benchmark suite 至今避而不谈的范畴。harness 分成四组:retrieval、generation、agent 行为、以及生产侧的成本/延迟。起源故事比平均水平更诚实:一个医疗客户的合规官问"你们怎么知道你们的 agent 没在幻觉患者症状",团队当时有 unit tests、integration tests,有一个在 demo 数据集上表现漂亮的模型——但没有任何方法在真实流量上衡量幻觉率、上下文忠实度、或工具选择精度。
具体阈值是要照搬的部分。Retrieval(4 项):context relevance 在 top-10 chunks 上高于 0.85,context recall 在标注 benchmark query 上高于 0.90,context precision 高于 0.80,retrieval 延迟 p95 低于 200ms。Generation(3 项):answer faithfulness 相对于检索到的上下文高于 0.95,answer relevance 高于 0.90,幻觉率低于 2%。Agent(3 项):工具选择精度高于 0.92,工具执行成功率高于 0.98,multi-step coherence 高于 0.85。生产(2 项):典型 query 成本低于 $0.05,p99 端到端延迟低于 3 秒。大部分是用 LLM-as-judge 评分——这是文章最承重的 caveat。LLM-as-judge 在最关键的指标上有已知的可靠性问题,尤其是幻觉检测——judge 模型和 agent 模型可能共享盲点,以及 answer faithfulness——judge 可能把一份领域专家不会认为忠实的答案评为忠实。这个 framework 需要在阈值边界附近搭配人工 spot-check,而不是被盲信。
生态层面的读法是:它落在 agent 评测的编辑真空里。前沿实验室在饱和的学术 benchmark(HELM、AgentBench、MMLU、GAIA)上发论文,测的是能力不是可部署性;生产团队两年来一直在内部搭家用 harness,从不分享样子。Pratik R 这篇是难得的、真实生产 harness 的结构与阈值披露——即使你把"100+ 部署"这个声明打个折。文章命名的三个失败模式——"我们 MVP 之后再加评测"、"accuracy 就够了"、"手工 spot-check 行"——和每一个在做 agent 的团队从自身经验里认出来的一致。2% 的幻觉率门槛尤其承重,因为多数公开 benchmark 只报 accuracy,默认接受高得多的幻觉率;但对一个回答客户问题或驱动受监管流程的 agent 来说,2% 才是可以为上线辩护的那条线。
对 builder:先把四类结构(retrieval、generation、agent、生产)拎走——分组本身不靠出身就成立。把阈值当作起点借走,再针对你的领域校准(医疗需要幻觉接近 0,客户支持在 agent 能升级的前提下可以容忍 3-5%)。把 LLM-as-judge 当最便宜的信号,搭配对边界案例的定期人工复核——文章承认手工复核在每天 1 万 query 时就崩了,但没有充分讨论 LLM-as-judge 恰恰会在手工复核能抓到的那些案例上自信地犯错。成本和延迟目标是 framework 里乏味的另一半,而生产失败实际上多发生在这里:一个 1% 幻觉率但每 query 花 $0.50 的 agent 也上不了线。Pratik R 那篇在 TDS 链接里;把它当作起点参考,而不是标准。
