基准测试：定义与含义 — AI 维基

用于评估和比较AI模型的标准测试。基准测试衡量特定能力—推理（ARC）、数学（GSM8K）、编程（HumanEval）、常识（MMLU）—并生成可在不同模型间比较的分数。

为什么重要

基准测试是行业衡量表现的方式，但它们并不完美—模型可以被训练以在基准测试中表现优异，但并不一定真正更好。实际应用中的表现往往讲述着不同的故事。应将它们视为信号，而非绝对真理。

深度解析

大多数AI基准测试遵循一个简单的公式：给模型一组带有已知正确答案的问题或任务，运行推理并计算准确率。例如，MMLU本质上是一场涵盖从抽象代数到世界宗教等57个学科的多项选择考试。HumanEval要求模型编写能通过单元测试的Python函数。GSM8K则呈现小学数学应用题。基准得分是模型答对的百分比，有时会加权，有时会按类别细分。在幕后，许多基准测试在零样本或少样本设置下评估模型——这意味着模型在回答问题前不会看到任何示例，或仅看到极少数示例。这种设置旨在衡量模型真正的能力，而非对特定格式的模式匹配。

不断移动的目标线

AI基准测试的历史是一段目标线移动速度远超预期的故事。2018年发布的GLUE本应是语言理解的硬性测试，但一年内模型便超越了人类基准，于是2019年推出了SuperGLUE。然而，SuperGLUE也很快被攻克。MMLU（2020年）的设计初衷是更持久，确实如此——至少一段时间内是这样。到2024年底，前沿模型在MMLU上的得分已超过90%，而社区早已转向更难的测试，如MMLU-Pro和GPQA（一套需要博士水平的科学问题，即使是领域专家也难以应对）。这种“创建-饱和-替换”的循环是现代AI研究的标志性模式之一。

污染问题

基准测试最大的陷阱是污染问题。如果基准测试中的问题出现在训练数据中——而当你在互联网上训练模型时这几乎是不可避免的——模型可能只是在回忆答案，而非进行推理。一些团队更进一步，有意或无意地在训练过程中针对特定基准进行优化，这种做法有时被称为“针对考试进行训练”。这就是为什么有时你会看到一个MMLU得分令人印象深刻的模型，在实际对话中却表现平平。Chatbot Arena等项目采取了完全不同的方法：真实用户与两个匿名模型进行对话，并投票选出更好的回答。没有固定问题，没有已知答案——只有真实任务中的人类偏好。对于某些模型，这种方法与传统基准的相关性出人意料地低，这说明了这些基准实际上在衡量什么。

数字无法捕捉的方面

还有一个更微妙的问题：基准测试衡量的是易于衡量的内容，而非一定重要的内容。事实记忆和多项选择推理很容易自动评分。而像有用性、细微差别、知道何时说“我不知道”以及在长时间对话中保持连贯性等品质则要难得多。因此，认真从业者会结合自身使用场景的定性测试，同时参考一系列基准测试。一个在MMLU上得分低2%但明显更擅长你特定领域的模型，对你是更好的模型。这些数字只是比较的起点，而非最终结论。

基准测试

为什么重要

深度解析

不断移动的目标线

污染问题

数字无法捕捉的方面

相关概念