用于评估和比较AI模型的标准测试。基准测试衡量特定能力—推理(ARC)、数学(GSM8K)、编程(HumanEval)、常识(MMLU)—并生成可在不同模型间比较的分数。
大多数AI基准测试遵循一个简单的公式:给模型一组带有已知正确答案的问题或任务,运行推理并计算准确率。例如,MMLU本质上是一场涵盖从抽象代数到世界宗教等57个学科的多项选择考试。HumanEval要求模型编写能通过单元测试的Python函数。GSM8K则呈现小学数学应用题。基准得分是模型答对的百分比,有时会加权,有时会按类别细分。在幕后,许多基准测试在零样本或少样本设置下评估模型——这意味着模型在回答问题前不会看到任何示例,或仅看到极少数示例。这种设置旨在衡量模型真正的能力,而非对特定格式的模式匹配。
AI基准测试的历史是一段目标线移动速度远超预期的故事。2018年发布的GLUE本应是语言理解的硬性测试,但一年内模型便超越了人类基准,于是2019年推出了SuperGLUE。然而,SuperGLUE也很快被攻克。MMLU(2020年)的设计初衷是更持久,确实如此——至少一段时间内是这样。到2024年底,前沿模型在MMLU上的得分已超过90%,而社区早已转向更难的测试,如MMLU-Pro和GPQA(一套需要博士水平的科学问题,即使是领域专家也难以应对)。这种“创建-饱和-替换”的循环是现代AI研究的标志性模式之一。
基准测试最大的陷阱是污染问题。如果基准测试中的问题出现在训练数据中——而当你在互联网上训练模型时这几乎是不可避免的——模型可能只是在回忆答案,而非进行推理。一些团队更进一步,有意或无意地在训练过程中针对特定基准进行优化,这种做法有时被称为“针对考试进行训练”。这就是为什么有时你会看到一个MMLU得分令人印象深刻的模型,在实际对话中却表现平平。Chatbot Arena等项目采取了完全不同的方法:真实用户与两个匿名模型进行对话,并投票选出更好的回答。没有固定问题,没有已知答案——只有真实任务中的人类偏好。对于某些模型,这种方法与传统基准的相关性出人意料地低,这说明了这些基准实际上在衡量什么。
还有一个更微妙的问题:基准测试衡量的是易于衡量的内容,而非一定重要的内容。事实记忆和多项选择推理很容易自动评分。而像有用性、细微差别、知道何时说“我不知道”以及在长时间对话中保持连贯性等品质则要难得多。因此,认真从业者会结合自身使用场景的定性测试,同时参考一系列基准测试。一个在MMLU上得分低2%但明显更擅长你特定领域的模型,对你是更好的模型。这些数字只是比较的起点,而非最终结论。