基準測試：定義與含義 — AI 維基

用來評估和比較AI模型的標準化測試。基準測試會衡量特定能力—推理（ARC）、數學（GSM8K）、程式設計（HumanEval）、一般知識（MMLU）—並產生可跨模型比較的分數。

為什麼重要

基準測試是產業界評分的方式，但它們並不完美。模型可以被訓練來在基準測試中取得高分，但這並不表示它們真的更好。實際應用中的表現往往講述著不同的故事。應將其視為信號，而非真理。

深度解析

大多數 AI 基準測試遵循一個簡單公式：給予模型一組具有已知正確答案的問題或任務，執行推論，並計算準確率。例如，MMLU 本質上是一場涵蓋從抽象代數到世界宗教等 57 個主題的多選考試。HumanEval 則要求模型撰寫能通過單元測試的 Python 函數。GSM8K 呈現小學程度的數學應用題。基準分數是模型答對的百分比，有時會加權計算，有時會按類別拆分。在底層，許多基準測試會在零次提示（zero-shot）或少量提示（few-shot）設定下評估模型——意即模型在回答前幾乎沒有或只有極少的範例。這樣做是為了測量模型真正的能力，而非針對特定格式的模式匹配。

不斷移動的目標線

AI 基準測試的歷史是一則目標線移動速度遠超所有人預期的故事。2018 年推出的 GLUE 原本被視為語言理解的嚴格測試，但模型在一年內便超越人類基準，因此 2019 年出現了 SuperGLUE。然而 SuperGLUE 也很快被突破。MMLU（2020）設計為能維持更久，確實如此——至少一陣子。到了 2024 年底，前沿模型在 MMLU 上的得分已超過 90%，而社群早已轉向更具挑戰性的測試，例如 MMLU-Pro 和 GPQA（一組博士級科學問題，連領域專家都難以應對）。這種「創造-達到飽和-取代」的循環，正是現代 AI 研究的典型模式。

污染問題

基準測試最大的陷阱在於污染（contamination）。如果測試問題出現在訓練數據中——這在訓練資料涵蓋大部分網際網路時幾乎難以避免——模型可能只是在回憶答案，而非進行推理。有些團隊更進一步，刻意或無意地在訓練過程中優化特定基準測試，這種做法有時被稱為「針對考試進行訓練」（teaching to the test）。這就是為什麼你偶爾會看到一個 MMLU 分數驚人的模型，在實際對話中卻表現平平。Chatbot Arena 等專案則採取完全不同的方法：真實用戶與兩個匿名模型進行對話，並投票評選哪個回應更好。沒有固定問題，也沒有標準答案——只有人類在真實任務上的偏好。這種方法與傳統基準測試的相關性對某些模型來說驚人地低，這告訴你一些關於這些基準測試實際測量內容的重要資訊。

數字所忽略的

還有更細微的問題：基準測試衡量的是容易衡量的內容，不一定是重要的內容。事實回憶和多選推理可以輕鬆自動計分。而幫助性、細膩度、知道何時該說「我不知道」，以及在長對話中保持一致性等特質，則極難量化。這就是為什麼專業實踐者會同時參考一籃子基準測試，以及針對自身使用案例的定性測試。一個在 MMLU 上低 2% 分數，但在你特定領域表現明顯更好的模型，對你來說才是更好的模型。數字只是比較的起點，而非最終判斷。

基準測試

為什麼重要

深度解析

不斷移動的目標線

污染問題

數字所忽略的

相關概念