Zubnet AI學習Wiki › 基準測試
訓練

基準測試

別名:Benchmark

用來評估和比較AI模型的標準化測試。基準測試會衡量特定能力—推理(ARC)、數學(GSM8K)、程式設計(HumanEval)、一般知識(MMLU)—並產生可跨模型比較的分數。

為什麼重要

基準測試是產業界評分的方式,但它們並不完美。模型可以被訓練來在基準測試中取得高分,但這並不表示它們真的更好。實際應用中的表現往往講述著不同的故事。應將其視為信號,而非真理。

深度解析

大多數 AI 基準測試遵循一個簡單公式:給予模型一組具有已知正確答案的問題或任務,執行推論,並計算準確率。例如,MMLU 本質上是一場涵蓋從抽象代數到世界宗教等 57 個主題的多選考試。HumanEval 則要求模型撰寫能通過單元測試的 Python 函數。GSM8K 呈現小學程度的數學應用題。基準分數是模型答對的百分比,有時會加權計算,有時會按類別拆分。在底層,許多基準測試會在零次提示(zero-shot)或少量提示(few-shot)設定下評估模型——意即模型在回答前幾乎沒有或只有極少的範例。這樣做是為了測量模型真正的能力,而非針對特定格式的模式匹配。

不斷移動的目標線

AI 基準測試的歷史是一則目標線移動速度遠超所有人預期的故事。2018 年推出的 GLUE 原本被視為語言理解的嚴格測試,但模型在一年內便超越人類基準,因此 2019 年出現了 SuperGLUE。然而 SuperGLUE 也很快被突破。MMLU(2020)設計為能維持更久,確實如此——至少一陣子。到了 2024 年底,前沿模型在 MMLU 上的得分已超過 90%,而社群早已轉向更具挑戰性的測試,例如 MMLU-Pro 和 GPQA(一組博士級科學問題,連領域專家都難以應對)。這種「創造-達到飽和-取代」的循環,正是現代 AI 研究的典型模式。

污染問題

基準測試最大的陷阱在於污染(contamination)。如果測試問題出現在訓練數據中——這在訓練資料涵蓋大部分網際網路時幾乎難以避免——模型可能只是在回憶答案,而非進行推理。有些團隊更進一步,刻意或無意地在訓練過程中優化特定基準測試,這種做法有時被稱為「針對考試進行訓練」(teaching to the test)。這就是為什麼你偶爾會看到一個 MMLU 分數驚人的模型,在實際對話中卻表現平平。Chatbot Arena 等專案則採取完全不同的方法:真實用戶與兩個匿名模型進行對話,並投票評選哪個回應更好。沒有固定問題,也沒有標準答案——只有人類在真實任務上的偏好。這種方法與傳統基準測試的相關性對某些模型來說驚人地低,這告訴你一些關於這些基準測試實際測量內容的重要資訊。

數字所忽略的

還有更細微的問題:基準測試衡量的是容易衡量的內容,不一定是重要的內容。事實回憶和多選推理可以輕鬆自動計分。而幫助性、細膩度、知道何時該說「我不知道」,以及在長對話中保持一致性等特質,則極難量化。這就是為什麼專業實踐者會同時參考一籃子基準測試,以及針對自身使用案例的定性測試。一個在 MMLU 上低 2% 分數,但在你特定領域表現明顯更好的模型,對你來說才是更好的模型。數字只是比較的起點,而非最終判斷。

相關概念

← 所有術語
← 自動化 偏見 →
ESC