測試時計算：定義與含義 — AI 維基

在推論過程中（模型生成回應時）使用額外計算以提高答案品質。模型不是立即生成答案，而是「思考」更長的時間 — 生成推理 token、探索多種方法或驗證自己的輸出。在測試時使用更多計算會產生更好的答案，特別是對於複雜的推理任務。

為什麼重要

測試時計算是最新的規模化範式。第一個時代擴展訓練計算（更大的模型、更多的資料）。當前時代也擴展推論計算（每個問題更多的思考）。像 o1 和具有延伸思考的 Claude 這樣的模型表明，讓模型思考 30 秒往往優於在 2 秒內回答的模型，即使快速模型在技術上更大。這改變了經濟模型：品質成為你願意在每次查詢上花費多少的函數。

深度解析

測試時計算最簡單的形式是思維鏈：模型在最終答案之前生成推理步驟。更複雜的方法包括：思維樹（探索多條推理路徑並選擇最佳的）、自一致性（生成多個答案並投票），以及迭代精煉（模型批評並修改自己的輸出）。每種方法使用更多 token（= 更多計算 = 更多成本）但產生更好的結果。

延伸思考

像 o1（OpenAI）和具有延伸思考功能的 Claude 這樣的模型生成使用者看不到的內部推理 token。這些「思考 token」讓模型能分解複雜問題、檢查自己的工作、考慮邊界情況並修改方法 — 所有這些都在產生可見回應之前完成。成本更高（你需要為思考 token 付費）且延遲更長，但數學、程式設計和推理任務的準確度大幅提高。

推論的縮放定律

研究表明，測試時計算遵循自己的縮放定律：將推論計算（思考時間）翻倍會產生可預測的準確度改進，類似於將訓練計算翻倍如何改善預訓練損失。這意味著你可以按每次查詢選擇品質-成本的權衡：簡單的問題獲得快速、便宜的答案；複雜的問題獲得更長、更昂貴的推理。這種動態分配比對每個查詢使用相同的計算更有效率。

測試時計算

為什麼重要

深度解析

延伸思考

推論的縮放定律

相關概念