Zubnet AI學習Wiki › 測試時計算
基礎

測試時計算

別名:推論時計算、思維鏈、思考 Token

在推論過程中(模型生成回應時)使用額外計算以提高答案品質。模型不是立即生成答案,而是「思考」更長的時間 — 生成推理 token、探索多種方法或驗證自己的輸出。在測試時使用更多計算會產生更好的答案,特別是對於複雜的推理任務。

為什麼重要

測試時計算是最新的規模化範式。第一個時代擴展訓練計算(更大的模型、更多的資料)。當前時代也擴展推論計算(每個問題更多的思考)。像 o1 和具有延伸思考的 Claude 這樣的模型表明,讓模型思考 30 秒往往優於在 2 秒內回答的模型,即使快速模型在技術上更大。這改變了經濟模型:品質成為你願意在每次查詢上花費多少的函數。

深度解析

測試時計算最簡單的形式是思維鏈:模型在最終答案之前生成推理步驟。更複雜的方法包括:思維樹(探索多條推理路徑並選擇最佳的)、自一致性(生成多個答案並投票),以及迭代精煉(模型批評並修改自己的輸出)。每種方法使用更多 token(= 更多計算 = 更多成本)但產生更好的結果。

延伸思考

像 o1(OpenAI)和具有延伸思考功能的 Claude 這樣的模型生成使用者看不到的內部推理 token。這些「思考 token」讓模型能分解複雜問題、檢查自己的工作、考慮邊界情況並修改方法 — 所有這些都在產生可見回應之前完成。成本更高(你需要為思考 token 付費)且延遲更長,但數學、程式設計和推理任務的準確度大幅提高。

推論的縮放定律

研究表明,測試時計算遵循自己的縮放定律:將推論計算(思考時間)翻倍會產生可預測的準確度改進,類似於將訓練計算翻倍如何改善預訓練損失。這意味著你可以按每次查詢選擇品質-成本的權衡:簡單的問題獲得快速、便宜的答案;複雜的問題獲得更長、更昂貴的推理。這種動態分配比對每個查詢使用相同的計算更有效率。

相關概念

← 所有術語
← 混合精度訓練 湧現 →
ESC