推理：定義與含義 — AI 維基

AI模型能夠逐步思考、分解複雜問題，並得出邏輯嚴謹的結論。現代推理模型（如OpenAI的o1/o3與DeepSeek-R1）在回答前會經過訓練以生成明確的推理過程，大幅提升了在數學、程式設計與邏輯任務上的表現。這與單純的模式匹配不同——推理模型可以解決從未見過的問題。

為什麼重要

推理是區分‘聽起來聰明的AI’與‘真正聰明的AI’的前沿能力。推理能力強的模型可以除錯程式碼、證明定理、規劃多步驟策略，並發現自己的錯誤。目前，具備強大推理能力與缺乏此能力的模型之間的差距，是AI領域中最重要的品質差異因素。

深度解析

多年來，語言模型在模仿能力上令人印象深刻，但在推理能力上卻不可靠。若請 GPT-3 解決一個多步驟的數學問題，它往往會直接跳到答案 — 有時正確，有時錯誤，而且無法追溯它是如何偏離正確路徑的。突破來自一個看似簡單卻深具洞察力的發現：如果訓練模型展示其思考過程，它在得出正確答案上的表現會有顯著提升。Chain-of-thought prompting（首次由 Google 研究人員於 2022 年展示）證明，僅在提示中加入「讓我們逐步思考」這句話，就能將數學測試的準確度提高 20–40%。但提示方法僅僅觸及表面。真正的推理模型 — OpenAI 的 o1 和 o3、DeepSeek-R1、Claude 的 extended thinking — 是專門針對生成長度的內部推理過程進行訓練，並使用強化學習來獎勵正確的最終結果，而不管推理過程的路徑如何。

推理模型是如何思考的

推理模型並非只是「更努力地思考」— 它是用不同的方式思考。當你給標準語言模型一個複雜的問題時，它會從左到右生成 token，並在看到完整解答前就承諾每個詞。推理模型則會生成一個延長的思考過程 — 有時是數百甚至數千個 token — 探索不同的方法，在遇到死胡同時回溯，並在承諾最終答案前驗證自己的邏輯。例如，OpenAI 的 o3 模型可能在一個困難的數學問題上花費 10,000 個思考 token，嘗試一種方法，發現缺陷，切換策略，最終收斂到正確的證明。這種在推理時間增加的計算量（通常稱為「測試時間計算」或「思考時間」）是關鍵的權衡：推理模型每個查詢的處理速度較慢且成本較高，但它能解決標準模型根本無法處理的問題。在 AIME（競賽數學）、GPQA（博士級科學）和 SWE-bench（現實世界軟體工程）等測試中，推理模型的表現比非推理模型高出 30–50 個百分點。

訓練方法

建立推理模型需要獨特的訓練流程。基礎是強大的預訓練語言模型，但關鍵步驟是在推理任務上進行強化學習（RL）。DeepSeek 發布了最詳細的說明，他們的 R1 模型：他們首先在良好推理示例上進行監督微調，然後應用 Group Relative Policy Optimization（GRPO）— 一種強化學習的變體，它獎勵正確的最終答案，而不需要單獨的獎勵模型。強化學習階段是魔法發生的地方。模型會自行發現推理策略：將問題分解為子問題、檢查自己的工作、考慮邊界情況，甚至在不確定時表達不確定性。值得注意的是，DeepSeek 發現他們的模型在 RL 訓練期間自發發展出這些行為，而沒有被明確教導 — 正確答案的獎勵信號足以激勵嚴謹的推理。

限制與失敗模式

推理模型並非萬能，其失敗方式可能比標準模型更隱晦。一個常見的問題是「過度思考」— 模型生成了一個看似嚴謹的思考過程，但因為遵循了一條看似合理卻錯誤的邏輯路徑，最終得出錯誤答案。另一個問題是簡單問題的推理成本：問一個推理模型「法國的首都是哪個？」可能會觸發不必要的深思熟慮，浪費 token 和時間。模型也可能表現出「忠誠度」問題，即可見的推理過程實際上並未反映模型的內部計算 — 模型通過模式匹配得出答案，然後生成一個後驗的推理過程來合理化它。此外，長度的推理過程可能會偏離：在一個 5,000-token 的推理過程中，第三步的錯誤可能會傳播到後面的 40 步，產生一個看起來經過仔細推導但實際上錯誤的最終答案。

推理的未來方向

推理研究的趨勢指向能根據問題難度自適應分配思考時間的模型 — 在簡單問題上花費 50 個 token，在困難問題上花費 50,000 個 token。這種「計算最佳化」的推理已經開始出現：OpenAI 和 Anthropic 都提供了能自動擴展思考的模型。除了單次推理，前沿領域是多步驟代理推理 — 能在多次交互中規劃並執行複雜任務，維持連貫策略同時適應新資訊的模型。Claude 的 extended thinking、OpenAI 的 o3 和 DeepSeek-R1 都代表了第一代推理系統。下一代推理系統很可能會將推理與工具使用（計算器、程式碼執行、搜索）結合，用以驗證中間步驟，而不僅依賴模型自身的計算，縮小「能推理的 AI」與「能可靠得出正確答案的 AI」之間的差距。

推理