AI模型能夠逐步思考、分解複雜問題,並得出邏輯嚴謹的結論。現代推理模型(如OpenAI的o1/o3與DeepSeek-R1)在回答前會經過訓練以生成明確的推理過程,大幅提升了在數學、程式設計與邏輯任務上的表現。這與單純的模式匹配不同——推理模型可以解決從未見過的問題。
多年來,語言模型在模仿能力上令人印象深刻,但在推理能力上卻不可靠。若請 GPT-3 解決一個多步驟的數學問題,它往往會直接跳到答案 — 有時正確,有時錯誤,而且無法追溯它是如何偏離正確路徑的。突破來自一個看似簡單卻深具洞察力的發現:如果訓練模型展示其思考過程,它在得出正確答案上的表現會有顯著提升。Chain-of-thought prompting(首次由 Google 研究人員於 2022 年展示)證明,僅在提示中加入「讓我們逐步思考」這句話,就能將數學測試的準確度提高 20–40%。但提示方法僅僅觸及表面。真正的推理模型 — OpenAI 的 o1 和 o3、DeepSeek-R1、Claude 的 extended thinking — 是專門針對生成長度的內部推理過程進行訓練,並使用強化學習來獎勵正確的最終結果,而不管推理過程的路徑如何。
推理模型並非只是「更努力地思考」— 它是用不同的方式思考。當你給標準語言模型一個複雜的問題時,它會從左到右生成 token,並在看到完整解答前就承諾每個詞。推理模型則會生成一個延長的思考過程 — 有時是數百甚至數千個 token — 探索不同的方法,在遇到死胡同時回溯,並在承諾最終答案前驗證自己的邏輯。例如,OpenAI 的 o3 模型可能在一個困難的數學問題上花費 10,000 個思考 token,嘗試一種方法,發現缺陷,切換策略,最終收斂到正確的證明。這種在推理時間增加的計算量(通常稱為「測試時間計算」或「思考時間」)是關鍵的權衡:推理模型每個查詢的處理速度較慢且成本較高,但它能解決標準模型根本無法處理的問題。在 AIME(競賽數學)、GPQA(博士級科學)和 SWE-bench(現實世界軟體工程)等測試中,推理模型的表現比非推理模型高出 30–50 個百分點。
建立推理模型需要獨特的訓練流程。基礎是強大的預訓練語言模型,但關鍵步驟是在推理任務上進行強化學習(RL)。DeepSeek 發布了最詳細的說明,他們的 R1 模型:他們首先在良好推理示例上進行監督微調,然後應用 Group Relative Policy Optimization(GRPO)— 一種強化學習的變體,它獎勵正確的最終答案,而不需要單獨的獎勵模型。強化學習階段是魔法發生的地方。模型會自行發現推理策略:將問題分解為子問題、檢查自己的工作、考慮邊界情況,甚至在不確定時表達不確定性。值得注意的是,DeepSeek 發現他們的模型在 RL 訓練期間自發發展出這些行為,而沒有被明確教導 — 正確答案的獎勵信號足以激勵嚴謹的推理。
推理模型並非萬能,其失敗方式可能比標準模型更隱晦。一個常見的問題是「過度思考」— 模型生成了一個看似嚴謹的思考過程,但因為遵循了一條看似合理卻錯誤的邏輯路徑,最終得出錯誤答案。另一個問題是簡單問題的推理成本:問一個推理模型「法國的首都是哪個?」可能會觸發不必要的深思熟慮,浪費 token 和時間。模型也可能表現出「忠誠度」問題,即可見的推理過程實際上並未反映模型的內部計算 — 模型通過模式匹配得出答案,然後生成一個後驗的推理過程來合理化它。此外,長度的推理過程可能會偏離:在一個 5,000-token 的推理過程中,第三步的錯誤可能會傳播到後面的 40 步,產生一個看起來經過仔細推導但實際上錯誤的最終答案。
推理研究的趨勢指向能根據問題難度自適應分配思考時間的模型 — 在簡單問題上花費 50 個 token,在困難問題上花費 50,000 個 token。這種「計算最佳化」的推理已經開始出現:OpenAI 和 Anthropic 都提供了能自動擴展思考的模型。除了單次推理,前沿領域是多步驟代理推理 — 能在多次交互中規劃並執行複雜任務,維持連貫策略同時適應新資訊的模型。Claude 的 extended thinking、OpenAI 的 o3 和 DeepSeek-R1 都代表了第一代推理系統。下一代推理系統很可能會將推理與工具使用(計算器、程式碼執行、搜索)結合,用以驗證中間步驟,而不僅依賴模型自身的計算,縮小「能推理的 AI」與「能可靠得出正確答案的 AI」之間的差距。