推理：定义与含义 — AI 维基

AI模型逐步思考、分解复杂问题并得出逻辑严谨结论的能力。现代推理模型（如OpenAI的o1/o3和DeepSeek-R1）在回答前会生成明确的推理过程，显著提升了数学、编程和逻辑任务的表现。这与简单的模式匹配不同——推理模型能够解决前所未见的问题。

为什么重要

推理是区分“听起来聪明的AI”—与“真正聪明的AI”的关键能力。具备良好推理能力的模型可以调试代码、证明定理、制定多步骤策略，并发现并纠正自己的错误。目前，具备和不具备强大推理能力的模型之间的差距，是人工智能领域中最重要的质量区分因素。

深度解析

多年来，语言模型都是令人印象深刻的模仿者，但却是不可靠的思考者。让GPT-3解决一个多步骤的数学问题时，它通常会直接跳到答案——有时正确，但经常错误，且无法追溯其出错的路径。突破来自于一个看似简单的洞察：如果你训练模型展示其思考过程，它在得出正确答案方面的表现会显著提升。链式思维提示（首次由谷歌研究人员于2022年展示）表明，仅在提示中添加“让我们逐步思考”就能将数学基准测试的准确率提升20–40%。但提示仅触及表面。真正的推理模型——OpenAI的o1和o3、DeepSeek-R1、Claude的扩展思考——专门训练生成在得出答案前的长内部推理轨迹，并使用强化学习来奖励正确的最终结果，无论推理路径如何。

推理模型是如何思考的

推理模型并不是仅仅“更努力地思考”——它思考的方式不同。当你给一个标准语言模型一个复杂问题时，它从左到右生成令牌，每个词生成前就确定下来，而不会看到完整的解决方案。推理模型生成一个扩展的思考链——有时数百或数千个令牌——探索方法，在遇到死胡同时回溯，并在确定最终答案前验证自己的逻辑。例如，OpenAI的o3模型可能在解决一个困难的数学问题时花费10,000个思考令牌，尝试一种方法，识别出缺陷，切换策略，最终得出正确的证明。这种推理时的额外计算（通常称为“测试时计算”或“思考时间”）是关键权衡：推理模型每个查询更慢且更昂贵，但它们能解决标准模型根本无法解决的问题。在AIME（竞赛数学）、GPQA（博士级科学）和SWE-bench（现实世界软件工程）等基准测试中，推理模型比非推理模型高出30–50个百分点。

训练方法

构建推理模型涉及独特的训练流程。基础是一个强大的预训练语言模型，但关键步骤是在推理任务上进行强化学习（RL）。DeepSeek发布了最详细的描述，他们的R1模型：他们首先在良好推理示例上进行监督微调，然后应用组相对策略优化（GRPO）——一种强化学习的变体，奖励正确最终答案，而无需单独的奖励模型。RL阶段是魔法发生的地方。模型自行发现推理策略：将问题分解为子问题，检查自己的工作，考虑边缘情况，甚至在不确定时表达不确定性。值得注意的是，DeepSeek发现他们的模型在RL训练中自发发展出这些行为，而没有被明确教授——正确答案的奖励信号足以激励严谨的推理。

局限性和失败模式

推理模型并非万能，其失败可能比标准模型更微妙。一个常见问题是“过度思考”——模型生成一个看似严谨的思考链，但由于遵循了看似合理但错误的逻辑路径，最终得出错误答案。另一个问题是简单问题的推理成本：向推理模型提问“法国的首都是哪里？”可能会触发不必要的深思熟虑，浪费令牌和时间。模型还可能表现出“忠实性”问题，即可见的推理链并不反映模型的内部计算——模型通过模式匹配得出答案，然后生成一个事后合理化的推理轨迹。此外，长推理链可能偏离：在一个5,000个令牌的思考链中，第3步的错误可能通过剩余的40步传播，产生一个看似精心推导的自信错误最终答案。

推理的未来方向

推理研究的轨迹指向能够根据问题难度自适应分配思考时间的模型——在简单问题上花费50个令牌，在困难问题上花费50,000个令牌。这种“计算最优”推理已经出现：OpenAI和Anthropic都提供了自动扩展思考的模型。除了单次推理，前沿是多步骤代理推理——能够在多次交互中规划和执行复杂任务，保持连贯策略并适应新信息。Claude的扩展思考、OpenAI的o3和DeepSeek-R1都代表了第一代推理系统。下一代很可能将推理与工具使用（计算器、代码执行、搜索）结合，以验证中间步骤，而不仅仅依赖模型自身的计算，从而弥合“能推理的AI”和“能可靠得出正确答案的AI”之间的差距。

推理