多年来,语言模型都是令人印象深刻的模仿者,但却是不可靠的思考者。让GPT-3解决一个多步骤的数学问题时,它通常会直接跳到答案——有时正确,但经常错误,且无法追溯其出错的路径。突破来自于一个看似简单的洞察:如果你训练模型展示其思考过程,它在得出正确答案方面的表现会显著提升。链式思维提示(首次由谷歌研究人员于2022年展示)表明,仅在提示中添加“让我们逐步思考”就能将数学基准测试的准确率提升20–40%。但提示仅触及表面。真正的推理模型——OpenAI的o1和o3、DeepSeek-R1、Claude的扩展思考——专门训练生成在得出答案前的长内部推理轨迹,并使用强化学习来奖励正确的最终结果,无论推理路径如何。
推理模型并不是仅仅“更努力地思考”——它思考的方式不同。当你给一个标准语言模型一个复杂问题时,它从左到右生成令牌,每个词生成前就确定下来,而不会看到完整的解决方案。推理模型生成一个扩展的思考链——有时数百或数千个令牌——探索方法,在遇到死胡同时回溯,并在确定最终答案前验证自己的逻辑。例如,OpenAI的o3模型可能在解决一个困难的数学问题时花费10,000个思考令牌,尝试一种方法,识别出缺陷,切换策略,最终得出正确的证明。这种推理时的额外计算(通常称为“测试时计算”或“思考时间”)是关键权衡:推理模型每个查询更慢且更昂贵,但它们能解决标准模型根本无法解决的问题。在AIME(竞赛数学)、GPQA(博士级科学)和SWE-bench(现实世界软件工程)等基准测试中,推理模型比非推理模型高出30–50个百分点。
构建推理模型涉及独特的训练流程。基础是一个强大的预训练语言模型,但关键步骤是在推理任务上进行强化学习(RL)。DeepSeek发布了最详细的描述,他们的R1模型:他们首先在良好推理示例上进行监督微调,然后应用组相对策略优化(GRPO)——一种强化学习的变体,奖励正确最终答案,而无需单独的奖励模型。RL阶段是魔法发生的地方。模型自行发现推理策略:将问题分解为子问题,检查自己的工作,考虑边缘情况,甚至在不确定时表达不确定性。值得注意的是,DeepSeek发现他们的模型在RL训练中自发发展出这些行为,而没有被明确教授——正确答案的奖励信号足以激励严谨的推理。
推理模型并非万能,其失败可能比标准模型更微妙。一个常见问题是“过度思考”——模型生成一个看似严谨的思考链,但由于遵循了看似合理但错误的逻辑路径,最终得出错误答案。另一个问题是简单问题的推理成本:向推理模型提问“法国的首都是哪里?”可能会触发不必要的深思熟虑,浪费令牌和时间。模型还可能表现出“忠实性”问题,即可见的推理链并不反映模型的内部计算——模型通过模式匹配得出答案,然后生成一个事后合理化的推理轨迹。此外,长推理链可能偏离:在一个5,000个令牌的思考链中,第3步的错误可能通过剩余的40步传播,产生一个看似精心推导的自信错误最终答案。
推理研究的轨迹指向能够根据问题难度自适应分配思考时间的模型——在简单问题上花费50个令牌,在困难问题上花费50,000个令牌。这种“计算最优”推理已经出现:OpenAI和Anthropic都提供了自动扩展思考的模型。除了单次推理,前沿是多步骤代理推理——能够在多次交互中规划和执行复杂任务,保持连贯策略并适应新信息。Claude的扩展思考、OpenAI的o3和DeepSeek-R1都代表了第一代推理系统。下一代很可能将推理与工具使用(计算器、代码执行、搜索)结合,以验证中间步骤,而不仅仅依赖模型自身的计算,从而弥合“能推理的AI”和“能可靠得出正确答案的AI”之间的差距。