测试时计算：定义与含义 — AI 维基

在推理期间（当模型生成回复时）使用额外计算来提高回答质量。模型不是立即生成答案，而是“思考”更长时间——生成推理token、探索多种方法或验证自己的输出。在测试时使用更多计算会产生更好的答案，特别是对于复杂推理任务。

为什么重要

测试时计算是最新的缩放范式。第一个时代扩展训练计算（更大的模型、更多的数据）。当前时代也扩展推理计算（每个问题更多的思考）。像o1和带扩展思考的Claude这样的模型表明，让模型推理30秒通常优于在2秒内回答的模型，即使快速模型技术上更大。这改变了经济学：质量成为你愿意为每个查询花费多少的函数。

深度解析

测试时计算最简单的形式是思维链：模型在最终答案之前生成推理步骤。更复杂的方法包括：思维树（探索多个推理路径并选择最好的）、自一致性（生成多个答案并投票）、以及迭代精化（模型批评和修改自己的输出）。每种方法使用更多的token（= 更多计算 = 更高成本）但产生更好的结果。

扩展思考

像o1（OpenAI）和带扩展思考的Claude这样的模型生成用户看不到的内部推理token。这些“思考token”让模型分解复杂问题、检查自己的工作、考虑边界情况并修改方法——所有这些都在产生可见回复之前完成。成本更高（你需要为思考token付费），延迟更长，但在数学、编码和推理任务上的准确性显著提高。

推理的缩放定律

研究表明，测试时计算遵循自己的缩放定律：将推理计算（思考时间）翻倍会产生可预测的准确性提升，类似于将训练计算翻倍会改善预训练损失。这意味着你可以为每个查询选择质量-成本权衡：简单问题获得快速、便宜的答案；复杂问题获得更长、更昂贵的推理。这种动态分配比对每个查询使用相同的计算量更高效。

测试时计算

为什么重要

深度解析

扩展思考

推理的缩放定律

相关概念