测试时计算最简单的形式是思维链:模型在最终答案之前生成推理步骤。更复杂的方法包括:思维树(探索多个推理路径并选择最好的)、自一致性(生成多个答案并投票)、以及迭代精化(模型批评和修改自己的输出)。每种方法使用更多的token(= 更多计算 = 更高成本)但产生更好的结果。
像o1(OpenAI)和带扩展思考的Claude这样的模型生成用户看不到的内部推理token。这些“思考token”让模型分解复杂问题、检查自己的工作、考虑边界情况并修改方法——所有这些都在产生可见回复之前完成。成本更高(你需要为思考token付费),延迟更长,但在数学、编码和推理任务上的准确性显著提高。
研究表明,测试时计算遵循自己的缩放定律:将推理计算(思考时间)翻倍会产生可预测的准确性提升,类似于将训练计算翻倍会改善预训练损失。这意味着你可以为每个查询选择质量-成本权衡:简单问题获得快速、便宜的答案;复杂问题获得更长、更昂贵的推理。这种动态分配比对每个查询使用相同的计算量更高效。