Zubnet AI学习Wiki › 测试时计算
基础

测试时计算

别名:推理时计算、思维链、思考token
在推理期间(当模型生成回复时)使用额外计算来提高回答质量。模型不是立即生成答案,而是“思考”更长时间——生成推理token、探索多种方法或验证自己的输出。在测试时使用更多计算会产生更好的答案,特别是对于复杂推理任务。

为什么重要

测试时计算是最新的缩放范式。第一个时代扩展训练计算(更大的模型、更多的数据)。当前时代也扩展推理计算(每个问题更多的思考)。像o1和带扩展思考的Claude这样的模型表明,让模型推理30秒通常优于在2秒内回答的模型,即使快速模型技术上更大。这改变了经济学:质量成为你愿意为每个查询花费多少的函数。

深度解析

测试时计算最简单的形式是思维链:模型在最终答案之前生成推理步骤。更复杂的方法包括:思维树(探索多个推理路径并选择最好的)、自一致性(生成多个答案并投票)、以及迭代精化(模型批评和修改自己的输出)。每种方法使用更多的token(= 更多计算 = 更高成本)但产生更好的结果。

扩展思考

像o1(OpenAI)和带扩展思考的Claude这样的模型生成用户看不到的内部推理token。这些“思考token”让模型分解复杂问题、检查自己的工作、考虑边界情况并修改方法——所有这些都在产生可见回复之前完成。成本更高(你需要为思考token付费),延迟更长,但在数学、编码和推理任务上的准确性显著提高。

推理的缩放定律

研究表明,测试时计算遵循自己的缩放定律:将推理计算(思考时间)翻倍会产生可预测的准确性提升,类似于将训练计算翻倍会改善预训练损失。这意味着你可以为每个查询选择质量-成本权衡:简单问题获得快速、便宜的答案;复杂问题获得更长、更昂贵的推理。这种动态分配比对每个查询使用相同的计算量更高效。

相关概念

← 所有术语
← 流式传输 涌现 →