基础

自回归

别名：自回归模型、下一token预测

一种每次生成一个token的模型，每个新token都基于之前所有token来预测。每一个现代LLM——Claude、GPT、Llama、Gemini——都是自回归的。模型不会“规划”完整回复然后写出来；它实际上是预测下一个词，附加上去，然后再预测下一个，如此反复直到决定停止。

为什么重要

理解自回归生成能解释大多数LLM行为：为什么回复一个token一个token地流式输出，为什么模型有时会在段落中间自我矛盾，为什么更长的输出更慢更贵，以及为什么你不能轻松要求模型“回去修改开头”。模型始终在向前推进，一次一个token。

深度解析

自回归生成听起来很简单——预测下一个token，重复——但其影响深远。模型在每一步都会在整个词汇表上生成一个概率分布。被选中的token取决于温度（temperature）和top-p等采样参数。

为什么它慢

在输入处理阶段，模型可以并行处理所有提示词token——这被称为"预填充"（prefill）阶段。但在生成阶段，每个新token都需要对整个模型进行一次完整的前向传递，而这次传递必须在前一个token确定之后才能开始。这种顺序瓶颈就是为什么输出生成比输入处理慢得多。

只能前进的后果

因为模型只能向前推进，它无法根据后来的洞察修改先前的token。这就是为什么思维链提示有帮助的原因：通过要求模型先思考再回答，你给了它在最终答案之前梳理问题的机会。

替代方案存在

并非所有生成模型都是自回归的。扩散模型一次性生成所有内容然后迭代优化。一些研究探索非自回归文本生成。但对于文本领域，自回归仍然占据主导地位，因为语言具有强烈的顺序结构，而自回归模型天然地利用了这一点。

相关概念

← 所有术语

← 自动化自注意力 →