Zubnet AI学习Wiki › 自回归
基础

自回归

别名:自回归模型、下一token预测

一种每次生成一个token的模型,每个新token都基于之前所有token来预测。每一个现代LLM——Claude、GPT、Llama、Gemini——都是自回归的。模型不会“规划”完整回复然后写出来;它实际上是预测下一个词,附加上去,然后再预测下一个,如此反复直到决定停止。

为什么重要

理解自回归生成能解释大多数LLM行为:为什么回复一个token一个token地流式输出,为什么模型有时会在段落中间自我矛盾,为什么更长的输出更慢更贵,以及为什么你不能轻松要求模型“回去修改开头”。模型始终在向前推进,一次一个token。

深度解析

自回归生成听起来很简单——预测下一个token,重复——但其影响深远。模型在每一步都会在整个词汇表上生成一个概率分布。被选中的token取决于温度(temperature)和top-p等采样参数。

为什么它慢

在输入处理阶段,模型可以并行处理所有提示词token——这被称为"预填充"(prefill)阶段。但在生成阶段,每个新token都需要对整个模型进行一次完整的前向传递,而这次传递必须在前一个token确定之后才能开始。这种顺序瓶颈就是为什么输出生成比输入处理慢得多。

只能前进的后果

因为模型只能向前推进,它无法根据后来的洞察修改先前的token。这就是为什么思维链提示有帮助的原因:通过要求模型先思考再回答,你给了它在最终答案之前梳理问题的机会。

替代方案存在

并非所有生成模型都是自回归的。扩散模型一次性生成所有内容然后迭代优化。一些研究探索非自回归文本生成。但对于文本领域,自回归仍然占据主导地位,因为语言具有强烈的顺序结构,而自回归模型天然地利用了这一点。

相关概念

← 所有术语
← 自动化 自注意力 →