基礎

Autoregressive（自回歸）

別名：自回歸模型、下一詞元預測

一種逐一生成輸出詞元的模型，其中每個新詞元都是基於之前所有詞元來預測的。每個現代 LLM — Claude、GPT、Llama、Gemini — 都是自回歸的。模型不會先「規劃」完整回應再寫出來；它實際上是預測下一個字、附加上去，然後再預測下一個，不斷重複直到決定停止。

為什麼重要

理解自回歸生成能解釋大多數 LLM 的行為：為什麼回應是逐詞元串流的、為什麼模型有時會在段落中途自相矛盾、為什麼更長的輸出更慢且更昂貴，以及為什麼你無法輕易要求模型「回頭修改開頭」。模型永遠是往前走的，一次一個詞元。

深度解析

自回歸生成聽起來很簡單 — 預測下一個詞元，重複 — 但其影響深遠。模型在每一步都會對其整個詞彙表產生一個機率分布。被選中的詞元取決於取樣參數，例如溫度（temperature）和 top-p。

為什麼很慢

在處理輸入時，模型可以平行處理所有提示詞元 — 這被稱為「預填充」（prefill）階段。但在生成時，每個新詞元都需要通過整個模型的一次完整前向傳播，而這次傳播要等到前一個詞元決定後才能開始。這種序列性瓶頸就是輸出生成比輸入處理慢得多的原因。

只能往前的後果

因為模型只能往前走，它無法根據後來的見解修改先前的詞元。這就是為什麼思維鏈提示有幫助：透過要求模型在回答之前先思考，你給了它在確定最終答案之前先解決問題的機會。

替代方案存在

並非所有生成模型都是自回歸的。擴散模型一次生成所有內容並反覆精煉。一些研究探索了非自回歸的文字生成。但對於文字而言，自回歸仍然佔主導地位，因為語言具有強烈的序列結構，而自回歸模型能自然地利用這一點。

相關概念

← 所有術語