Zubnet AI學習Wiki › Autoregressive
基礎

Autoregressive(自回歸)

別名:自回歸模型、下一詞元預測

一種逐一生成輸出詞元的模型,其中每個新詞元都是基於之前所有詞元來預測的。每個現代 LLM — Claude、GPT、Llama、Gemini — 都是自回歸的。模型不會先「規劃」完整回應再寫出來;它實際上是預測下一個字、附加上去,然後再預測下一個,不斷重複直到決定停止。

為什麼重要

理解自回歸生成能解釋大多數 LLM 的行為:為什麼回應是逐詞元串流的、為什麼模型有時會在段落中途自相矛盾、為什麼更長的輸出更慢且更昂貴,以及為什麼你無法輕易要求模型「回頭修改開頭」。模型永遠是往前走的,一次一個詞元。

深度解析

自回歸生成聽起來很簡單 — 預測下一個詞元,重複 — 但其影響深遠。模型在每一步都會對其整個詞彙表產生一個機率分布。被選中的詞元取決於取樣參數,例如溫度(temperature)和 top-p。

為什麼很慢

在處理輸入時,模型可以平行處理所有提示詞元 — 這被稱為「預填充」(prefill)階段。但在生成時,每個新詞元都需要通過整個模型的一次完整前向傳播,而這次傳播要等到前一個詞元決定後才能開始。這種序列性瓶頸就是輸出生成比輸入處理慢得多的原因。

只能往前的後果

因為模型只能往前走,它無法根據後來的見解修改先前的詞元。這就是為什麼思維鏈提示有幫助:透過要求模型在回答之前先思考,你給了它在確定最終答案之前先解決問題的機會。

替代方案存在

並非所有生成模型都是自回歸的。擴散模型一次生成所有內容並反覆精煉。一些研究探索了非自回歸的文字生成。但對於文字而言,自回歸仍然佔主導地位,因為語言具有強烈的序列結構,而自回歸模型能自然地利用這一點。

相關概念

← 所有術語