一種逐一生成輸出詞元的模型,其中每個新詞元都是基於之前所有詞元來預測的。每個現代 LLM — Claude、GPT、Llama、Gemini — 都是自回歸的。模型不會先「規劃」完整回應再寫出來;它實際上是預測下一個字、附加上去,然後再預測下一個,不斷重複直到決定停止。
自回歸生成聽起來很簡單 — 預測下一個詞元,重複 — 但其影響深遠。模型在每一步都會對其整個詞彙表產生一個機率分布。被選中的詞元取決於取樣參數,例如溫度(temperature)和 top-p。
在處理輸入時,模型可以平行處理所有提示詞元 — 這被稱為「預填充」(prefill)階段。但在生成時,每個新詞元都需要通過整個模型的一次完整前向傳播,而這次傳播要等到前一個詞元決定後才能開始。這種序列性瓶頸就是輸出生成比輸入處理慢得多的原因。
因為模型只能往前走,它無法根據後來的見解修改先前的詞元。這就是為什麼思維鏈提示有幫助:透過要求模型在回答之前先思考,你給了它在確定最終答案之前先解決問題的機會。
並非所有生成模型都是自回歸的。擴散模型一次生成所有內容並反覆精煉。一些研究探索了非自回歸的文字生成。但對於文字而言,自回歸仍然佔主導地位,因為語言具有強烈的序列結構,而自回歸模型能自然地利用這一點。