Logits：定義與含義 — AI 維基

模型在透過 softmax 函數轉換為機率之前輸出的原始、未正規化的分數。對於語言模型，logits 是一個向量，詞彙表中每個 token 對應一個值——更高的值表示模型認為更可能的 token。Logits 是模型產生的最具資訊量的輸出，包含比最終機率分布更多的資訊。

為什麼重要

理解 logits 有助於你理解模型如何「思考」。溫度、top-p 和 top-k 取樣都操作在 logits 上。影像生成中的無分類器引導操縱 logits。Logit 偏差（為特定 token 增加偏移量）讓你能引導模型行為。如果你正在建構超越基本聊天的 AI 應用程式，你最終會需要直接處理 logits。

深度解析

模型的最後一層產生一個大小為 V（詞彙表大小，通常為 32K–128K）的向量。每個元素是該 token 的 logit。Softmax 將這些轉換為機率：P(token_i) = exp(logit_i) / ∑ exp(logit_j)。在 softmax 之前，logits 可以是任何實數——正數、負數或零。logit 為 10 vs. 5 意味著模型認為第一個 token 大約 e^5 ≈ 150 倍更可能。

Logit 操作

多種技術直接在 logits 上操作。溫度在 softmax 之前將所有 logits 除以 T（T<1 銳化、T>1 平坦化）。Top-k 將除最高 k 個外的所有 logits 歸零。Top-p（核取樣）將累積機率超過 p 的最小集合之外的 token 的 logits 歸零。Logit 偏差為特定 token 的 logits 增加固定偏移量——為「JSON」的 logit 加 +10 會使模型強烈偏好以 JSON 開頭。重複懲罰降低最近生成的 token 的 logits。

對數機率

大多數 API 可以返回對數機率（softmax 輸出的對數）與生成的 token 一起。這些對於以下用途很有用：測量模型信心（低對數機率 = 不確定）、校準輸出（90% 信心的預測有 90% 的時間是正確的嗎？），以及從 LLM 建構分類器（比較不同補全的對數機率）。對數機率在極端值上比原始機率更具數值穩定性。

Logits

為什麼重要

深度解析

Logit 操作

對數機率

相關概念