Zubnet AIAprenderWiki › Logits
Fundamentos

Logits

Raw Scores, Pre-Softmax Outputs
Los puntajes crudos no normalizados que un modelo produce antes de que se conviertan en probabilidades por la función softmax. Para un modelo de lenguaje, los logits son un vector con un valor por token en el vocabulario — valores más altos indican tokens que el modelo considera más probables. Los logits son la salida más informativa que un modelo produce, conteniendo más información que la distribución de probabilidad final.

Por qué importa

Entender los logits te ayuda a entender cómo los modelos «piensan». Temperature, top-p y sampling top-k todos operan sobre logits. Classifier-free guidance en generación de imágenes manipula logits. Logit bias (añadir offsets a tokens específicos) te deja guiar el comportamiento del modelo. Si estás construyendo aplicaciones IA más allá del chat básico, eventualmente necesitarás trabajar directamente con logits.

Deep Dive

The model's final layer produces a vector of size V (vocabulary size, typically 32K–128K). Each element is a logit for that token. Softmax converts these to probabilities: P(token_i) = exp(logit_i) / ∑ exp(logit_j). Before softmax, the logits can be any real number — positive, negative, or zero. A logit of 10 vs. 5 means the model considers the first token about e^5 ≈ 150x more likely.

Logit Manipulation

Several techniques work directly on logits. Temperature divides all logits by T before softmax (T<1 sharpens, T>1 flattens). Top-k zeroes out all logits except the k highest. Top-p (nucleus sampling) zeroes out logits for tokens outside the smallest set whose cumulative probability exceeds p. Logit bias adds a fixed offset to specific tokens' logits — adding +10 to the logit for "JSON" makes the model strongly prefer starting with JSON. Repetition penalty reduces logits of recently generated tokens.

Log-Probabilities

Most APIs can return log-probabilities (log of the softmax output) alongside generated tokens. These are useful for: measuring model confidence (low log-prob = uncertain), calibrating outputs (are 90%-confident predictions correct 90% of the time?), and building classifiers from LLMs (compare log-probs of different completions). Log-probs are more numerically stable than raw probabilities for extreme values.

Conceptos relacionados

← Todos los términos
← llama.cpp LoRA →