Zubnet AIAprenderWiki › Softmax
Fundamentos

Softmax

Softmax Function, Normalized Exponentials
Una función que convierte un vector de números crudos (logits) en una distribución de probabilidad — todos los valores se vuelven positivos y suman 1. Softmax amplifica las diferencias entre valores: la entrada más grande obtiene la probabilidad más alta, y entradas más pequeñas obtienen probabilidades exponencialmente menores. Aparece en mecanismos de atención, salidas de clasificación y predicción de tokens.

Por qué importa

Softmax está en todas partes en la IA moderna. Cada vez que un modelo de lenguaje predice el siguiente token, softmax convierte las salidas crudas del modelo en probabilidades. Cada cabeza de atención usa softmax para calcular pesos de atención. Cada clasificador usa softmax para producir probabilidades de clase. Entender softmax te ayuda a entender temperature, sampling top-p y por qué los modelos son «confiados» incluso cuando están equivocados.

Deep Dive

The formula: softmax(x_i) = exp(x_i) / ∑ exp(x_j). The exponential amplifies differences: if one logit is 10 and another is 5, the ratio after softmax isn't 2:1 but roughly 150:1. This winner-take-most behavior is why models tend to be confident — softmax naturally produces peaked distributions rather than uniform ones.

Temperature and Softmax

Temperature is applied by dividing logits before softmax: softmax(x_i / T). Temperature T=1 is standard. T<1 sharpens the distribution (more confident, more deterministic). T>1 flattens it (more uniform, more random). This is exactly how the "temperature" parameter in LLM APIs works — it's a scalar applied to the logits before the final softmax that selects the next token.

Numerical Stability

A practical implementation detail: computing exp(x) for large values of x causes overflow. The standard fix is to subtract the maximum value from all logits before applying softmax: softmax(x_i - max(x)). This doesn't change the output (the subtracted constant cancels in the ratio) but keeps the numbers in a manageable range. Every production softmax implementation does this, and it's the kind of detail that matters when building from scratch.

Conceptos relacionados

← Todos los términos
← Slop Sparse Attention →