Zubnet AIApprendreWiki › Softmax
Fondamentaux

Softmax

Softmax Function, Normalized Exponentials
Une fonction qui convertit un vecteur de nombres bruts (logits) en une distribution de probabilités — toutes les valeurs deviennent positives et totalisent 1. Le softmax amplifie les différences entre les valeurs : la plus grande entrée obtient la probabilité la plus haute, et les entrées plus petites obtiennent des probabilités exponentiellement plus petites. Il apparaît dans les mécanismes d'attention, les sorties de classification et la prédiction de tokens.

Pourquoi c'est important

Le softmax est partout dans l'IA moderne. Chaque fois qu'un modèle de langage prédit le prochain token, le softmax convertit les sorties brutes du modèle en probabilités. Chaque tête d'attention utilise le softmax pour calculer les poids d'attention. Chaque classifieur utilise le softmax pour produire les probabilités de classe. Comprendre le softmax t'aide à comprendre la temperature, le sampling top-p et pourquoi les modèles sont « confiants » même quand ils ont tort.

Deep Dive

The formula: softmax(x_i) = exp(x_i) / ∑ exp(x_j). The exponential amplifies differences: if one logit is 10 and another is 5, the ratio after softmax isn't 2:1 but roughly 150:1. This winner-take-most behavior is why models tend to be confident — softmax naturally produces peaked distributions rather than uniform ones.

Temperature and Softmax

Temperature is applied by dividing logits before softmax: softmax(x_i / T). Temperature T=1 is standard. T<1 sharpens the distribution (more confident, more deterministic). T>1 flattens it (more uniform, more random). This is exactly how the "temperature" parameter in LLM APIs works — it's a scalar applied to the logits before the final softmax that selects the next token.

Numerical Stability

A practical implementation detail: computing exp(x) for large values of x causes overflow. The standard fix is to subtract the maximum value from all logits before applying softmax: softmax(x_i - max(x)). This doesn't change the output (the subtracted constant cancels in the ratio) but keeps the numbers in a manageable range. Every production softmax implementation does this, and it's the kind of detail that matters when building from scratch.

Concepts liés

← Tous les termes
← Slop Sparse Attention →