La couche finale du modèle produit un vecteur de taille V (taille du vocabulaire, typiquement 32K–128K). Chaque élément est un logit pour ce token. Le softmax les convertit en probabilités : P(token_i) = exp(logit_i) / ∑ exp(logit_j). Avant le softmax, les logits peuvent être n'importe quel nombre réel — positif, négatif ou zéro. Un logit de 10 vs. 5 signifie que le modèle considère le premier token environ e^5 ≈ 150x plus probable.
Plusieurs techniques opèrent directement sur les logits. La température divise tous les logits par T avant le softmax (T<1 accentue, T>1 aplatit). Le top-k met à zéro tous les logits sauf les k plus élevés. Le top-p (échantillonnage par noyau) met à zéro les logits des tokens hors du plus petit ensemble dont la probabilité cumulée dépasse p. Le biais de logit ajoute un offset fixe aux logits de tokens spécifiques — ajouter +10 au logit pour « JSON » fait fortement préférer au modèle de commencer par JSON. La pénalité de répétition réduit les logits des tokens récemment générés.
La plupart des API peuvent retourner les log-probabilités (logarithme de la sortie softmax) en parallèle des tokens générés. Elles sont utiles pour : mesurer la confiance du modèle (log-prob basse = incertain), calibrer les sorties (les prédictions à 90 % de confiance sont-elles correctes 90 % du temps ?), et construire des classifieurs à partir de LLM (comparer les log-probs de différentes complétions). Les log-probs sont plus stables numériquement que les probabilités brutes pour les valeurs extrêmes.