Zubnet AIApprendreWiki › Logits
Fondamentaux

Logits

Aussi appelé : Scores bruts, sorties pré-softmax
Les scores bruts et non normalisés qu'un modèle produit avant qu'ils soient convertis en probabilités par la fonction softmax. Pour un modèle de langage, les logits sont un vecteur avec une valeur par token dans le vocabulaire — des valeurs plus élevées indiquent les tokens que le modèle considère plus probables. Les logits sont la sortie la plus informative d'un modèle, contenant plus d'information que la distribution de probabilité finale.

Pourquoi c'est important

Comprendre les logits t'aide à comprendre comment les modèles « pensent ». La température, le top-p et le top-k opèrent tous sur les logits. Le classifier-free guidance en génération d'images manipule les logits. Le biais de logit (ajouter des offsets à des tokens spécifiques) te permet d'orienter le comportement du modèle. Si tu construis des applications IA au-delà du chat basique, tu devras éventuellement travailler directement avec les logits.

En profondeur

La couche finale du modèle produit un vecteur de taille V (taille du vocabulaire, typiquement 32K–128K). Chaque élément est un logit pour ce token. Le softmax les convertit en probabilités : P(token_i) = exp(logit_i) / ∑ exp(logit_j). Avant le softmax, les logits peuvent être n'importe quel nombre réel — positif, négatif ou zéro. Un logit de 10 vs. 5 signifie que le modèle considère le premier token environ e^5 ≈ 150x plus probable.

Manipulation des logits

Plusieurs techniques opèrent directement sur les logits. La température divise tous les logits par T avant le softmax (T<1 accentue, T>1 aplatit). Le top-k met à zéro tous les logits sauf les k plus élevés. Le top-p (échantillonnage par noyau) met à zéro les logits des tokens hors du plus petit ensemble dont la probabilité cumulée dépasse p. Le biais de logit ajoute un offset fixe aux logits de tokens spécifiques — ajouter +10 au logit pour « JSON » fait fortement préférer au modèle de commencer par JSON. La pénalité de répétition réduit les logits des tokens récemment générés.

Log-probabilités

La plupart des API peuvent retourner les log-probabilités (logarithme de la sortie softmax) en parallèle des tokens générés. Elles sont utiles pour : mesurer la confiance du modèle (log-prob basse = incertain), calibrer les sorties (les prédictions à 90 % de confiance sont-elles correctes 90 % du temps ?), et construire des classifieurs à partir de LLM (comparer les log-probs de différentes complétions). Les log-probs sont plus stables numériquement que les probabilités brutes pour les valeurs extrêmes.

Concepts connexes

← Tous les termes
← llama.cpp Lois d'échelle →