Mesure à quel point un modèle prédit bien le texte. exp(perte d'entropie croisée moyenne). Représente « entre combien de tokens le modèle hésite ». Plus bas = mieux.
Pourquoi c'est important
La métrique la plus fondamentale pour comparer la capacité brute de modélisation de texte. Mais ne mesure ni l'utilité ni la sécurité.
En profondeur
Formule : PPL = exp(−(1/N) Σ log P(token_i | contexte_i)). On ne peut comparer que des modèles avec le même tokenizer et le même jeu d'évaluation. Les modèles alignés ont souvent une perplexité plus élevée que les modèles de base — c'est une feature, pas un bug.