Fórmula: PPL = exp(−(1/N) Σ log P(token_i | contexto_i)). Só pode comparar modelos com mesmo tokenizer/conjunto de avaliação. Modelos alinhados frequentemente têm perplexidade mais alta que modelos base — feature, não bug.
Perplexidade de 10 significa que, em média, o modelo está “tão confuso quanto se estivesse escolhendo uniformemente entre 10 opções” a cada token. Perplexidade de 1 seria predição perfeita. Modelos de fronteira têm perplexidade entre 3 e 10 em benchmarks padrão, dependendo do domínio e do tokenizer.
Comparar perplexidade entre modelos diferentes é traiçoeiro. Tokenizers diferentes significam que o “N” na fórmula é diferente — um modelo com vocabulário maior produz menos tokens para o mesmo texto, inflando artificialmente a perplexidade. Modelos alinhados (RLHF/DPO) têm perplexidade maior que o modelo base porque priorizam respostas úteis sobre imitar a distribuição dos dados.