Perplexidade (Métrica): Definição e significado — Wiki de IA

Mede quão bem um modelo prevê texto. exp(média da perda de entropia cruzada). Representa “entre quantos tokens o modelo está escolhendo.” Menor = melhor.

Por que isso importa

Métrica mais fundamental para comparar capacidade bruta de modelagem de texto. Mas não mede utilidade ou segurança.

Em profundidade

Fórmula: PPL = exp(−(1/N) Σ log P(token_i | contexto_i)). Só pode comparar modelos com mesmo tokenizer/conjunto de avaliação. Modelos alinhados frequentemente têm perplexidade mais alta que modelos base — feature, não bug.

A Intuição

Perplexidade de 10 significa que, em média, o modelo está “tão confuso quanto se estivesse escolhendo uniformemente entre 10 opções” a cada token. Perplexidade de 1 seria predição perfeita. Modelos de fronteira têm perplexidade entre 3 e 10 em benchmarks padrão, dependendo do domínio e do tokenizer.

Armadilhas de Comparação

Comparar perplexidade entre modelos diferentes é traiçoeiro. Tokenizers diferentes significam que o “N” na fórmula é diferente — um modelo com vocabulário maior produz menos tokens para o mesmo texto, inflando artificialmente a perplexidade. Modelos alinhados (RLHF/DPO) têm perplexidade maior que o modelo base porque priorizam respostas úteis sobre imitar a distribuição dos dados.

Perplexidade (Métrica)

Por que isso importa

Em profundidade

A Intuição

Armadilhas de Comparação

Conceitos relacionados