Perplejidad (métrica): Definición y significado — Wiki de IA

Mide qué tan bien un modelo predice texto. exp(pérdida promedio de entropía cruzada). Representa “entre cuántos tokens está eligiendo el modelo.” Menor = mejor.

Por qué importa

La métrica más fundamental para comparar la capacidad bruta de modelado de texto. Pero no mide utilidad ni seguridad.

En profundidad

Fórmula: PPL = exp(−(1/N) Σ log P(token_i | contexto_i)). Si un modelo tiene perplejidad de 10, está efectivamente "eligiendo entre 10 opciones" en promedio para cada token. Un modelo perfecto tendría perplejidad 1 (certeza total); un modelo que adivina aleatoriamente de un vocabulario de 50K tendría perplejidad 50,000.

Comparaciones con cuidado

Solo puedes comparar perplejidad entre modelos que usan el mismo tokenizer y el mismo conjunto de evaluación. Diferentes tokenizers producen diferente número de tokens para el mismo texto, lo que cambia la perplejidad de formas que no reflejan diferencias reales en capacidad. Comparar perplejidad entre GPT y Claude es como comparar notas de exámenes diferentes.

Perplejidad vs utilidad

Los modelos alineados a menudo tienen mayor perplejidad que los modelos base — y esto es una feature, no un bug. La alineación enseña al modelo a producir respuestas que los humanos prefieren, lo que a veces significa desviarse de la predicción más probable del siguiente token. Un modelo que siempre dice "no puedo ayudar con eso" tendría alta perplejidad pero podría ser más seguro. Perplejidad mide predicción cruda, no calidad de producto.

Perplejidad (métrica)

Por qué importa

En profundidad

Comparaciones con cuidado

Perplejidad vs utilidad

Conceptos relacionados