Fórmula: PPL = exp(−(1/N) Σ log P(token_i | contexto_i)). Si un modelo tiene perplejidad de 10, está efectivamente "eligiendo entre 10 opciones" en promedio para cada token. Un modelo perfecto tendría perplejidad 1 (certeza total); un modelo que adivina aleatoriamente de un vocabulario de 50K tendría perplejidad 50,000.
Solo puedes comparar perplejidad entre modelos que usan el mismo tokenizer y el mismo conjunto de evaluación. Diferentes tokenizers producen diferente número de tokens para el mismo texto, lo que cambia la perplejidad de formas que no reflejan diferencias reales en capacidad. Comparar perplejidad entre GPT y Claude es como comparar notas de exámenes diferentes.
Los modelos alineados a menudo tienen mayor perplejidad que los modelos base — y esto es una feature, no un bug. La alineación enseña al modelo a producir respuestas que los humanos prefieren, lo que a veces significa desviarse de la predicción más probable del siguiente token. Un modelo que siempre dice "no puedo ayudar con eso" tendría alta perplejidad pero podría ser más seguro. Perplejidad mide predicción cruda, no calidad de producto.