困惑度：定义与含义 — AI 维基

衡量模型预测文本能力的指标。等于exp(平均交叉熵损失)。代表“模型在多少个token之间做选择”。越低越好。

为什么重要

比较原始文本建模能力的最基础指标。但不衡量有用性或安全性。

公式：PPL = exp(−(1/N) Σ log P(token_i | context_i))。只能在使用相同分词器/评估集的模型之间比较。对齐后的模型通常比基座模型有更高的困惑度——这是特性，不是缺陷。