衡量模型預測文字能力的指標。exp(平均交叉熵損失)。代表「模型在多少個詞元中做選擇」。越低越好。
公式:PPL = exp(−(1/N) Σ log P(token_i | context_i))。只能在使用相同分詞器/評估集的模型之間比較。經過對齊的模型通常比基礎模型有更高的困惑度 — 這是特性,不是缺陷。