基礎

Perplexity (Metric)（困惑度（指標））

別名：PPL

衡量模型預測文字能力的指標。exp(平均交叉熵損失)。代表「模型在多少個詞元中做選擇」。越低越好。

為什麼重要

比較原始文字建模能力最基礎的指標。但無法衡量實用性或安全性。

公式：PPL = exp(−(1/N) Σ log P(token_i | context_i))。只能在使用相同分詞器/評估集的模型之間比較。經過對齊的模型通常比基礎模型有更高的困惑度 — 這是特性，不是缺陷。