衡量預測的錯誤程度。對 LLM 來說:交叉熵損失 = 對實際下一個詞元的驚訝程度。訓練的目標就是最小化這個值。
交叉熵:−log(P(正確詞元))。困惑度 = exp(損失)。損失不代表一切:經過對齊的模型可能有較高的損失,但更加實用。