衡量预测有多偏离正确答案的指标。对于LLM:交叉熵损失 = 模型对实际下一个token的“惊讶”程度。训练的目标就是最小化这个值。
训练的指南针。理解损失函数有助于解读训练曲线和诊断问题。
交叉熵:−log(P(正确token))。困惑度(perplexity) = exp(损失)。损失不是一切:对齐后的模型可能有更高的损失,但更加实用。