训练

损失函数

别名：目标函数

衡量预测有多偏离正确答案的指标。对于LLM：交叉熵损失 = 模型对实际下一个token的“惊讶”程度。训练的目标就是最小化这个值。

为什么重要

训练的指南针。理解损失函数有助于解读训练曲线和诊断问题。

深度解析

交叉熵：−log(P(正确token))。困惑度（perplexity） = exp(损失)。损失不是一切：对齐后的模型可能有更高的损失，但更加实用。

相关概念

← 所有术语

← 指令遵循推测解码 →