Función de pérdida: Definición y significado — Wiki de IA

Mide cuán equivocadas están las predicciones. Para LLMs: pérdida de entropía cruzada = cuán sorprendido está el modelo por el token real que viene a continuación. El entrenamiento minimiza esta métrica.

Por qué importa

La brújula del entrenamiento. Entender la pérdida ayuda a interpretar curvas de entrenamiento y diagnosticar problemas.

En profundidad

Entropía cruzada: −log(P(token correcto)). Si el modelo asigna probabilidad 0.9 al token correcto, la pérdida es baja (~0.1). Si asigna 0.01, la pérdida es alta (~4.6). La perplejidad es simplemente exp(pérdida) — representa "entre cuántos tokens está eligiendo el modelo."

La pérdida no lo es todo

Un modelo alineado puede tener mayor pérdida que un modelo base, pero ser mucho más útil. La alineación enseña al modelo a rechazar ciertas respuestas y preferir otras, lo que aumenta la pérdida en el sentido de "predicción del siguiente token" pero mejora la calidad en el sentido humano. Menor pérdida ≠ mejor modelo en producción.

Interpretando curvas de entrenamiento

Cuando la pérdida de entrenamiento baja pero la pérdida de validación sube: sobreajuste. Cuando ambas se estancan: necesitas más datos, más parámetros o un cambio de arquitectura. Cuando la pérdida tiene picos repentinos: inestabilidad numérica o datos corruptos en un batch. Leer curvas de pérdida es una habilidad fundamental del entrenamiento de modelos.

Función de pérdida

Por qué importa

En profundidad

La pérdida no lo es todo

Interpretando curvas de entrenamiento

Conceptos relacionados