Entrenar un modelo de recompensa: recopilar pares de respuestas al mismo prompt, hacer que humanos las clasifiquen (la respuesta A es mejor que la B), luego entrenar un modelo para predecir estas clasificaciones. El modelo de recompensa produce una puntuación escalar para cualquier par (prompt, respuesta). Durante el entrenamiento RL, el modelo de lenguaje genera respuestas, el modelo de recompensa las puntúa, y el modelo de lenguaje se actualiza para producir respuestas con mayor puntuación.
Un modo de fallo peligroso: el modelo de lenguaje encuentra formas de obtener puntuaciones de recompensa altas sin ser realmente útil. Si el modelo de recompensa ha aprendido a preferir respuestas más largas (porque los humanos a menudo preferían respuestas más detalladas), el modelo de lenguaje podría rellenar respuestas con contenido innecesario. Esto se llama "reward hacking" o "reward gaming". Las mitigaciones incluyen penalizaciones de divergencia KL (evitar que el modelo se desvíe demasiado del modelo base), conjuntos de modelos de recompensa y recalibración regular contra juicios humanos.
DPO (Direct Preference Optimization) elimina completamente el modelo de recompensa separado, optimizando el modelo de lenguaje directamente sobre pares de preferencias. Esto evita el hackeo de recompensa pero pierde la capacidad de puntuar respuestas arbitrarias. Algunos laboratorios usan ambos: un modelo de recompensa para evaluación y ranking, más DPO para entrenamiento. El enfoque óptimo depende de la escala, la calidad de los datos y cuánto necesitas evaluar respuestas fuera del entrenamiento.