Zubnet AIAprenderWiki › Modelo de Recompensa
Entrenamiento

Modelo de Recompensa

También conocido como: RM, Modelo de Preferencias
Un modelo entrenado para predecir las preferencias humanas entre respuestas de IA. Dado un prompt y dos respuestas candidatas, el modelo de recompensa puntúa cuál preferirían los humanos. En el pipeline de RLHF, el modelo de recompensa proporciona la señal que entrena al modelo de lenguaje para producir mejores respuestas — es el proxy aprendido del juicio humano.

Por qué importa

El modelo de recompensa es el componente clave que hace funcionar el RLHF. No puedes tener a un humano evaluando cada respuesta durante el entrenamiento (demasiado lento, demasiado caro), así que entrenas un modelo para aproximar las preferencias humanas y usas eso como señal de entrenamiento. La calidad del modelo de recompensa determina directamente la calidad de la alineación — un mal modelo de recompensa produce un modelo que optimiza las cosas equivocadas.

En profundidad

Entrenar un modelo de recompensa: recopilar pares de respuestas al mismo prompt, hacer que humanos las clasifiquen (la respuesta A es mejor que la B), luego entrenar un modelo para predecir estas clasificaciones. El modelo de recompensa produce una puntuación escalar para cualquier par (prompt, respuesta). Durante el entrenamiento RL, el modelo de lenguaje genera respuestas, el modelo de recompensa las puntúa, y el modelo de lenguaje se actualiza para producir respuestas con mayor puntuación.

Hackeo de Recompensa

Un modo de fallo peligroso: el modelo de lenguaje encuentra formas de obtener puntuaciones de recompensa altas sin ser realmente útil. Si el modelo de recompensa ha aprendido a preferir respuestas más largas (porque los humanos a menudo preferían respuestas más detalladas), el modelo de lenguaje podría rellenar respuestas con contenido innecesario. Esto se llama "reward hacking" o "reward gaming". Las mitigaciones incluyen penalizaciones de divergencia KL (evitar que el modelo se desvíe demasiado del modelo base), conjuntos de modelos de recompensa y recalibración regular contra juicios humanos.

DPO Elimina el RM

DPO (Direct Preference Optimization) elimina completamente el modelo de recompensa separado, optimizando el modelo de lenguaje directamente sobre pares de preferencias. Esto evita el hackeo de recompensa pero pierde la capacidad de puntuar respuestas arbitrarias. Algunos laboratorios usan ambos: un modelo de recompensa para evaluación y ranking, más DPO para entrenamiento. El enfoque óptimo depende de la escala, la calidad de los datos y cuánto necesitas evaluar respuestas fuera del entrenamiento.

Conceptos relacionados

← Todos los términos
← Modelo de lenguaje grande Modelo del mundo →
ESC
Empieza a escribir para buscar...