Zubnet AIAprenderWiki › RLHF
Entrenamiento

RLHF

También conocido como: Aprendizaje por refuerzo a partir de retroalimentación humana
Una técnica de entrenamiento donde evaluadores humanos clasifican las salidas del modelo por calidad, y esta retroalimentación se usa para entrenar un modelo de recompensa que guía a la IA hacia mejores respuestas. Es lo que convierte un modelo pre-entrenado crudo (que solo predice las siguientes palabras) en un asistente útil e inofensivo.

Por qué importa

RLHF es el ingrediente secreto que hizo que ChatGPT se sintiera diferente de GPT-3. El modelo base ya “sabía” todo, pero RLHF le enseñó a presentar ese conocimiento de una manera que los humanos realmente encuentran útil. También es cómo se refuerzan los comportamientos de seguridad.

En profundidad

RLHF es un proceso de múltiples etapas, y entender cada etapa es esencial para entender por qué funciona y dónde falla. Primero, empiezas con un modelo que ya ha sido fine-tuned supervisado (SFT) con pares de instrucción-respuesta, para que al menos pueda formatear respuestas correctamente. Segundo, recopilas datos de comparación: anotadores humanos ven dos o más respuestas del modelo al mismo prompt y se les pide clasificarlas por calidad. Estos datos de comparación se usan para entrenar un modelo de recompensa separado — una red neuronal que toma un par prompt-respuesta y genera un puntaje escalar prediciendo cuánto preferiría un humano esa respuesta. Tercero, usas el modelo de recompensa como señal para seguir entrenando el modelo principal vía un algoritmo de aprendizaje por refuerzo, típicamente Proximal Policy Optimization (PPO). El modelo genera respuestas, el modelo de recompensa las puntúa, y los parámetros del modelo se actualizan para aumentar la recompensa esperada. Un componente crítico es la penalización de divergencia KL, que previene que el modelo se aleje demasiado de su punto de inicio SFT — sin ella, el modelo rápidamente aprendería a explotar peculiaridades del modelo de recompensa en lugar de producir realmente mejores respuestas.

El problema del modelo de recompensa

El modelo de recompensa es tanto el eje como el eslabón débil de todo el proceso. Debe aprender a predecir preferencias humanas a partir de un conjunto limitado de comparaciones, y luego generalizar esas preferencias a prompts y respuestas novedosos. En la práctica, los modelos de recompensa pueden desarrollar puntos ciegos: podrían aprender a preferir respuestas más largas (porque los anotadores a menudo equiparan longitud con profundidad), respuestas que suenan seguras sin importar la precisión, o respuestas que contienen lenguaje cauteloso (porque los anotadores favorecen respuestas cautas en preguntas ambiguas). Estas peculiaridades del modelo de recompensa se amplifican durante la fase de RL, un fenómeno llamado reward hacking o sobreoptimización del modelo de recompensa. Literalmente puedes ver cómo sucede: a medida que entrenas más contra el modelo de recompensa, el puntaje de recompensa sigue subiendo, pero la preferencia humana real por las salidas alcanza un pico y luego declina. Por eso los practicantes de RLHF limitan el número de pasos de RL y regularmente evalúan con juicios humanos frescos en lugar de confiar en los puntajes del modelo de recompensa.

Las alternativas

Los desafíos prácticos del RLHF son lo suficientemente significativos como para que el campo haya desarrollado varias alternativas. Direct Preference Optimization (DPO), introducido en 2023, elimina el modelo de recompensa separado y la fase de RL por completo. En su lugar, optimiza directamente el modelo de lenguaje con los datos de comparación usando una reformulación inteligente del objetivo de RLHF como una pérdida de clasificación. DPO es más simple de implementar, más estable para entrenar y requiere menos cómputo. Muchos modelos open-source ahora usan DPO o sus variantes (IPO, KTO, ORPO) en lugar de RLHF basado en PPO. Otros enfoques como RLAIF (RL from AI Feedback) reemplazan anotadores humanos con otro modelo de IA — el framework Constitutional AI de Anthropic usa este enfoque, donde el modelo critica y revisa sus propias salidas según un conjunto de principios. Estas alternativas tienen sus trade-offs: DPO es más simple pero puede ser menos expresivo para estructuras de preferencia complejas, mientras RLAIF escala mejor pero hereda los sesgos de cualquier IA que proporcione la retroalimentación.

El cuello de botella humano

El lado de anotación humana del RLHF es una de sus complejidades más subestimadas. La calidad del anotador, la consistencia y la composición demográfica dan forma directamente a lo que el modelo aprende. Si tus anotadores son principalmente graduados universitarios angloparlantes, el modelo aprende sus preferencias, que pueden no generalizar a otras poblaciones. El acuerdo entre anotadores sobre lo que constituye una “mejor” respuesta es a menudo sorprendentemente bajo para preguntas abiertas, lo que significa que el modelo de recompensa está aprendiendo de etiquetas ruidosas. Algunos laboratorios abordan esto con rúbricas detalladas, sesiones de calibración de anotadores y votación por mayoría entre múltiples anotadores por comparación. Otros usan pipelines de datos sintéticos donde un modelo más fuerte genera las comparaciones. El campo aún está descubriendo las mejores prácticas aquí, y el pipeline de anotación es a menudo el cuello de botella — no porque sea técnicamente difícil, sino porque definir “bueno” es genuinamente filosóficamente difícil cuando intentas especificarlo con suficiente precisión para una señal de entrenamiento.

Conceptos relacionados

← Todos los términos
← RAG Limitación de tasa →
ESC