Aprendizaje por refuerzo: Definición y significado — Wiki de IA

Un paradigma de entrenamiento donde un agente de IA aprende interactuando con un entorno, tomando acciones y recibiendo recompensas o penalizaciones. A diferencia del aprendizaje supervisado (que aprende de ejemplos etiquetados), el RL aprende de la experiencia — a través de prueba y error. El RL entrenó a AlphaGo para vencer a campeones mundiales, enseña a robots a caminar, y es el "RL" en RLHF que hace que los chatbots sean útiles.

Por qué importa

El aprendizaje por refuerzo es cómo la IA aprende a actuar, no solo a predecir. Es el puente entre modelos que pueden responder preguntas y agentes que pueden lograr objetivos. Cada sistema de IA que planifica, estrategiza u optimiza a lo largo del tiempo tiene RL en algún lugar de su linaje.

En profundidad

El aprendizaje por refuerzo se construye sobre un bucle engañosamente simple: un agente observa el estado actual de un entorno, toma una acción, recibe una recompensa (o penalización) y actualiza su estrategia en consecuencia. Repite esto millones o miles de millones de veces, y el agente descubre comportamientos que maximizan la recompensa acumulada. El marco matemático — Procesos de Decisión de Markov, ecuaciones de Bellman, gradientes de política — ha existido desde los años 1950, pero el RL permaneció como una búsqueda académica de nicho hasta que el deep learning le dio la capacidad de manejar entornos complejos y de alta dimensionalidad. El agente de DeepMind que jugaba Atari en 2013 fue la primera demostración mainstream: una red neuronal que aprendió a jugar docenas de videojuegos desde entrada de píxeles crudos, sin programación específica del juego, igualando o superando el rendimiento humano en muchos de ellos.

Algoritmos y enfoques clave

Los algoritmos de RL se dividen en dos familias amplias. Los métodos basados en valor (como DQN y sus descendientes) aprenden a estimar qué tan valioso es cada estado o par estado-acción, luego eligen acciones que llevan a los estados de mayor valor. Los métodos basados en política (como REINFORCE y PPO) aprenden directamente un mapeo de estados a acciones sin estimar explícitamente valores. En la práctica, la mayoría de los sistemas modernos de RL usan métodos actor-crítico que combinan ambos: una red (el actor) decide qué hacer, y otra (el crítico) evalúa qué tan buena fue esa decisión. Proximal Policy Optimization (PPO), desarrollado por OpenAI en 2017, se ha convertido en el algoritmo caballo de batalla para muchas aplicaciones porque es relativamente estable de entrenar y no requiere un ajuste cuidadoso de hiperparámetros. Group Relative Policy Optimization (GRPO), usado por DeepSeek para entrenar su modelo de razonamiento R1, elimina la necesidad de una red crítica separada, en su lugar comparando múltiples salidas muestreadas entre sí para determinar cuáles merecen refuerzo.

El momento AlphaGo y más allá

La victoria de AlphaGo sobre el campeón mundial Lee Sedol en el juego de Go en 2016 fue el momento decisivo del RL. Go tiene más posiciones de tablero posibles que átomos en el universo, haciendo imposible la búsqueda por fuerza bruta — el sistema tuvo que desarrollar intuición genuina sobre qué movimientos eran prometedores. AlphaGo combinó aprendizaje supervisado (entrenando con partidas de expertos humanos) con RL (jugando millones de partidas contra sí mismo para descubrir estrategias que ningún humano había usado jamás). Su sucesor, AlphaZero, fue más allá: aprendió ajedrez, Go y shogi enteramente por juego propio, sin datos de partidas humanas en absoluto, y superó a todos los sistemas de IA anteriores en cada juego en cuestión de horas. Esto demostró que el RL podía descubrir estrategias sobrehumanas en dominios donde las reglas son conocidas y la señal de recompensa es clara. El desafío siempre ha sido extender este éxito a dominios del mundo real más desordenados donde la recompensa es ambigua y el entorno es parcialmente observable.

RLHF: Haciendo útiles a los chatbots

La aplicación comercialmente más importante del RL hoy es RLHF — Reinforcement Learning from Human Feedback — que es cómo los modelos de lenguaje aprenden a ser útiles, inofensivos y honestos. El proceso funciona por etapas: primero, entrena un modelo de lenguaje base con texto de internet (pre-entrenamiento). Luego, haz que evaluadores humanos clasifiquen diferentes respuestas del modelo al mismo prompt por calidad. Usa esas clasificaciones para entrenar un modelo de recompensa que predice preferencias humanas. Finalmente, usa RL (típicamente PPO o una variante) para hacer fine-tuning del modelo de lenguaje para maximizar la puntuación del modelo de recompensa. Esto es lo que transforma un modelo de lenguaje crudo que podría producir salidas tóxicas, inútiles o peligrosas en un asistente pulido. Constitutional AI de Anthropic extiende esta idea haciendo que el modelo evalúe sus propias salidas contra un conjunto de principios, reduciendo la necesidad de etiquetadores humanos. Direct Preference Optimization (DPO) simplifica aún más el pipeline eliminando el modelo de recompensa separado, optimizando directamente el modelo de lenguaje sobre datos de preferencia. Casi todos los chatbots importantes — ChatGPT, Claude, Gemini, Command R — dependen de alguna variante de este proceso de alineación basado en RL.

Fronteras: agentes, robótica y problemas abiertos

El próximo capítulo del RL se está desarrollando en dos dominios. En agentes de IA, el RL entrena modelos para usar herramientas, escribir y ejecutar código, navegar la web y lograr objetivos de múltiples pasos. OpenAI entrenó sus modelos de razonamiento de la serie o con RL en tareas de programación y matemáticas; los modelos aprendieron a planificar, retroceder y verificar — todos comportamientos emergentes impulsados por señales de recompensa por respuestas correctas. En robótica, el RL finalmente está cumpliendo décadas de promesas: RT-2 de Google DeepMind y los robots humanoides de Figure usan RL (frecuentemente combinado con aprendizaje por imitación de demostraciones humanas) para manipular objetos, navegar entornos y adaptarse a situaciones novedosas. Los mayores problemas abiertos siguen siendo la eficiencia de muestras (el RL típicamente necesita millones de intentos para aprender comportamientos que un humano capta en minutos), la especificación de recompensas (definir qué significa "bueno" en tareas complejas del mundo real sin accidentalmente incentivar atajos no deseados), y la transferencia de simulación a realidad (las políticas aprendidas en simulación frecuentemente se rompen cuando se despliegan en hardware físico, donde la fricción, latencia y ruido del sensor crean una brecha con la realidad).

Aprendizaje por refuerzo