Reinforcement learning é construído sobre um loop enganosamente simples: um agente observa o estado atual de um ambiente, toma uma ação, recebe uma recompensa (ou penalidade) e atualiza sua estratégia de acordo. Repita isso milhões ou bilhões de vezes, e o agente descobre comportamentos que maximizam a recompensa cumulativa. O framework matemático — Processos de Decisão de Markov, equações de Bellman, gradientes de política — existe desde a década de 1950, mas RL permaneceu um nicho acadêmico até deep learning lhe dar a capacidade de lidar com ambientes complexos e de alta dimensionalidade. O agente da DeepMind jogando Atari em 2013 foi a primeira demonstração mainstream: uma rede neural que aprendeu a jogar dezenas de videogames a partir de pixels brutos, sem programação específica de jogo, igualando ou superando o desempenho humano em muitos deles.
Algoritmos de RL se dividem em duas grandes famílias. Métodos baseados em valor (como DQN e seus descendentes) aprendem a estimar quão valioso cada estado ou par estado-ação é, e então escolhem ações que levam aos estados de maior valor. Métodos baseados em política (como REINFORCE e PPO) aprendem diretamente um mapeamento de estados para ações sem estimar valores explicitamente. Na prática, a maioria dos sistemas modernos de RL usa métodos ator-crítico que combinam ambos: uma rede (o ator) decide o que fazer, e outra (o crítico) avalia quão boa foi aquela decisão. Proximal Policy Optimization (PPO), desenvolvido pela OpenAI em 2017, se tornou o algoritmo principal para muitas aplicações porque é relativamente estável para treinar e não exige ajuste cuidadoso de hiperparâmetros. Group Relative Policy Optimization (GRPO), usado pela DeepSeek para treinar seu modelo de raciocínio R1, elimina a necessidade de uma rede crítica separada, em vez disso comparando múltiplas saídas amostradas entre si para determinar quais merecem reforço.
A vitória do AlphaGo em 2016 sobre o campeão mundial Lee Sedol no jogo de Go foi o momento divisório do RL. Go tem mais posições de tabuleiro possíveis do que átomos no universo, tornando busca por força bruta impossível — o sistema teve que desenvolver intuição genuína sobre quais movimentos eram promissores. O AlphaGo combinou aprendizado supervisionado (treinando em jogos de especialistas humanos) com RL (jogando milhões de partidas contra si mesmo para descobrir estratégias que nenhum humano havia usado). Seu sucessor, AlphaZero, foi além: aprendeu xadrez, Go e shogi inteiramente por auto-jogo, sem nenhum dado de jogos humanos, e superou todos os sistemas de IA anteriores em cada jogo em horas. Isso demonstrou que RL podia descobrir estratégias sobre-humanas em domínios onde as regras são conhecidas e o sinal de recompensa é claro. O desafio sempre foi estender esse sucesso para domínios do mundo real mais confusos, onde a recompensa é ambígua e o ambiente é parcialmente observável.
A aplicação comercialmente mais importante de RL hoje é RLHF — Reinforcement Learning from Human Feedback — que é como modelos de linguagem aprendem a ser úteis, inofensivos e honestos. O processo funciona em estágios: primeiro, treine um modelo de linguagem base em texto da internet (pré-treinamento). Depois, peça a avaliadores humanos para classificar diferentes respostas do modelo ao mesmo prompt por qualidade. Use essas classificações para treinar um modelo de recompensa que prediz preferências humanas. Finalmente, use RL (tipicamente PPO ou variante) para fazer fine-tuning do modelo de linguagem para maximizar a pontuação do modelo de recompensa. É isso que transforma um modelo de linguagem bruto que pode produzir saídas tóxicas, inúteis ou perigosas em um assistente polido. Constitutional AI da Anthropic estende essa ideia fazendo o modelo avaliar suas próprias saídas contra um conjunto de princípios, reduzindo a necessidade de rotuladores humanos. Direct Preference Optimization (DPO) simplifica o pipeline ainda mais eliminando o modelo de recompensa separado, otimizando diretamente o modelo de linguagem sobre dados de preferência. Quase todo chatbot major — ChatGPT, Claude, Gemini, Command R — depende de alguma variante desse processo de alinhamento baseado em RL.
O próximo capítulo do RL está se desenrolando em dois domínios. Em agentes de IA, RL treina modelos para usar ferramentas, escrever e executar código, navegar na web e cumprir objetivos multi-etapas. A OpenAI treinou seus modelos de raciocínio da série o com RL em tarefas de codificação e matemática; os modelos aprenderam a planejar, retroceder e verificar — todos comportamentos emergentes impulsionados por sinais de recompensa para respostas corretas. Em robótica, RL está finalmente entregando décadas de promessa: RT-2 do Google DeepMind e robôs humanoides da Figure usam RL (frequentemente combinado com aprendizado por imitação de demonstrações humanas) para manipular objetos, navegar ambientes e se adaptar a situações novas. Os maiores problemas em aberto continuam sendo eficiência de amostra (RL tipicamente precisa de milhões de tentativas para aprender comportamentos que um humano aprende em minutos), especificação de recompensa (definir o que "bom" significa em tarefas complexas do mundo real sem acidentalmente incentivar atalhos não intencionais) e transferência sim-para-real (políticas aprendidas em simulação frequentemente quebram quando implantadas em hardware físico, onde atrito, latência e ruído de sensores criam uma lacuna de realidade).