RLHF é um processo de múltiplos estágios, e entender cada estágio é essencial para compreender por que funciona e onde falha. Primeiro, você começa com um modelo que já passou por supervised fine-tuning (SFT) em pares de instrução-resposta, para que ao menos consiga formatar respostas corretamente. Segundo, você coleta dados de comparação: anotadores humanos recebem duas ou mais respostas do modelo ao mesmo prompt e classificam por qualidade. Esses dados de comparação são usados para treinar um modelo de recompensa separado — uma rede neural que recebe um par prompt-resposta e produz um escore escalar prevendo quanto um humano preferiria aquela resposta. Terceiro, você usa o modelo de recompensa como sinal para treinar ainda mais o modelo principal via um algoritmo de aprendizado por reforço, tipicamente Proximal Policy Optimization (PPO). O modelo gera respostas, o modelo de recompensa as pontua, e os parâmetros do modelo são atualizados para aumentar a recompensa esperada. Um componente crítico é a penalidade de divergência KL, que impede o modelo de se afastar demais de seu ponto de partida SFT — sem ela, o modelo rapidamente aprenderia a explorar peculiaridades no modelo de recompensa em vez de realmente produzir respostas melhores.
O modelo de recompensa é tanto a peça central quanto o elo fraco de todo o processo. Ele precisa aprender a prever preferências humanas a partir de um conjunto limitado de comparações, e então generalizar essas preferências para prompts e respostas novos. Na prática, modelos de recompensa podem desenvolver pontos cegos: podem aprender a preferir respostas mais longas (porque anotadores frequentemente equiparam tamanho com meticulosidade), respostas que soam confiantes independentemente da precisão, ou respostas que contêm linguagem de precaução (porque anotadores favorecem respostas cautelosas em questões ambíguas). Essas peculiaridades do modelo de recompensa são amplificadas durante a fase de RL, um fenômeno chamado reward hacking ou sobre-otimização do modelo de recompensa. Você pode literalmente assistir acontecer: conforme treina mais contra o modelo de recompensa, o escore de recompensa continua subindo, mas a preferência humana real pelas saídas atinge um pico e depois declina. É por isso que praticantes de RLHF limitam o número de passos de RL e avaliam regularmente com julgamentos humanos frescos em vez de confiar nos escores do modelo de recompensa.
Os desafios práticos do RLHF são significativos o suficiente para o campo ter desenvolvido várias alternativas. Direct Preference Optimization (DPO), introduzido em 2023, elimina o modelo de recompensa separado e a fase de RL inteiramente. Em vez disso, otimiza diretamente o modelo de linguagem nos dados de comparação usando uma reformulação inteligente do objetivo do RLHF como uma loss de classificação. DPO é mais simples de implementar, mais estável para treinar e requer menos computação. Muitos modelos open source agora usam DPO ou suas variantes (IPO, KTO, ORPO) em vez de RLHF baseado em PPO. Outras abordagens como RLAIF (RL from AI Feedback) substituem anotadores humanos por outro modelo de IA — o framework Constitutional AI da Anthropic usa essa abordagem, onde o modelo critica e revisa suas próprias saídas de acordo com um conjunto de princípios. Essas alternativas têm trade-offs: DPO é mais simples mas pode ser menos expressivo para estruturas complexas de preferência, enquanto RLAIF escala melhor mas herda os viéses de qualquer IA que esteja fornecendo o feedback.
O lado da anotação humana do RLHF é uma de suas complexidades menos apreciadas. Qualidade, consistência e composição demográfica dos anotadores moldam diretamente o que o modelo aprende. Se seus anotadores são predominantemente universitários falantes de inglês, o modelo aprende suas preferências, que podem não generalizar para outras populações. A concordância entre anotadores sobre o que constitui uma resposta "melhor" é frequentemente surpreendentemente baixa para questões abertas, o que significa que o modelo de recompensa está aprendendo a partir de rótulos ruidosos. Alguns laboratórios abordam isso com rubrics detalhadas, sessões de calibração de anotadores e votação por maioria entre múltiplos anotadores por comparação. Outros usam pipelines de dados sintéticos onde um modelo mais forte gera as comparações. O campo ainda está descobrindo as melhores práticas, e o pipeline de anotação frequentemente é o gargalo — não porque é tecnicamente difícil, mas porque definir "bom" é genuinamente filosoficamente difícil quando você está tentando especificá-lo com precisão suficiente para um sinal de treinamento.