David Silver do AlphaGo reforça: LLMs são o caminho errado, RL por experiência é o certo

David Silver, o arquiteto principal por trás de AlphaGo, AlphaZero e MuZero, deu uma entrevista à Wired esta semana reafirmando o argumento central de sua nova startup Ineffable Intelligence: grandes modelos de linguagem não estão no caminho da superinteligência. Silver deixou o Google DeepMind no início deste ano para lançar a Ineffable, e a Sequoia liderou uma rodada seed de 1 bilhão a uma avaliação pré-money de cerca de 4 bilhões para apoiar a aposta. A tese remonta diretamente ao seu artigo «Era of Experience» do ano passado, coescrito com Rich Sutton: a linha da Escola de Alberta de que inteligência vem de agentes que aprendem interagindo com um ambiente e recebendo sinais de recompensa, não de redes neurais treinadas para prever o próximo token em texto humano. A afirmação específica de Silver na Wired: «Queremos ir além do que os humanos sabem, e para isso vamos precisar de um tipo diferente de método, um tipo que exija que nossas IAs descubram as coisas por si mesmas.»

A substância técnica por trás da manchete é mais precisa que o enquadramento. Silver não está dizendo que LLMs não funcionam; está dizendo que estão limitados pela distribuição de texto gerado por humanos. A Jogada 37 do AlphaGo e as novidades do AlphaZero no xadrez são a prova de existência em que ele se apoia: um agente RL operando em um ambiente com sinal de recompensa nítido pode descobrir estratégias que nenhum humano havia escrito, porque o agente não está aprendendo com humanos, está aprendendo com o jogo. Esse é um resultado real, e é significativamente diferente do que a predição do próximo token faz. A ressalva honesta é que AlphaGo e AlphaZero operavam em domínios com regras fechadas, informação perfeita e recompensa ganha/perde inequívoca: Go, xadrez, shogi, videogames. Generalizar a mesma abordagem para tarefas do mundo físico, pesquisa multi-passo ou resolução de problemas abertos tem sido uma questão de pesquisa em aberto há quinze anos e continua sendo. A aposta de Silver é que funções de recompensa flexíveis ancoradas em medições do mundo real, o que o paper Era of Experience chama de recompensa ancorada (batimento cardíaco para um agente de saúde, CO2 para um agente climático) fecham a lacuna. Se fecham é empírico e não resolvido.

Para o público construtor, o enquadramento LLM contra RL é principalmente uma falsa dicotomia a que a cobertura midiática não consegue resistir. Cada laboratório de fronteira já está rodando a síntese. RLHF é RL sobre um LLM. RL com recompensas verificáveis, a receita por trás dos modelos de raciocínio série-o e Claude, é RL sobre um LLM com recompensa programática. Sistemas agênticos com uso de ferramentas e verificadores, a direção para onde toda a indústria se moveu nos últimos dezoito meses, é RL sobre um LLM em um ambiente. A pergunta não é se RL ou LLM vencem; é se você precisa de um backbone pré-treinado em linguagem, ou se um agente RL suficientemente grande pode aprender de experiência crua sem antes absorver o corpus de escrita humana. A aposta de Silver é que não, você não precisa. Essa é uma afirmação muito mais agressiva do que a manchete da Wired sugere, e é genuinamente contrária: a maior parte do campo, incluindo a maioria dos ex-DeepMind, acha que o pré-treinamento linguístico é um prior útil para tudo a jusante. A versão intelectualmente honesta da posição de Silver: pré-treinamento linguístico é um atalho que te limita ao conhecimento humano, e um sistema que possa escalar sem ele eventualmente vai superar um que não pode.

A conclusão para desenvolvedores é levar a sério a reivindicação técnica e ignorar a dicotomia de marketing. Se você está construindo agentes hoje, o gargalo prático não é «LLM versus RL», é design de recompensa: nos domínios onde você consegue escrever um verificador, RL sobre um LLM funciona extraordinariamente bem e a receita está convergindo entre laboratórios. Nos domínios onde você não consegue, a maioria das tarefas reais de negócio, a maioria dos fluxos de pesquisa, você cai em RLHF ou imitação supervisionada, que herda o teto de dados humanos que Silver aponta. Então Silver está empiricamente certo sobre onde está o muro, mesmo que esteja errado sobre se você precisa jogar fora o backbone LLM para passar dele. A aposta da Ineffable Intelligence vale acompanhar por uma razão específica: se o 1 bilhão comprar um agente RL puro em escala de fronteira que aprende de experiência crua e se aproxima da generalidade tipo LLM sem pré-treinamento linguístico, isso reinicia a conversa de arquitetura. Se comprar um sistema RL específico de domínio que funciona bem em uma vertical estreita e nunca generaliza, confirma a visão de síntese. Qualquer dos resultados é informativo; os próximos 18 a 24 meses vão nos dizer qual.

David Silver do AlphaGo reforça: LLMs são o caminho errado, RL por experiência é o certo

Mais notícias