David Silver de AlphaGo insiste: los LLM son el camino equivocado, el RL por experiencia es el correcto

David Silver, el arquitecto principal detrás de AlphaGo, AlphaZero y MuZero, dio una entrevista a Wired esta semana reafirmando el argumento central de su nueva startup Ineffable Intelligence: los grandes modelos de lenguaje no están en el camino hacia la superinteligencia. Silver dejó Google DeepMind a principios de este año para lanzar Ineffable, y Sequoia lideró una ronda semilla de 1 mil millones a una valoración pre-money de aproximadamente 4 mil millones para respaldar la apuesta. La tesis se remonta directamente a su artículo «Era of Experience» del año pasado, coescrito con Rich Sutton: la línea de la Escuela de Alberta de que la inteligencia viene de agentes que aprenden interactuando con un entorno y recibiendo señales de recompensa, no de redes neuronales entrenadas para predecir el siguiente token en escritura humana. La afirmación específica de Silver en Wired: «Queremos ir más allá de lo que los humanos saben, y para eso vamos a necesitar un tipo diferente de método, un tipo que requiera que nuestras IAs descubran las cosas por sí mismas.»

La sustancia técnica detrás del titular es más precisa que el encuadre. Silver no dice que los LLM no funcionen; dice que están topados por la distribución del texto generado por humanos. La Jugada 37 de AlphaGo y las novedades de AlphaZero en ajedrez son la prueba de existencia en la que se apoya: un agente RL operando en un entorno con una señal de recompensa nítida puede descubrir estrategias que ningún humano había escrito, porque el agente no aprende de humanos, aprende del juego. Ese es un resultado real, y es significativamente diferente de lo que hace la predicción del siguiente token. La salvedad honesta es que AlphaGo y AlphaZero operaban en dominios con reglas cerradas, información perfecta y recompensa ganar/perder inequívoca: Go, ajedrez, shogi, videojuegos. Generalizar el mismo enfoque a tareas del mundo físico, investigación multi-paso o resolución de problemas abiertos ha sido una pregunta de investigación abierta durante quince años y sigue siéndolo. La apuesta de Silver es que funciones de recompensa flexibles ancladas en mediciones del mundo real, lo que el paper Era of Experience llama recompensa anclada (frecuencia cardíaca para un agente de salud, CO2 para un agente climático) cierran la brecha. Si lo hacen es empírico y sin resolver.

Para la audiencia de constructores, el encuadre LLM contra RL es mayormente una falsa dicotomía a la que la cobertura mediática no puede resistirse. Cada laboratorio frontera ya está ejecutando la síntesis. RLHF es RL sobre un LLM. RL con recompensas verificables, la receta detrás de los modelos de razonamiento serie-o y Claude, es RL sobre un LLM con una recompensa programática. Los sistemas agénticos con uso de herramientas y verificadores, la dirección hacia la que toda la industria se ha movido en los últimos dieciocho meses, es RL sobre un LLM en un entorno. La pregunta no es si RL o LLM ganan; es si necesitas un backbone preentrenado en lenguaje, o si un agente RL suficientemente grande puede aprender de experiencia cruda sin antes absorber el corpus de escritura humana. La apuesta de Silver es que no, no lo necesitas. Esa es una afirmación mucho más agresiva de lo que sugiere el titular de Wired, y es genuinamente contraria: la mayoría del campo, incluida la mayoría de exalumnos de DeepMind, piensa que el preentrenamiento lingüístico es un prior útil para todo lo aguas abajo. La versión intelectualmente honesta de la posición de Silver: el preentrenamiento lingüístico es un atajo que te topa al conocimiento humano, y un sistema que pueda escalar sin él eventualmente superará a uno que no puede.

La conclusión para desarrolladores es tomar en serio la afirmación técnica e ignorar la dicotomía de marketing. Si construyes agentes hoy, el cuello de botella práctico no es «LLM versus RL», es el diseño de recompensas: en dominios donde puedes escribir un verificador, RL sobre un LLM funciona extraordinariamente bien y la receta está convergiendo entre laboratorios. En dominios donde no puedes, la mayoría de tareas reales de negocio, la mayoría de flujos de investigación, caes en RLHF o imitación supervisada, que hereda el techo de datos humanos que Silver señala. Así que Silver tiene razón empíricamente sobre dónde está el muro, incluso si se equivoca sobre si hay que tirar el backbone LLM para pasarlo. La apuesta de Ineffable Intelligence vale la pena seguirla por una razón específica: si los 1 mil millones compran un agente RL puro a escala frontera que aprende de experiencia cruda y se acerca a la generalidad tipo LLM sin preentrenamiento lingüístico, eso reinicia la conversación de arquitectura. Si compran un sistema RL específico a un dominio que funciona bien en una vertical estrecha y nunca generaliza, confirma la visión de síntesis. Cualquiera de los dos resultados es informativo; los próximos 18 a 24 meses nos dirán cuál.

David Silver de AlphaGo insiste: los LLM son el camino equivocado, el RL por experiencia es el correcto

Más noticias