David Silver d'AlphaGo redouble : les LLM sont la mauvaise voie, le RL par expérience est la bonne

David Silver, l'architecte principal derrière AlphaGo, AlphaZero et MuZero, a accordé une entrevue à Wired cette semaine pour réaffirmer l'argument central de sa nouvelle startup Ineffable Intelligence : les grands modèles de langage ne sont pas sur le chemin de la superintelligence. Silver a quitté Google DeepMind plus tôt cette année pour lancer Ineffable, et Sequoia a mené un tour d'amorçage de 1 G$ à une valorisation pré-money d'environ 4 G$ pour appuyer le pari. La thèse remonte directement à son article « Era of Experience » de l'année dernière, coécrit avec Rich Sutton : la ligne de l'École de l'Alberta selon laquelle l'intelligence vient d'agents qui apprennent en interagissant avec un environnement et en recevant des signaux de récompense, pas de réseaux neuronaux entraînés à prédire le prochain jeton dans des textes humains. La revendication précise de Silver dans Wired : « On veut aller au-delà de ce que les humains savent, et pour ça il va nous falloir un autre type de méthode, un type qui exige que nos IA trouvent les choses par elles-mêmes. »

La substance technique derrière le titre est plus précise que le cadrage. Silver ne dit pas que les LLM ne fonctionnent pas; il dit qu'ils sont plafonnés par la distribution des textes humains. Le coup 37 d'AlphaGo et les nouveautés d'AlphaZero aux échecs sont la preuve d'existence sur laquelle il s'appuie : un agent RL opérant dans un environnement avec un signal de récompense net peut découvrir des stratégies qu'aucun humain n'avait écrites, parce que l'agent n'apprend pas des humains, il apprend du jeu. C'est un vrai résultat, et c'est significativement différent de ce que fait la prédiction du prochain jeton. La nuance honnête est qu'AlphaGo et AlphaZero opéraient dans des domaines à règles fermées, information parfaite et récompense gagne/perd non ambiguë : Go, échecs, shogi, jeux vidéo. Généraliser la même approche à des tâches du monde physique, de la recherche multi-étapes ou de la résolution de problèmes ouverts est une question de recherche ouverte depuis quinze ans et le reste. Le pari de Silver est que des fonctions de récompense flexibles ancrées dans des mesures du monde réel, ce que le papier Era of Experience appelle récompense ancrée — rythme cardiaque pour un agent santé, CO2 pour un agent climatique — comblent l'écart. Si elles le font reste empirique et non résolu.

Pour le public bâtisseur, le cadrage LLM contre RL est surtout une fausse dichotomie à laquelle la couverture médiatique ne peut résister. Chaque labo de pointe fait déjà la synthèse. Le RLHF, c'est du RL sur un LLM. Le RL à récompenses vérifiables, la recette derrière les modèles de raisonnement o-series et Claude, c'est du RL sur un LLM avec une récompense programmatique. Les systèmes agentiques avec outils et vérificateurs, la direction vers laquelle toute l'industrie s'est déplacée ces dix-huit derniers mois, c'est du RL sur un LLM dans un environnement. La question n'est pas RL ou LLM; c'est si tu as besoin d'un dorsal préentraîné sur du langage, ou si un agent RL suffisamment grand peut apprendre de l'expérience brute sans d'abord absorber le corpus humain. Le pari de Silver est non, t'en as pas besoin. C'est une revendication beaucoup plus agressive que ce que le titre Wired laisse entendre, et c'est genuinement contrarien : la plupart du domaine, dont la plupart des anciens de DeepMind, pense que le préentraînement langagier est un bon prior pour tout en aval. La version intellectuellement honnête de la position de Silver : le préentraînement langagier est un raccourci qui te plafonne au savoir humain, et un système qui peut passer à l'échelle sans ça finira par dépasser celui qui ne peut pas.

À retenir pour les développeurs : prends la revendication technique au sérieux, ignore la dichotomie marketing. Si tu bâtis des agents aujourd'hui, le goulot pratique n'est pas « LLM ou RL », c'est la conception de récompense : dans les domaines où tu peux écrire un vérificateur, le RL par-dessus un LLM marche extraordinairement bien et la recette converge entre labos. Dans ceux où tu ne peux pas — la plupart des tâches business du monde réel, la plupart des workflows de recherche — tu retombes sur le RLHF ou l'imitation supervisée, qui hérite du plafond des données humaines que Silver pointe. Donc Silver a empiriquement raison sur où est le mur, même s'il a peut-être tort sur la nécessité de jeter le dorsal LLM pour passer outre. Le pari Ineffable Intelligence vaut la peine d'être suivi pour une raison spécifique : si le 1 G$ achète un agent RL pur à l'échelle frontière qui apprend de l'expérience brute et approche la généralité de type LLM sans préentraînement langagier, ça redéfinit la conversation architecturale. Si ça achète un système RL spécifique à un domaine qui marche bien dans une verticale étroite et ne généralise jamais, ça confirme la vision synthèse. Les deux issues sont informatives; les 18 à 24 prochains mois nous diront laquelle.

David Silver d'AlphaGo redouble : les LLM sont la mauvaise voie, le RL par expérience est la bonne

Plus de nouvelles