L'apprentissage par renforcement repose sur une boucle d'une simplicité trompeuse : un agent observe l'état actuel d'un environnement, prend une action, reçoit une récompense (ou une pénalité), et met à jour sa stratégie en conséquence. Répétez cela des millions ou des milliards de fois, et l'agent découvre des comportements qui maximisent la récompense cumulative. Le cadre mathématique — processus de décision markoviens, équations de Bellman, gradients de politique — existe depuis les années 1950, mais le RL est resté une quête académique de niche jusqu'à ce que l'apprentissage profond lui donne la capacité de gérer des environnements complexes et à haute dimension. L'agent jouant à Atari de DeepMind en 2013 a été la première démonstration grand public : un réseau de neurones qui a appris à jouer à des dizaines de jeux vidéo à partir de l'entrée brute de pixels, sans programmation spécifique au jeu, égalant ou dépassant la performance humaine sur beaucoup d'entre eux.
Les algorithmes de RL se divisent en deux grandes familles. Les méthodes basées sur la valeur (comme DQN et ses descendants) apprennent à estimer la valeur de chaque état ou paire état-action, puis choisissent les actions menant aux états de plus haute valeur. Les méthodes basées sur la politique (comme REINFORCE et PPO) apprennent directement une correspondance des états aux actions sans estimer explicitement les valeurs. En pratique, la plupart des systèmes RL modernes utilisent des méthodes acteur-critique qui combinent les deux : un réseau (l'acteur) décide quoi faire, et un autre (le critique) évalue la qualité de cette décision. Le Proximal Policy Optimization (PPO), développé par OpenAI en 2017, est devenu l'algorithme de référence pour de nombreuses applications parce qu'il est relativement stable à entraîner et ne nécessite pas de réglage minutieux des hyperparamètres. Le Group Relative Policy Optimization (GRPO), utilisé par DeepSeek pour entraîner leur modèle de raisonnement R1, élimine entièrement le besoin d'un réseau critique séparé, comparant plutôt plusieurs sorties échantillonnées entre elles pour déterminer lesquelles méritent d'être renforcées.
La victoire d'AlphaGo sur le champion du monde Lee Sedol au jeu de Go en 2016 a été le moment décisif du RL. Le Go a plus de positions de plateau possibles que d'atomes dans l'univers, rendant la recherche par force brute impossible — le système devait développer une véritable intuition sur les coups prometteurs. AlphaGo combinait l'apprentissage supervisé (entraînement sur des parties de joueurs experts humains) avec le RL (en jouant des millions de parties contre lui-même pour découvrir des stratégies qu'aucun humain n'avait jamais utilisées). Son successeur, AlphaZero, est allé plus loin : il a appris les échecs, le Go et le shogi entièrement par auto-jeu, sans aucune donnée de parties humaines, et a surpassé tous les systèmes d'IA précédents dans chaque jeu en quelques heures. Cela a démontré que le RL pouvait découvrir des stratégies surhumaines dans des domaines où les règles sont connues et le signal de récompense est clair. Le défi a toujours été d'étendre ce succès à des domaines réels plus confus où la récompense est ambiguë et l'environnement partiellement observable.
L'application commercialement la plus importante du RL aujourd'hui est le RLHF — l'apprentissage par renforcement à partir de rétroaction humaine — qui est la façon dont les modèles de langage apprennent à être utiles, inoffensifs et honnêtes. Le processus fonctionne par étapes : d'abord, entraîner un modèle de langage de base sur du texte d'Internet (pré-entraînement). Puis, demander à des évaluateurs humains de classer différentes réponses du modèle à une même instruction par qualité. Utiliser ces classements pour entraîner un modèle de récompense qui prédit les préférences humaines. Enfin, utiliser le RL (typiquement PPO ou une variante) pour affiner le modèle de langage afin de maximiser le score du modèle de récompense. C'est ce qui transforme un modèle de langage brut qui pourrait produire des sorties toxiques, inutiles ou dangereuses en un assistant soigné. L'IA constitutionnelle d'Anthropic étend cette idée en faisant évaluer au modèle ses propres sorties par rapport à un ensemble de principes, réduisant le besoin d'étiqueteurs humains. Le Direct Preference Optimization (DPO) simplifie encore le pipeline en éliminant entièrement le modèle de récompense séparé, optimisant directement le modèle de langage sur les données de préférence. Pratiquement tous les grands agents conversationnels — ChatGPT, Claude, Gemini, Command R — reposent sur une variante de ce processus d'alignement basé sur le RL.
Le prochain chapitre du RL se joue dans deux domaines. Pour les agents IA, le RL entraîne des modèles à utiliser des outils, écrire et exécuter du code, naviguer sur le web et accomplir des objectifs en plusieurs étapes. OpenAI a entraîné ses modèles de raisonnement de la série o avec du RL sur des tâches de programmation et de mathématiques ; les modèles ont appris à planifier, revenir en arrière et vérifier — autant de comportements émergents entraînés par des signaux de récompense pour les réponses correctes. En robotique, le RL commence enfin à tenir les promesses de décennies : RT-2 de Google DeepMind et les robots humanoïdes de Figure utilisent le RL (souvent combiné avec l'apprentissage par imitation à partir de démonstrations humaines) pour manipuler des objets, naviguer dans des environnements et s'adapter à des situations nouvelles. Les plus grands problèmes ouverts restent l'efficacité en échantillons (le RL nécessite typiquement des millions d'essais pour apprendre des comportements qu'un humain acquiert en minutes), la spécification de la récompense (définir ce que « bien » signifie dans des tâches réelles complexes sans inciter accidentellement des raccourcis non voulus), et le transfert simulation-vers-réalité (les politiques apprises en simulation cassent souvent quand elles sont déployées sur du matériel physique, où le frottement, la latence et le bruit des capteurs créent un écart avec la réalité).