Pendant des années, les modèles de langage étaient d'impressionnants imitateurs mais des penseurs peu fiables. Demander à GPT-3 de résoudre un problème mathématique en plusieurs étapes et il sautait souvent directement à une réponse — parfois juste, souvent fausse, sans moyen de tracer où il avait dévié. La percée est venue d'une intuition d'une simplicité trompeuse : si on entraîne un modèle à montrer son travail, il devient considérablement meilleur à trouver la bonne réponse. Le prompting par chaîne de pensée (démontré pour la première fois par des chercheurs de Google en 2022) a montré que simplement ajouter « réfléchissons étape par étape » à un prompt pouvait augmenter la précision sur les bancs d'essai mathématiques de 20 à 40 %. Mais le prompting n'effleure que la surface. Les véritables modèles de raisonnement — o1 et o3 d'OpenAI, DeepSeek-R1, la réflexion étendue de Claude — sont spécifiquement entraînés à générer de longues traces de raisonnement interne avant de produire une réponse, en utilisant l'apprentissage par renforcement pour récompenser les résultats finaux corrects quelle que soit la voie de raisonnement empruntée.
Un modèle de raisonnement ne « réfléchit pas plus fort » — il réfléchit différemment. Quand on donne un problème complexe à un modèle de langage standard, il génère des tokens de gauche à droite, s'engageant sur chaque mot avant de voir la solution complète. Un modèle de raisonnement génère une chaîne de pensée étendue — parfois des centaines ou des milliers de tokens — explorant des approches, revenant en arrière quand il atteint des impasses, et vérifiant sa propre logique avant de s'engager sur une réponse finale. Le modèle o3 d'OpenAI, par exemple, pourrait dépenser 10 000 tokens de réflexion sur un problème mathématique difficile, essayant une approche, reconnaissant une faille, changeant de stratégie et finalement convergeant vers une preuve correcte. Ce calcul supplémentaire au moment de l'inférence (souvent appelé « calcul au moment du test » ou « temps de réflexion ») est le compromis clé : les modèles de raisonnement sont plus lents et plus chers par requête, mais ils résolvent des problèmes que les modèles standard ne peuvent tout simplement pas résoudre. Sur des bancs d'essai comme AIME (mathématiques de compétition), GPQA (sciences de niveau doctorat) et SWE-bench (ingénierie logicielle réelle), les modèles de raisonnement surpassent leurs homologues non-raisonneurs de 30 à 50 points de pourcentage.
Construire un modèle de raisonnement implique un pipeline d'entraînement distinctif. La fondation est un modèle de langage pré-entraîné solide, mais l'étape critique est l'apprentissage par renforcement (RL) sur des tâches de raisonnement. DeepSeek a publié le compte rendu le plus détaillé avec leur modèle R1 : ils commencent par un affinage supervisé sur des exemples de bon raisonnement, puis appliquent le Group Relative Policy Optimization (GRPO) — une variante de l'apprentissage par renforcement qui récompense les réponses finales correctes sans nécessiter de modèle de récompense séparé. La phase RL est là où la magie opère. Le modèle découvre des stratégies de raisonnement par lui-même : décomposer les problèmes en sous-problèmes, vérifier son travail, considérer les cas limites, et même exprimer de l'incertitude quand il n'est pas sûr. Notamment, DeepSeek a constaté que son modèle développait spontanément ces comportements pendant l'entraînement RL sans qu'on les lui ait explicitement enseignés — le signal de récompense pour les réponses correctes suffisait à inciter un raisonnement rigoureux.
Les modèles de raisonnement ne sont pas infaillibles, et leurs échecs peuvent être plus subtils que ceux des modèles standard. Un problème courant est la « surréflexion » — le modèle génère une chaîne de pensée élaborée qui a l'air rigoureuse mais arrive à une mauvaise réponse parce qu'il a suivi un chemin logique plausible mais incorrect. Un autre est le coût du raisonnement sur des questions simples : demander à un modèle de raisonnement « Quelle est la capitale de la France? » peut déclencher une délibération inutile qui gaspille des tokens et du temps. Les modèles peuvent aussi exhiber des problèmes de « fidélité », où la chaîne de raisonnement visible ne reflète pas réellement le calcul interne du modèle — le modèle arrive à une réponse par correspondance de patterns mais génère ensuite une trace de raisonnement qui la rationalise a posteriori. Et les longues chaînes de raisonnement peuvent dériver : dans une chaîne de pensée de 5 000 tokens, une erreur à l'étape 3 peut se propager à travers les 40 étapes restantes, produisant une réponse finale fausse mais en apparence méticuleusement dérivée.
La trajectoire de la recherche en raisonnement pointe vers des modèles qui peuvent allouer adaptativement du temps de réflexion en fonction de la difficulté du problème — dépensant 50 tokens sur une question facile et 50 000 sur une difficile. Ce raisonnement « calcul-optimal » émerge déjà : OpenAI et Anthropic offrent tous deux des modèles qui ajustent automatiquement leur réflexion. Au-delà du raisonnement en un seul tour, la frontière est le raisonnement d'agent en plusieurs étapes — des modèles qui peuvent planifier et exécuter des tâches complexes sur de nombreuses interactions, maintenant une stratégie cohérente tout en s'adaptant aux nouvelles informations. La réflexion étendue de Claude, o3 d'OpenAI et DeepSeek-R1 représentent tous des systèmes de raisonnement de première génération. La prochaine génération combinera probablement le raisonnement avec l'utilisation d'outils (calculatrices, exécution de code, recherche) pour vérifier les étapes intermédiaires plutôt que de s'appuyer uniquement sur le calcul propre du modèle, comblant l'écart entre « IA qui raisonne » et « IA qui trouve fiablement la bonne réponse ».