Chaîne de pensée : Définition et signification — Wiki IA

Une technique de prompting où l'on demande au modèle de montrer son raisonnement étape par étape avant de donner une réponse finale. Au lieu de sauter à une conclusion, le modèle « réfléchit à voix haute », ce qui améliore considérablement la précision sur les tâches complexes.

Pourquoi c’est important

Demander « expliquez votre raisonnement » n'est pas seulement une question de transparence — cela rend réellement les modèles plus intelligents. La chaîne de pensée a réduit les erreurs mathématiques jusqu'à 50 % dans les premières études. La plupart des modèles modernes le font maintenant de manière interne.

En profondeur

Le prompting en chaîne de pensée fonctionne parce que les modèles de langage sont des prédicteurs du prochain token, et les tokens qu'ils génèrent deviennent partie de leur propre contexte. Quand vous demandez à un modèle de « réfléchir étape par étape », vous n'activez pas un module de raisonnement caché — vous le forcez à produire des tokens intermédiaires qui contraignent et guident les tokens suivants vers une réponse correcte. Sans ces étapes intermédiaires, le modèle doit faire un seul saut inférentiel massif de la question à la réponse, et c'est exactement là que les erreurs s'accumulent. Avec la chaîne de pensée, chaque étape réduit l'espace de probabilité pour la suivante. C'est la différence entre essayer de multiplier 347 par 29 de tête en une fois et écrire les produits partiels sur papier.

La recherche derrière la technique

L'article original de 2022 de Wei et al. chez Google a montré que le prompting en chaîne de pensée était essentiellement gratuit pour les grands modèles — simplement ajouter « Réfléchissons étape par étape » à un prompt a fait passer la précision en mathématiques sur GSM8K d'environ 18 % à 57 % sur PaLM 540B. Mais la technique n'aidait quasiment pas les petits modèles, ce qui a mené à une règle pratique : la chaîne de pensée est surtout utile sur les modèles au-dessus d'environ 10 milliards de paramètres. En dessous de ce seuil, le modèle génère souvent des étapes de raisonnement qui semblent plausibles mais sont erronées, ce qui fait plus de tort que de sauter directement à la réponse. C'est à retenir si vous routez entre des modèles de tailles différentes en production.

Intégrée dans les modèles

Les modèles de pointe modernes — Claude, GPT-4, Gemini — ont largement intériorisé la chaîne de pensée pendant l'entraînement. Anthropic et OpenAI utilisent tous deux des variantes de modèles de récompense de processus et d'apprentissage par renforcement pour entraîner des modèles qui raisonnent à travers les problèmes avant de répondre, même quand on ne le leur demande pas explicitement. Les modèles o1 et o3 d'OpenAI poussent cela le plus loin, effectuant un raisonnement interne prolongé visible dans une trace de « réflexion ». La réflexion étendue de Claude fonctionne de manière similaire. La conséquence pratique est que pour les modèles de pointe, le prompting explicite en chaîne de pensée compte moins qu'en 2023, mais il aide encore quand on veut inspecter le raisonnement, repérer des erreurs, ou quand on travaille avec des modèles plus petits ou open source qui n'ont pas reçu cet entraînement.

Une idée reçue courante est que la chaîne de pensée signifie toujours des réponses plus longues et plus lentes. En pratique, on peut combiner la chaîne de pensée avec une sortie structurée — demander au modèle de raisonner dans une section brouillon, puis produire une réponse finale concise. De nombreux utilisateurs d'API placent le raisonnement dans un champ séparé ou utilisent des balises XML pour délimiter la réflexion de la réponse. Cela donne les avantages de précision sans forcer les utilisateurs finaux à parcourir des paragraphes de raisonnement. Un autre piège : la chaîne de pensée peut en fait rendre les modèles moins performants sur les tâches simples où trop réfléchir introduit un doute inutile. Si vous demandez « Quelle est la capitale de la France ? », vous n'avez pas besoin de cinq étapes de raisonnement — vous avez besoin d'une réponse directe.

Les variantes

Les variantes de la chaîne de pensée méritent d'être connues. La chaîne de pensée zero-shot (simplement ajouter « réfléchissez étape par étape ») est la plus simple. La chaîne de pensée few-shot fournit des exemples travaillés avec des chaînes de raisonnement dans le prompt. L'arbre de pensée va plus loin, laissant le modèle explorer plusieurs branches de raisonnement et revenir en arrière. L'auto-cohérence génère plusieurs chemins de raisonnement et prend un vote majoritaire sur la réponse finale, ce qui est l'un des boosters de précision les plus fiables disponibles. Chaque niveau supérieur coûte plus de tokens et de latence, donc le bon choix dépend de si vous optimisez pour le coût, la vitesse ou la justesse — et de la difficulté réelle du problème.

Chaîne de pensée

Pourquoi c’est important

En profondeur

La recherche derrière la technique

Intégrée dans les modèles

Les variantes

Concepts connexes