La forme la plus simple de calcul au moment du test est la chaîne de pensée : le modèle génère des étapes de raisonnement avant la réponse finale. Des approches plus sophistiquées incluent : l'arbre de pensée (explorer plusieurs chemins de raisonnement et sélectionner le meilleur), l'auto-cohérence (générer plusieurs réponses et voter), et l'affinement itératif (le modèle critique et révise sa propre sortie). Chaque approche utilise plus de tokens (= plus de calcul = plus de coût) mais produit de meilleurs résultats.
Des modèles comme o1 (OpenAI) et Claude avec réflexion étendue génèrent des tokens de raisonnement internes que l'utilisateur ne voit pas. Ces « tokens de réflexion » permettent au modèle de décomposer les problèmes complexes, vérifier son travail, considérer les cas limites et réviser son approche — le tout avant de produire la réponse visible. Le coût est plus élevé (tu paies pour les tokens de réflexion) et la latence est plus longue, mais la précision sur les tâches de mathématiques, de codage et de raisonnement s'améliore considérablement.
La recherche suggère que le calcul au moment du test suit ses propres lois d'échelle : doubler le calcul d'inférence (temps de réflexion) produit des améliorations prévisibles de la précision, de façon analogue à la façon dont doubler le calcul d'entraînement améliore la perte de pré-entraînement. Ça signifie que tu peux choisir ton compromis qualité-coût par requête : les questions simples obtiennent des réponses rapides et bon marché ; les questions complexes obtiennent un raisonnement plus long et plus coûteux. Cette allocation dynamique est plus efficace que d'utiliser le même calcul pour chaque requête.