Zubnet AIApprendreWiki › Calcul au moment du test
Fondamentaux

Calcul au moment du test

Aussi appelé : Calcul à l'inférence, chaîne de pensée, tokens de réflexion
Utiliser du calcul supplémentaire pendant l'inférence (quand le modèle génère une réponse) pour améliorer la qualité de la réponse. Au lieu de générer une réponse immédiatement, le modèle « réfléchit » plus longtemps — générant des tokens de raisonnement, explorant plusieurs approches ou vérifiant sa propre sortie. Plus de calcul au moment du test produit de meilleures réponses, surtout pour les tâches de raisonnement complexes.

Pourquoi c'est important

Le calcul au moment du test est le dernier paradigme de mise à l'échelle. La première ère a mis à l'échelle le calcul d'entraînement (modèles plus gros, plus de données). L'ère actuelle met aussi à l'échelle le calcul d'inférence (plus de réflexion par question). Des modèles comme o1 et Claude avec réflexion étendue montrent que laisser un modèle raisonner pendant 30 secondes surpasse souvent un modèle qui répond en 2 secondes, même si le modèle rapide est techniquement plus gros. Ça change l'économie : la qualité devient une fonction de combien tu es prêt à dépenser par requête.

En profondeur

La forme la plus simple de calcul au moment du test est la chaîne de pensée : le modèle génère des étapes de raisonnement avant la réponse finale. Des approches plus sophistiquées incluent : l'arbre de pensée (explorer plusieurs chemins de raisonnement et sélectionner le meilleur), l'auto-cohérence (générer plusieurs réponses et voter), et l'affinement itératif (le modèle critique et révise sa propre sortie). Chaque approche utilise plus de tokens (= plus de calcul = plus de coût) mais produit de meilleurs résultats.

Réflexion étendue

Des modèles comme o1 (OpenAI) et Claude avec réflexion étendue génèrent des tokens de raisonnement internes que l'utilisateur ne voit pas. Ces « tokens de réflexion » permettent au modèle de décomposer les problèmes complexes, vérifier son travail, considérer les cas limites et réviser son approche — le tout avant de produire la réponse visible. Le coût est plus élevé (tu paies pour les tokens de réflexion) et la latence est plus longue, mais la précision sur les tâches de mathématiques, de codage et de raisonnement s'améliore considérablement.

Lois d'échelle pour l'inférence

La recherche suggère que le calcul au moment du test suit ses propres lois d'échelle : doubler le calcul d'inférence (temps de réflexion) produit des améliorations prévisibles de la précision, de façon analogue à la façon dont doubler le calcul d'entraînement améliore la perte de pré-entraînement. Ça signifie que tu peux choisir ton compromis qualité-coût par requête : les questions simples obtiennent des réponses rapides et bon marché ; les questions complexes obtiennent un raisonnement plus long et plus coûteux. Cette allocation dynamique est plus efficace que d'utiliser le même calcul pour chaque requête.

Concepts connexes

← Tous les termes
← ByteDance Caractéristique →