Test-Time Compute: Definition & Meaning — AI Wiki

Utiliser du calcul additionnel pendant l'inférence (quand le modèle génère une réponse) pour améliorer la qualité de la réponse. Au lieu de générer une réponse immédiatement, le modèle « pense » plus longtemps — générant des tokens de raisonnement, explorant multiples approches ou vérifiant sa propre sortie. Plus de compute au test time produit de meilleures réponses, spécialement pour les tâches de raisonnement complexes.

Pourquoi c'est important

Le test-time compute est le dernier paradigme de scaling. La première ère scalait le compute d'entraînement (plus gros modèles, plus de données). L'ère actuelle scale aussi le compute d'inférence (plus de réflexion par question). Des modèles comme o1 et Claude avec extended thinking montrent que laisser un modèle raisonner pendant 30 secondes surpasse souvent un modèle qui répond en 2 secondes, même si le modèle rapide est techniquement plus gros. Ça change l'économie : la qualité devient une fonction de combien tu es prêt à dépenser par requête.

Deep Dive

The simplest form of test-time compute is chain-of-thought: the model generates reasoning steps before the final answer. More sophisticated approaches include: tree-of-thought (exploring multiple reasoning paths and selecting the best), self-consistency (generating multiple answers and voting), and iterative refinement (the model critiques and revises its own output). Each approach uses more tokens (= more compute = more cost) but produces better results.

Extended Thinking

Models like o1 (OpenAI) and Claude with extended thinking generate internal reasoning tokens that the user doesn't see. These "thinking tokens" let the model decompose complex problems, check its work, consider edge cases, and revise its approach — all before producing the visible response. The cost is higher (you pay for thinking tokens) and latency is longer, but accuracy on math, coding, and reasoning tasks improves dramatically.

Scaling Laws for Inference

Research suggests that test-time compute follows its own scaling laws: doubling inference compute (thinking time) produces predictable improvements in accuracy, analogous to how doubling training compute improves pre-training loss. This means you can choose your quality-cost trade-off per query: simple questions get fast, cheap answers; complex questions get longer, more expensive reasoning. This dynamic allocation is more efficient than using the same compute for every query.

Test-Time Compute

Pourquoi c'est important

Deep Dive

Extended Thinking

Scaling Laws for Inference

Concepts liés