Les modèles de raisonnement bloquent un GPU pendant 30 secondes — c'est ça, la facture

Le coût d'un modèle de raisonnement, ça ne se mesure pas en tokens. Ça se mesure en secondes d'horloge où ton GPU est bloqué sur une seule requête. Un modèle standard prédit en environ une seconde; un modèle de raisonnement peut tenir le même GPU pendant trente secondes pendant qu'il navigue à travers la pensée intercalée, les appels d'outils et l'auto-correction. Ce ratio-là, c'est la vraie facture — ta capacité d'utilisateurs simultanés chute par 30, ta latence P95 devient non-déterministe, et le nombre de tokens-par-million sur ta facture, c'est le symptôme, pas la maladie.

L'inference scaling, ça veut dire que le coût cesse d'être linéaire avec la taille de l'entrée. L'article TDS marche à travers où ça se manifeste : la décomposition en chaîne de pensée brûlant des milliers de tokens sur des tâches simples (la boucle classique du « brûle-des-tokens-pour-ajouter-1-à-9900 »), l'occupation mémoire GPU qui étire de moins-d'une-seconde à 30s+, et la variance de latence P95 qui « fait sentir les applications comme cassées » par les timeouts. Étude de cas concrète tirée du papier : déplacer le travail simple hors d'un modèle de raisonnement a sauvé 2 030 $/jour — 3 000 $ à 970 $, une coupe de 68 % — sans affecter la qualité des tâches. La leçon, c'est que ton modèle de raisonnement n'est pas le pas-cher pour tout; c'est le cher qui en vaut la peine parfois.

C'est pour ça que tous les fournisseurs frontières vendent maintenant le routage comme produit. Claude Sonnet 4.5 + Haiku 4.5, OpenAI o3 + gpt-4.1, Gemini 2.5 Pro + Flash — le palier de routage existe parce que la forme du coût raisonnement vs non-raisonnement est sincèrement différente, et essayer de cacher ça aux développeurs, ça produit juste des factures dégueulasses. Le recadrage intéressant du papier : arrête de mesurer en « dollars par million de tokens » et commence à mesurer en « coût par tâche réussie ». Un modèle de raisonnement qui règle un problème en 40K tokens mais mange deux retries est plus cher qu'un plus petit modèle qui score en 2K. Ta facture ne montre pas ça; ton ratio de tâches complétées, oui.

Trois choses que tu peux faire cette semaine. Premièrement : classer ton trafic en Use / Maybe / Avoid pour le raisonnement — math, planification, débogage multi-étapes c'est Use; extraction, formatage, lookups simples c'est Avoid. Deuxièmement : mets des plafonds durs sur les tokens de raisonnement, les retries et le temps total de requête pour qu'une boucle de piège-à-pensée n'avale pas ton budget en une nuit. Troisièmement : log par requête `tokens × secondes-horloge × succès-bool` et regarde la distribution coût-par-tâche-réussie, pas le coût moyen par token. Le modèle de raisonnement, c'est un vrai outil — il n'est juste pas le bon outil soixante-dix pour cent du temps où tu seras tenté d'y aller.

Les modèles de raisonnement bloquent un GPU pendant 30 secondes — c'est ça, la facture

Plus de nouvelles