GitHub a coupé les dépenses de tokens dans ses workflows CI agentiques de jusqu'à 62% pis a shipé la méthodologie dans le CLI gh-aw — pis les techniques sont réutilisables par n'importe quelle équipe qui roule des agents LLM en CI/CD. La trouvaille phare, c'est celle que la plupart des bâtisseurs paient sans mesurer : un serveur MCP qui expose 40 outils ajoute 10-15KB de schéma par tour, que l'agent utilise ces outils ou non, pis pruner les entrées inutilisées a coupé 8-12KB par appel dans leurs workflows smoke-test. Chaque outil que tu wire dans un agent coûte des tokens de contexte à chaque tour. Résultats concrets : Auto-Triage Issues 62% de réduction Effective-Tokens, Smoke Claude 59%, Security Guard 43%.

La deuxième technique, c'est la substitution CLI : GitHub a remplacé les appels MCP pour fetcher les diffs de PR pis les contenus de fichiers par des commandes gh CLI, soit pré-téléchargées dans des fichiers workspace soit proxiées à travers un gateway HTTP qui garde l'authentification loin de l'agent. MCP est un protocole propre, mais pour les fetches déterministes haute-fréquence il paie une taxe de schéma-et-envelope par appel qu'un appel CLI évite. Le framework de mesure, c'est l'idée la plus portable : une métrique Effective Tokens (ET) qui pèse les tokens de sortie 4×, les cache reads 0.1×, puis applique un multiplicateur de modèle — Haiku 0.25×, Sonnet 1.0×, Opus 5.0× — donc un seul nombre compare le coût à travers les modèles pis catche les régressions. Les données de tokens sont capturées dans un artefact token-usage.jsonl à travers les outils CLI, pis deux agents roulent la boucle : un Daily Token Usage Auditor qui agrège par workflow pis flag les jobs chers, pis un Daily Token Optimiser qui lit le source pis les logs, ouvre une issue GitHub, pis propose des fixes spécifiques.

La lecture écosystème : c'est le côté coût du problème d'attribution de productivité que le COO d'Uber a flaggé — tu peux pas prouver le lien de valeur si tu peux pas mesurer la dépense, pis GitHub vient de publier une façon rigoureuse de mesurer la dépense. La trouvaille de schema-bloat MCP mérite le plus d'attention parce que l'écosystème agent a ajouté des serveurs MCP avec enthousiasme sans comptabiliser le coût de contexte par-tour des définitions d'outils — un serveur 40-outils est une taxe permanente sur chaque inférence, pis la plupart des équipes l'ont jamais regardé. Le pondéré Effective-Tokens est celui de GitHub (les numéros 4×/0.1×/5× sont des choix, pas un standard), mais l'idée d'une seule métrique de coût normalisée qui survit aux swaps de modèles, c'est exactement l'instrumentation d'économie unitaire qui manquait aux entreprises. La boucle d'agents auditeur/optimiseur est aussi un pattern self-référentiel propre : des agents qui optimisent le coût d'agents, avec une issue GitHub révisable par humain comme output.

Si tu roules des agents en CI lundi matin : audite ta liste d'outils MCP en premier — prune tout ce que le workflow appelle pas, parce que tu paies pour chaque schéma à chaque tour. Ensuite considère la substitution style gh-CLI pour tes fetches déterministes les plus haute-fréquence, pis instrumente un token-usage.jsonl plus une métrique style Effective-Tokens pour que les swaps de modèles pis les changements de prompt apparaissent comme des deltas de coût que tu peux voir. Le CLI gh-aw est l'implémentation de référence ; la méthodologie est la partie transférable.