GitHub corta 62% del gasto de tokens agent CI: poda MCP, cambia a gh CLI, audita diario

GitHub cortó el gasto de tokens en sus workflows CI agentic hasta 62% y envió la metodología en el CLI gh-aw — y las técnicas son reutilizables por cualquier equipo corriendo agentes LLM en CI/CD. El hallazgo principal es el que la mayoría de constructores pagan sin medir: un servidor MCP exponiendo 40 herramientas agrega 10-15KB de esquema por turno, use el agente esas herramientas o no, y podar entradas no usadas cortó 8-12KB por llamada en sus workflows smoke-test. Cada herramienta que conectas a un agente cuesta tokens de contexto en cada turno. Resultados concretos: Auto-Triage Issues 62% de reducción Effective-Tokens, Smoke Claude 59%, Security Guard 43%.

La segunda técnica es sustitución CLI: GitHub reemplazó llamadas MCP para fetchear diffs de PR y contenidos de archivos con comandos gh CLI, ya sea pre-descargados en archivos workspace o proxiados a través de un gateway HTTP que mantiene la autenticación lejos del agente. MCP es un protocolo limpio, pero para fetches determinísticos de alta-frecuencia paga un impuesto de esquema-y-envelope por llamada que una llamada CLI evita. El framework de medición es la idea más portable: una métrica Effective Tokens (ET) que pesa los tokens de salida 4×, cache reads 0.1×, luego aplica un multiplicador de modelo — Haiku 0.25×, Sonnet 1.0×, Opus 5.0× — así un solo número compara costo a través de modelos y atrapa regresiones. Los datos de tokens se capturan en un artefacto token-usage.jsonl a través de herramientas CLI, y dos agentes corren el loop: un Daily Token Usage Auditor que agrega por workflow y marca jobs caros, y un Daily Token Optimiser que lee fuente y logs, abre un issue de GitHub, y propone fixes específicos.

La lectura de ecosistema: este es el lado costo del problema de atribución de productividad que el COO de Uber marcó — no puedes probar el vínculo de valor si no puedes medir el gasto, y GitHub acaba de publicar una forma rigurosa de medir el gasto. El hallazgo de schema-bloat MCP merece la mayor atención porque el ecosistema agent ha estado agregando servidores MCP con entusiasmo sin contabilizar el costo de contexto por-turno de las definiciones de herramientas — un servidor de 40 herramientas es un impuesto permanente en cada inferencia, y la mayoría de equipos nunca lo miraron. El ponderado Effective-Tokens es el propio de GitHub (los números 4×/0.1×/5× son elecciones, no un estándar), pero la idea de una sola métrica de costo normalizada que sobrevive swaps de modelos es exactamente la instrumentación de economía unitaria que las empresas han carecido. El loop de agentes auditor/optimiser es también un patrón auto-referencial limpio: agentes optimizando costo de agentes, con un issue de GitHub revisable por humano como output.

Si corres agentes en CI el lunes por la mañana: audita tu lista de herramientas MCP primero — poda todo lo que el workflow no llame, porque pagas por cada esquema en cada turno. Luego considera sustitución estilo gh-CLI para tus fetches determinísticos de más alta-frecuencia, e instrumenta un token-usage.jsonl más una métrica estilo Effective-Tokens para que los swaps de modelos y cambios de prompt aparezcan como deltas de costo que puedes ver. El CLI gh-aw es la implementación de referencia; la metodología es la parte transferible.

GitHub corta 62% del gasto de tokens agent CI: poda MCP, cambia a gh CLI, audita diario

Más noticias