A GitHub cortou o gasto de tokens em seus workflows CI agentic em até 62% e enviou a metodologia no CLI gh-aw — e as técnicas são reutilizáveis por qualquer time rodando agentes LLM em CI/CD. O achado principal é o que a maioria dos construtores paga sem medir: um servidor MCP expondo 40 ferramentas adiciona 10-15KB de esquema por turno, use o agente essas ferramentas ou não, e podar entradas não usadas cortou 8-12KB por chamada em seus workflows smoke-test. Cada ferramenta que você conecta a um agente custa tokens de contexto em cada turno. Resultados concretos: Auto-Triage Issues 62% de redução Effective-Tokens, Smoke Claude 59%, Security Guard 43%.
A segunda técnica é substituição CLI: a GitHub substituiu chamadas MCP para buscar diffs de PR e conteúdos de arquivos por comandos gh CLI, seja pré-baixados em arquivos workspace ou proxiados através de um gateway HTTP que mantém a autenticação longe do agente. MCP é um protocolo limpo, mas para buscas determinísticas de alta-frequência paga um imposto de esquema-e-envelope por chamada que uma chamada CLI evita. O framework de medição é a ideia mais portátil: uma métrica Effective Tokens (ET) que pesa os tokens de saída 4×, cache reads 0.1×, depois aplica um multiplicador de modelo — Haiku 0.25×, Sonnet 1.0×, Opus 5.0× — então um único número compara custo através de modelos e pega regressões. Os dados de tokens são capturados em um artefato token-usage.jsonl através de ferramentas CLI, e dois agentes rodam o loop: um Daily Token Usage Auditor que agrega por workflow e sinaliza jobs caros, e um Daily Token Optimiser que lê fonte e logs, abre uma issue do GitHub, e propõe fixes específicos.
A leitura de ecossistema: este é o lado custo do problema de atribuição de produtividade que o COO da Uber sinalizou — você não pode provar o vínculo de valor se não pode medir o gasto, e a GitHub acabou de publicar uma forma rigorosa de medir o gasto. O achado de schema-bloat MCP merece a maior atenção porque o ecossistema agent vem adicionando servidores MCP com entusiasmo sem contabilizar o custo de contexto por-turno das definições de ferramentas — um servidor de 40 ferramentas é um imposto permanente em cada inferência, e a maioria dos times nunca olhou. O ponderado Effective-Tokens é o próprio da GitHub (os números 4×/0.1×/5× são escolhas, não um padrão), mas a ideia de uma única métrica de custo normalizada que sobrevive swaps de modelos é exatamente a instrumentação de economia unitária que as empresas careceram. O loop de agentes auditor/optimiser é também um padrão auto-referencial limpo: agentes otimizando custo de agentes, com uma issue do GitHub revisável por humano como output.
Se você roda agentes em CI segunda de manhã: audite sua lista de ferramentas MCP primeiro — pode tudo que o workflow não chama, porque você paga por cada esquema em cada turno. Depois considere substituição estilo gh-CLI para suas buscas determinísticas de mais alta-frequência, e instrumente um token-usage.jsonl mais uma métrica estilo Effective-Tokens para que swaps de modelos e mudanças de prompt apareçam como deltas de custo que você pode ver. O CLI gh-aw é a implementação de referência; a metodologia é a parte transferível.
