GitHub将其agentic CI工作流的token开销削减了多达62%,并在gh-aw CLI中发布了该方法论——这些技术可被任何在CI/CD中运行LLM agent的团队复用。头条发现是大多数构建者在不测量的情况下支付的:一个暴露40个工具的MCP服务器每轮添加10-15KB的schema,无论agent是否使用这些工具,而修剪未使用的条目在他们的smoke-test工作流中每次调用削减了8-12KB。你接入agent的每个工具在每一轮都花费上下文token。具体结果:Auto-Triage Issues降低62% Effective-Tokens,Smoke Claude 59%,Security Guard 43%。

第二个技术是CLI替代:GitHub用gh CLI命令替换了获取PR diff和文件内容的MCP调用,要么预下载到workspace文件中,要么通过将认证远离agent的HTTP网关代理。MCP是一个干净的协议,但对于高频确定性获取,它支付一个CLI调用避免的每次调用schema-和-envelope税。测量框架是最可移植的想法:Effective Tokens(ET)指标将输出token加权4×、缓存读取0.1×,然后应用模型乘数——Haiku 0.25×、Sonnet 1.0×、Opus 5.0×——所以一个数字跨模型比较成本并捕获回归。Token数据通过token-usage.jsonl制品跨CLI工具捕获,两个agent运行循环:一个Daily Token Usage Auditor按工作流聚合并标记昂贵的job,一个Daily Token Optimiser读取源和日志、打开GitHub issue并提出具体修复。

生态系统解读:这是Uber COO标记的生产力归因问题的成本面——如果你无法测量开销就无法证明价值链,而GitHub刚刚发布了一种严格的测量开销的方法。MCP schema膨胀的发现值得最多关注,因为agent生态系统一直在热情地添加MCP服务器而不核算工具定义的每轮上下文成本——一个40工具服务器是每次推理的常设税,而大多数团队从未看过。Effective-Tokens加权是GitHub自己的(4×/0.1×/5×数字是选择,不是标准),但一个在模型交换中存活的归一化成本指标的想法正是企业所缺乏的单位经济学instrumentation。审计员/优化员agent循环也是一个干净的自引用模式:agent优化agent成本,以人类可审查的GitHub issue作为输出。

如果你周一早上在CI中运行agent:先审计你的MCP工具列表——修剪工作流不调用的任何东西,因为你为每轮的每个schema付费。然后考虑为你最高频的确定性获取使用gh-CLI风格替代,并instrument一个token-usage.jsonl加一个Effective-Tokens风格指标,以便模型交换和prompt更改显示为你能看到的成本delta。gh-aw CLI是参考实现;方法论是可转移的部分。