GitHub ने अपने agentic CI वर्कफ़्लो में token खर्च को 62% तक घटाया और पद्धति को gh-aw CLI में भेजा — और तकनीकें CI/CD में LLM agent चलाने वाली किसी भी टीम द्वारा पुन: प्रयोज्य हैं। मुख्य खोज वह है जिसे अधिकांश बिल्डर्स बिना मापे भुगतान करते हैं: 40 टूल उजागर करने वाला एक MCP सर्वर प्रति टर्न 10-15KB schema जोड़ता है, चाहे agent उन टूल का उपयोग करे या न करे, और अप्रयुक्त प्रविष्टियों को छाँटने से उनके smoke-test वर्कफ़्लो में प्रति कॉल 8-12KB कटा। आप एक agent में जो भी टूल wire करते हैं वह हर टर्न पर context token खर्च करता है। ठोस परिणाम: Auto-Triage Issues 62% Effective-Tokens कमी, Smoke Claude 59%, Security Guard 43%।
दूसरी तकनीक CLI प्रतिस्थापन है: GitHub ने PR diff और फ़ाइल सामग्री लाने के लिए MCP कॉल को gh CLI कमांड से बदला, या तो workspace फ़ाइलों में पूर्व-डाउनलोड या एक HTTP गेटवे के माध्यम से प्रॉक्सी जो प्रमाणीकरण को agent से दूर रखता है। MCP एक साफ़ प्रोटोकॉल है, लेकिन उच्च-आवृत्ति निर्धारक fetch के लिए यह प्रति-कॉल schema-और-envelope कर देता है जिसे एक CLI कॉल टालता है। मापन फ्रेमवर्क सबसे portable विचार है: एक Effective Tokens (ET) मीट्रिक जो आउटपुट token को 4×, cache reads को 0.1× भार देती है, फिर एक मॉडल गुणक लागू करती है — Haiku 0.25×, Sonnet 1.0×, Opus 5.0× — तो एक संख्या मॉडलों में लागत की तुलना करती है और regression पकड़ती है। Token डेटा CLI टूल में एक token-usage.jsonl artifact में कैप्चर किया जाता है, और दो agent loop चलाते हैं: एक Daily Token Usage Auditor जो वर्कफ़्लो द्वारा एकत्र करता है और महंगे job फ्लैग करता है, और एक Daily Token Optimiser जो स्रोत और लॉग पढ़ता है, एक GitHub issue खोलता है, और विशिष्ट फिक्स प्रस्तावित करता है।
इकोसिस्टम रीडिंग: यह Uber के COO द्वारा फ्लैग की गई उत्पादकता-एट्रिब्यूशन समस्या का लागत पक्ष है — आप मूल्य लिंक साबित नहीं कर सकते यदि आप खर्च नहीं माप सकते, और GitHub ने अभी खर्च मापने का एक कठोर तरीका प्रकाशित किया। MCP schema-bloat की खोज सबसे अधिक ध्यान की हकदार है क्योंकि agent इकोसिस्टम बिना टूल परिभाषाओं की प्रति-टर्न context लागत का हिसाब रखे उत्साहपूर्वक MCP सर्वर जोड़ता रहा है — एक 40-टूल सर्वर प्रत्येक inference पर एक स्थायी कर है, और अधिकांश टीमों ने कभी नहीं देखा। Effective-Tokens भार GitHub का अपना है (4×/0.1×/5× संख्याएँ विकल्प हैं, मानक नहीं), लेकिन एक एकल सामान्यीकृत लागत मीट्रिक का विचार जो मॉडल swap में जीवित रहता है वह ठीक वही यूनिट-अर्थशास्त्र instrumentation है जिसकी उद्यमों में कमी थी। ऑडिटर/ऑप्टिमाइज़र agent loop भी एक साफ़ स्व-संदर्भात्मक पैटर्न है: agent agent लागत का अनुकूलन करते हैं, मानव-समीक्षा योग्य GitHub issue आउटपुट के रूप में।
यदि आप सोमवार सुबह CI में agent चलाते हैं: पहले अपनी MCP टूल सूची ऑडिट करें — जो भी वर्कफ़्लो कॉल नहीं करता उसे छाँटें, क्योंकि आप हर टर्न पर हर schema के लिए भुगतान करते हैं। फिर अपने उच्चतम-आवृत्ति निर्धारक fetch के लिए gh-CLI शैली प्रतिस्थापन पर विचार करें, और एक token-usage.jsonl प्लस एक Effective-Tokens शैली मीट्रिक instrument करें ताकि मॉडल swap और prompt परिवर्तन ऐसे लागत delta के रूप में दिखें जिन्हें आप देख सकें। gh-aw CLI संदर्भ कार्यान्वयन है; पद्धति स्थानांतरणीय हिस्सा है।
