Grab ने अपने Analytics Data Warehouse platform के लिए production multi-agent system बनाया, 1,000+ internal users को deployed जो 15,000+ tables manage करते हैं। Architecture: एक supervisor agent communication और task delegation control करता है; specialized agents context retrieval, code search, और solution generation handle करते हैं। Two primary workflows — investigation (query analysis, SQL debugging, log retrieval, schema lookup) और enhancement (code fixes, automated merge requests)। Workflow engine के लिए LangGraph पर built और routing, tool execution, और state management के लिए FastAPI services। Tool ecosystem 30+ tools से एक curated set में consolidated: controlled SQL execution, metadata access, log retrieval, Git-based workflows। Specific models used disclosed नहीं। Reported impact: Head of Analytics के अनुसार "हर महीने सैकड़ों engineering hours reclaimed," plus reactive firefighting से platform development work की तरफ shift।
Architectural choices वो हिस्सा है जो study करने लायक है। पहला, **constrained agent responsibilities** — हर specialized agent का scope narrow है reasoning ambiguity reduce करने के लिए। यह वही instinct है जो इस सुबह के agent security piece में proposal-execution split था: agent क्या decide कर सकता है उसे limit करो ताकि gates verify कर सकें कि वह क्या करता है। दूसरा, **सभी code changes पर human-in-the-loop** — कोई agent बिना review के production में write नहीं करता। तीसरा, **sensitive-data protection के साथ SQL execution validation layers** — agent arbitrary SQL नहीं run करता; वह SQL एक controlled-execution gate के through run करता है जो sensitive data scrub करता है और run करने से पहले validate करता है। चौथा, **token limits के भीतर multi-step reasoning के लिए structured context compression** — long-context problem (15K tables का मतलब है schema lookups context budget जल्दी blow करते हैं) explicit compression के साथ solved है, model पर भरोसा करके कि क्या relevant है। 30-tools-to-curated reduction operational lesson है: tool sprawl agent को less reliable बनाता है, more capable नहीं। Curation काम है।
Builders के लिए यह क्यों मायने रखता है। इस scale (1K users, 15K tables) पर इस concreteness (LangGraph + FastAPI stack named, human-in-the-loop named, tool consolidation named) के साथ production multi-agent deployments public reporting में rare हैं। ज़्यादातर published agent case studies demos या pilots हैं। Grab की specifics आपको बताती हैं production-grade वास्तव में कैसा दिखता है: framework choice (AutoGen, CrewAI, या custom के बजाय LangGraph) real signal है — LangGraph के checkpointing और supervisor-pattern primitives इस use case के लिए battle-tested हैं। Analytics Data Warehouse use case भी generalizable है: कहीं भी जहाँ आपके पास एक complex internal platform (data warehouse, internal API surface, infra automation) है जो कई engineers को repetitive support load के साथ support करती है, Grab pattern apply होता है — supervisor agent, specialized retrievers, controlled execution gates, writes पर human-in-loop।
सोमवार: अगर आप multi-agent engineering-support deployment consider कर रहे हैं, Grab pattern एक strong template है। Concrete starting points। (1) orchestration layer के लिए LangGraph pick करें अगर आपकी team के पास पहले से strong opinion नहीं — supervisor-pattern primitives investigation/enhancement workflow splits पर cleanly map करते हैं। (2) अपनी existing internal tool surface audit करें; Grab पर 30-to-curated reduction lesson है — बहुत सारे tools agent को बुरा बनाते हैं। 5 से 10 tools नाम देने से शुरू करें जो 80% support load cover करते हैं और वहाँ से build करें। (3) Agent को production में कुछ भी write करने देने से पहले controlled-execution gate set up करें। SQL execution validation + sensitive-data scrubbing वो specific pattern है जो Grab use करता है; general pattern policy-checked execution है जो non-bypassable है। (4) सभी code changes पर human-in-the-loop day one से plan करें — बाद में retrofit करना build-in करने से ज़्यादा कठिन है। (5) अपनी primary metric के रूप में "engineering hours reclaimed" measure करें, "tickets resolved" या model accuracy नहीं — agent के लिए business case reclaimed engineer time है, और वही Grab में Head of Analytics ने quote किया। Eval metric को business metric से match करना चाहिए।
