Grab a bâti un système multi-agent production pour engineering support sur sa plateforme Analytics Data Warehouse, déployé à 1,000+ users internes qui gèrent 15,000+ tables. L'architecture : un supervisor agent contrôle la communication et la délégation de task ; des specialized agents handlent context retrieval, code search, et solution generation. Deux workflows primaires — investigation (analyse de query, SQL debugging, retrieval de log, lookup de schema) et enhancement (code fixes, merge requests automatisés). Bâti sur LangGraph pour le workflow engine et des services FastAPI pour le routing, tool execution, et state management. Tool ecosystem consolidé de 30+ tools vers un set curé : SQL execution contrôlée, accès metadata, retrieval de log, workflows Git-based. Les modèles spécifiques utilisés sont pas divulgués. Impact reporté : « hundreds of engineering hours reclaimed each month » selon le Head of Analytics, plus un shift du firefighting réactif vers du travail de platform development.

Les choix architecturaux sont la partie qui vaut la peine d'étudier. Premier, **responsabilités d'agent constrained** — chaque specialized agent a un scope narrow pour réduire l'ambiguïté de reasoning. C'est le même instinct que le split proposal-execution dans le piece sécurité agent de ce matin : limite ce que l'agent peut décider pour que les gates puissent vérifier ce qu'il fait. Deuxième, **human-in-the-loop sur tous les code changes** — aucun agent écrit en production sans review. Troisième, **layers de validation SQL execution avec protection des sensitive data** — l'agent roule pas du SQL arbitraire ; il roule du SQL à travers un gate d'exécution contrôlée qui scrub les sensitive data et valide avant de rouler. Quatrième, **compression de context structurée pour reasoning multi-step dans les token limits** — le problème de long context (15K tables veut dire les schema lookups blow le context budget vite) est résolu avec de la compression explicite, pas en se fiant au modèle pour figure out ce qui est relevant. La réduction 30-tools-à-curé c'est la lesson opérationnelle : tool sprawl fait l'agent moins reliable, pas plus capable. La curation c'est le travail.

Pourquoi ça matter pour les builders. Des déploiements multi-agent production à cette scale (1K users, 15K tables) avec cette concreteness (stack LangGraph + FastAPI nommé, human-in-the-loop nommé, consolidation de tools nommée) c'est rare dans le reporting public. La plupart des case studies agent publiés c'est des démos ou des pilots. Les specifics de Grab te disent à quoi ressemble du production-grade actuellement : le choix de framework (LangGraph plutôt qu'AutoGen, CrewAI, ou custom) c'est un signal réel — les primitives checkpointing et supervisor-pattern de LangGraph sont battle-tested pour ce use case. Le use case Analytics Data Warehouse est aussi généralisable : n'importe où t'as une plateforme interne complexe (data warehouse, surface d'API interne, automation infra) qui supporte beaucoup d'engineers avec du support load répétitif, le pattern Grab s'applique — supervisor agent, specialized retrievers, gates d'exécution contrôlée, human-in-loop sur les writes.

Lundi matin : si tu considères un déploiement multi-agent engineering-support, le pattern Grab est un strong template. Points de départ concrets. (1) Pick LangGraph pour la layer d'orchestration si ta team a pas déjà une opinion forte — les primitives supervisor-pattern map cleanly aux splits de workflow investigation/enhancement. (2) Audite ta surface de tools internes existante ; la réduction 30-vers-curé chez Grab c'est la lesson — trop de tools fait l'agent worse. Commence par nommer les 5 à 10 tools qui cover 80% du support load et bâtis depuis là. (3) Setup le gate d'exécution contrôlée avant de laisser l'agent écrire quoi que ce soit en production. La validation SQL execution + scrubbing des sensitive data c'est le pattern spécifique qu'emploi Grab ; le pattern général c'est de l'exécution policy-checked qui est non-bypassable. (4) Plane le human-in-the-loop sur tous les code changes depuis day one — le retrofitter plus tard c'est beaucoup plus dur que le construire en. (5) Mesure « engineering hours reclaimed » comme ta metric primaire, pas « tickets resolved » ou model accuracy — le business case pour l'agent c'est le temps d'engineer reclaimed, et c'est ce que le Head of Analytics chez Grab a quoté. La metric d'eval devrait matcher la metric business.