Andon Labs — पिछले साल Anthropic के Project Vend के पीछे की AI safety startup — ने एक महीने के लिए Vienna के "Café-Faire" नामक एक cafe का charge Gemini को दिया। Agent, जिसका नाम Mona है, ने electricity और internet set up किया, LinkedIn job ads लगाए, outdoor seating permits हासिल किए, और wholesalers के साथ accounts खोले। उसने मुट्ठी भर employees के लिए 3,000 rubber gloves, 6,000 napkins, 4 first-aid kits, और canned tomatoes भी order किए जो menu पर नहीं थे। लगभग एक महीने में कुल: $5,700 sales बनाम $16,000 से अधिक spending $21,000 के budget में से — $10,300 का नुकसान। Diagnosed cause: context-window limits जो Mona को past orders भुलाते हैं।
यह Andon Labs की public में आने वाली second long-horizon agent eval है। पहली, Anthropic का Project Vend (Claude vending machine manage कर रहा), AP इसे "और भी disastrous" describe करता है — customers के प्रति abusive behavior और wasteful spending। Café-Faire failure mode को legible बनाता है: agents one-off setup tasks जैसे utilities, hiring ads, permits, और supplier accounts handle कर सकते हैं क्योंकि हर एक self-contained sequence of API calls है। वे inventory management reliably handle नहीं कर सकते क्योंकि उसके लिए हफ्तों के past purchases याद रखने की जरूरत होती है, और context window उतनी दूर नहीं फैलती। Mona ने double-order किया क्योंकि उसके पास कोई persistent ledger नहीं था कि उसने पहले से क्या खरीदा था। Andon Labs ने यह disclose नहीं किया कि कौन सा Gemini version use हुआ था, लेकिन article इसे current frontier-class model के रूप में frame करता है — मतलब context-window memory bottleneck frontier scale पर constraint है, small-model artifact नहीं। Specific failures (3K gloves, 6K napkins, menu off canned tomatoes) अकेले देखने पर बेतुके लगते हैं, लेकिन जब एक agent के पास durable state नहीं है, वे structurally inevitable हैं।
Long-horizon agent management exactly वही workload है जो Anthropic ने पिछले हफ्ते Multiagent Orchestration + Outcomes (grader-in-its-own-context architecture) के साथ public beta में ship किया, और वही problem space जो Signadot का `/signadot-validate` skill Kubernetes deploys के लिए target करता है (per-agent sandboxes routing-key isolation के साथ)। इन सभी का pattern: frontier-lab agent products mostly memory और state पर bottlenecked हैं, raw model capability पर नहीं। Andon Labs की एक eval team के रूप में value इस constraint को multiple labs में specific dollar losses के साथ name करने में है — Anthropic Project Vend, अब Google Gemini Café-Faire। उम्मीद करें कि जब कोई GPT-5.5, Llama, DeepSeek के विरुद्ध same shape चलाए तो similar results मिलेंगे। Diagnosis Anthropic की अपनी "Dreaming" memory-curation feature (Code with Claude 2026 में announced) जो solve करने की कोशिश कर रही है उससे consistent है। आगे का cycle predictable है: Andon Labs eval चलाता है, context-window failure पाता है, frontier labs एक memory/dreaming/agent-state product ship करते हैं, next eval rerun, repeat। Interesting open question यह है कि क्या persistent agent memory को retrieval + structured logs से solve किया जा सकता है, या इसके लिए architectural changes चाहिए — state tokens, neural memory modules, true long-context windows जो degrade न हों।
Andon Labs खुद को METR autonomous-research evals के लिए जो बन गया है उसका agent-eval equivalent स्थापित कर रहा है — frontier-lab scale पर long-horizon real-world tests चलाते हुए और attached dollar figures के साथ legible failure modes publish करते हुए। अभी production में agent product ship कर रहे किसी के लिए: Andon-Labs-style failure के लिए budget रखें (आपका agent past actions भूलेगा और उन्हें repeat करेगा) और agent के context window के बाहर durable state बनाएं — एक structured ledger, एक memory store, एक database जिसमें agent को decide करने से पहले पढ़ना है। व्यापक audience के लिए: "AI businesses चलाने वाली है" marketing pitch है; "AI 6,000 napkins order करती है क्योंकि वह भूल गई कि उसने पिछले हफ्ते 4,000 खरीदे" substance है। Café-Faire benchmark के रूप में story से ज्यादा useful है। $10,300 loss number बहुत cite किया जाएगा।
