Andon Labs —— 去年 Anthropic Project Vend 背后的 AI 安全初创公司 —— 让 Gemini 负责维也纳一家叫「Café-Faire」的咖啡店一个月。代理名为 Mona,设置了电力和互联网、发布了 LinkedIn 招聘广告、获得了室外座位许可证,并开设了批发商账户。她还为少数员工订购了 3,000 双橡胶手套、6,000 张餐巾、4 个急救包,以及不在菜单上的罐装番茄。约一个月的总计:5,700 美元销售对超过 16,000 美元支出,来自 21,000 美元预算 —— 损失 10,300 美元。诊断原因:上下文窗口限制使 Mona 忘记过去的订单。

这是 Andon Labs 第二次公开发布的长视野代理评测。第一次,Anthropic 的 Project Vend(Claude 管理自动售货机),美联社描述为「更加灾难性」—— 对客户的虐待行为和浪费支出。Café-Faire 使失败模式变得清晰:代理可以处理一次性设置任务,如公用事业、招聘广告、许可证和供应商账户,因为每一个都是自包含的 API 调用序列。它们不能可靠地处理库存管理,因为这需要记住数周的过去采购,而上下文窗口不延伸那么远。Mona 重复下单是因为她没有持久的账本记录她已经买了什么。Andon Labs 没有透露使用的 Gemini 版本,但文章将此定性为当前前沿类模型 —— 意味着上下文窗口内存瓶颈是前沿规模的约束,不是小模型工件。具体的失败(3K 手套、6K 餐巾、菜单外的罐装番茄)孤立地看显得荒谬,但当代理没有持久状态时,它们在结构上是不可避免的。

长视野代理管理正是 Anthropic 上周发布到公测的工作负载,包括 Multiagent Orchestration + Outcomes(grader-在自己-上下文的架构),以及 Signadot 的 `/signadot-validate` skill 针对 Kubernetes 部署所瞄准的相同问题空间(每个代理的沙箱与路由密钥隔离)。所有这些的模式:前沿实验室代理产品大多数瓶颈在内存和状态上,而不是在原始模型能力上。Andon Labs 作为评测团队的价值是用跨多个实验室的具体美元损失命名这一约束 —— Anthropic Project Vend,现在是 Google Gemini Café-Faire。预计当有人针对 GPT-5.5、Llama、DeepSeek 运行相同形式时会有类似结果。诊断与 Anthropic 自己的「Dreaming」记忆策展功能(在 Code with Claude 2026 上宣布)试图解决的问题一致。接下来的循环是可预测的:Andon Labs 运行评测、发现上下文窗口失败、前沿实验室发布内存/dreaming/代理状态产品、下次评测重新运行、重复。有趣的开放问题是,持久代理内存能否通过检索 + 结构化日志解决,还是需要架构变化 —— 状态令牌、神经记忆模块、不退化的真正长上下文窗口。

Andon Labs 正在成为 METR 在自主研究评测领域的代理评测对应物 —— 以前沿实验室规模运行长视野真实世界测试,并发布带有美元数字附加的清晰失败模式。对于现在正在生产中部署代理产品的任何人:为 Andon-Labs 风格的失败做预算(你的代理会忘记过去的动作并重复它们),并在代理的上下文窗口之外构建持久状态 —— 结构化账本、内存存储、代理在决定前必须读取的数据库。对于广泛受众:「AI 将运营企业」是营销宣传;「AI 订购 6,000 张餐巾,因为它忘了上周买了 4,000 张」是实质。Café-Faire 作为基准比作为故事更有用。10,300 美元损失数字将被大量引用。