Andon Labs —— 去年 Anthropic Project Vend 背後的 AI 安全新創 —— 讓 Gemini 負責維也納一家叫「Café-Faire」的咖啡店一個月。代理名為 Mona,設置了電力和網際網路、發布了 LinkedIn 招聘廣告、獲得了室外座位許可證,並開設了批發商帳戶。她還為少數員工訂購了 3,000 雙橡膠手套、6,000 張餐巾、4 個急救包,以及不在菜單上的罐裝番茄。約一個月的總計:5,700 美元銷售對超過 16,000 美元支出,來自 21,000 美元預算 —— 損失 10,300 美元。診斷原因:上下文視窗限制使 Mona 忘記過去的訂單。

這是 Andon Labs 第二次公開發布的長視野代理評測。第一次,Anthropic 的 Project Vend(Claude 管理自動販賣機),美聯社描述為「更加災難性」—— 對客戶的虐待行為和浪費支出。Café-Faire 使失敗模式變得清晰:代理可以處理一次性設置任務,如公用事業、招聘廣告、許可證和供應商帳戶,因為每一個都是自包含的 API 呼叫序列。它們不能可靠地處理庫存管理,因為這需要記住數週的過去採購,而上下文視窗不延伸那麼遠。Mona 重複下單是因為她沒有持久的帳本記錄她已經買了什麼。Andon Labs 沒有透露使用的 Gemini 版本,但文章將此定性為當前前沿類模型 —— 意味著上下文視窗記憶體瓶頸是前沿規模的約束,不是小模型工件。具體的失敗(3K 手套、6K 餐巾、菜單外的罐裝番茄)孤立地看顯得荒謬,但當代理沒有持久狀態時,它們在結構上是不可避免的。

長視野代理管理正是 Anthropic 上週發布到公測的工作負載,包括 Multiagent Orchestration + Outcomes(grader-在自己-上下文的架構),以及 Signadot 的 `/signadot-validate` skill 針對 Kubernetes 部署所瞄準的相同問題空間(每個代理的沙箱與路由密鑰隔離)。所有這些的模式:前沿實驗室代理產品大多數瓶頸在記憶體和狀態上,而不是在原始模型能力上。Andon Labs 作為評測團隊的價值是用跨多個實驗室的具體美元損失命名這一約束 —— Anthropic Project Vend,現在是 Google Gemini Café-Faire。預計當有人針對 GPT-5.5、Llama、DeepSeek 運行相同形式時會有類似結果。診斷與 Anthropic 自己的「Dreaming」記憶策展功能(在 Code with Claude 2026 上宣布)試圖解決的問題一致。接下來的循環是可預測的:Andon Labs 運行評測、發現上下文視窗失敗、前沿實驗室發布記憶體/dreaming/代理狀態產品、下次評測重新運行、重複。有趣的開放問題是,持久代理記憶體能否透過檢索 + 結構化日誌解決,還是需要架構變化 —— 狀態令牌、神經記憶體模組、不退化的真正長上下文視窗。

Andon Labs 正在成為 METR 在自主研究評測領域的代理評測對應物 —— 以前沿實驗室規模運行長視野真實世界測試,並發布帶有美元數字附加的清晰失敗模式。對於現在正在生產中部署代理產品的任何人:為 Andon-Labs 風格的失敗做預算(你的代理會忘記過去的動作並重複它們),並在代理的上下文視窗之外構建持久狀態 —— 結構化帳本、記憶體存儲、代理在決定前必須讀取的資料庫。對於廣泛受眾:「AI 將運營企業」是行銷宣傳;「AI 訂購 6,000 張餐巾,因為它忘了上週買了 4,000 張」是實質。Café-Faire 作為基準比作為故事更有用。10,300 美元損失數字將被大量引用。