Andon Labs — la startup de seguridad IA detrás de Project Vend de Anthropic el año pasado — puso a Gemini a cargo de un café de Viena llamado "Café-Faire" durante un mes. El agente, llamado Mona, configuró electricidad e internet, puso anuncios de empleo en LinkedIn, consiguió permisos de asientos al aire libre, y abrió cuentas con mayoristas. También ordenó 3.000 guantes de goma para un puñado de empleados, 6.000 servilletas, 4 botiquines de primeros auxilios, y tomates enlatados que no estaban en el menú. Total sobre aproximadamente un mes: $5.700 en ventas contra más de $16.000 en gastos de un presupuesto de $21.000 — una pérdida de $10.300. La causa diagnosticada: límites de ventana de contexto haciendo que Mona olvidara pedidos pasados.
Esta es la segunda eval de agente de horizonte largo de Andon Labs en aterrizar públicamente. La primera, Project Vend de Anthropic (Claude gestionando una máquina expendedora), la AP la describe como "aún más desastrosa" — comportamiento abusivo hacia clientes y gastos derrochadores. Café-Faire hace el modo de fallo legible: los agentes pueden manejar tareas de configuración one-off como servicios, anuncios de empleo, permisos y cuentas de proveedores porque cada una es una secuencia auto-contenida de llamadas a API. No pueden manejar de manera confiable la gestión de inventario porque eso requiere recordar compras pasadas durante semanas, y la ventana de contexto no se extiende hasta allí. Mona ordenó por duplicado porque no tenía un libro mayor persistente de lo que ya había comprado. Andon Labs no reveló qué versión de Gemini se usó, pero el artículo encuadra esto como el modelo de clase frontera actual — significando que el cuello de botella de memoria de ventana de contexto es la restricción a escala frontera, no un artefacto de modelo pequeño. Las fallas específicas (3K guantes, 6K servilletas, tomates enlatados fuera del menú) lucen absurdas aisladamente, pero son estructuralmente inevitables cuando un agente no tiene estado duradero.
La gestión de agentes de horizonte largo es exactamente la carga de trabajo que Anthropic envió a beta pública la semana pasada con Multiagent Orchestration + Outcomes (la arquitectura grader-en-su-propio-contexto), y el mismo espacio de problema que el skill `/signadot-validate` de Signadot apunta para despliegues de Kubernetes (sandboxes por-agente con aislamiento por clave de enrutamiento). El patrón a través de todos estos: los productos de agente de labs frontera están mayormente cuellos de botella en memoria y estado, no en capacidad bruta del modelo. El valor de Andon Labs como equipo de eval es nombrar esta restricción con pérdidas específicas en dólares a través de múltiples labs — Project Vend de Anthropic, ahora Café-Faire de Google Gemini. Esperen resultados similares cuando alguien ejecute la misma forma contra GPT-5.5, Llama, DeepSeek. El diagnóstico es consistente con lo que la propia función "Dreaming" de curación de memoria de Anthropic (anunciada en Code with Claude 2026) está tratando de resolver. El ciclo que va adelante es predecible: Andon Labs ejecuta eval, encuentra fallo de ventana de contexto, labs frontera envían un producto memoria/dreaming/estado-de-agente, próxima rerun de eval, se repite. La pregunta abierta interesante es si la memoria persistente de agente puede ser resuelta con retrieval + logs estructurados, o si requiere cambios arquitectónicos — tokens de estado, módulos de memoria neuronal, ventanas de contexto largo verdaderas que no degraden.
Andon Labs se está estableciendo como el equivalente de eval-de-agente de lo que METR se ha convertido para evals de investigación autónoma — ejecutando tests del mundo real de horizonte largo a escala lab-frontera y publicando modos de fallo legibles con cifras de dólares adjuntas. Para cualquiera que esté enviando un producto agente en producción ahora: presupuesta para un fallo estilo Andon Labs (tu agente olvidará acciones pasadas y las repetirá) y construye estado duradero fuera de la ventana de contexto del agente — un libro mayor estructurado, un almacén de memoria, una base de datos de la que el agente tenga que leer antes de decidir. Para la audiencia amplia: "la IA va a manejar negocios" es el pitch de marketing; "la IA ordena 6.000 servilletas porque olvidó que compró 4.000 la semana pasada" es la sustancia. Café-Faire es más útil como benchmark que como historia. La cifra de $10.300 de pérdida va a ser citada mucho.
