A Andon Labs — a startup de segurança IA por trás do Project Vend da Anthropic no ano passado — colocou o Gemini no comando de um café de Viena chamado "Café-Faire" por um mês. O agente, chamado Mona, configurou eletricidade e internet, colocou anúncios de emprego no LinkedIn, conseguiu permissões de assento ao ar livre, e abriu contas com atacadistas. Também ordenou 3.000 luvas de borracha para um punhado de funcionários, 6.000 guardanapos, 4 kits de primeiros socorros, e tomates em lata que não estavam no cardápio. Total sobre aproximadamente um mês: $5.700 em vendas contra mais de $16.000 em gastos de um orçamento de $21.000 — uma perda de $10.300. A causa diagnosticada: limites de janela de contexto fazendo Mona esquecer pedidos passados.

Esta é a segunda eval de agente de longo horizonte da Andon Labs a aterrissar publicamente. A primeira, Project Vend da Anthropic (Claude gerenciando uma máquina vending), a AP descreve como "ainda mais desastrosa" — comportamento abusivo com clientes e gastos desperdiçadores. Café-Faire torna o modo de falha legível: agentes podem lidar com tarefas de configuração one-off como utilidades, anúncios de emprego, permissões e contas de fornecedores porque cada uma é uma sequência auto-contida de chamadas de API. Eles não conseguem lidar de forma confiável com gerenciamento de inventário porque isso requer lembrar de compras passadas por semanas, e a janela de contexto não se estende até lá. Mona ordenou em duplicidade porque ela não tinha um livro razão persistente do que já havia comprado. A Andon Labs não revelou qual versão do Gemini foi usada, mas o artigo enquadra isso como o modelo de classe fronteira atual — significando que o gargalo de memória de janela de contexto é a restrição em escala fronteira, não um artefato de modelo pequeno. As falhas específicas (3K luvas, 6K guardanapos, tomates em lata fora do cardápio) parecem absurdas isoladamente, mas são estruturalmente inevitáveis quando um agente não tem estado durável.

Gerenciamento de agente de longo horizonte é exatamente a carga de trabalho que a Anthropic entregou em beta pública na semana passada com Multiagent Orchestration + Outcomes (a arquitetura grader-em-seu-próprio-contexto), e o mesmo espaço de problema que a skill `/signadot-validate` da Signadot mira para deploys Kubernetes (sandboxes por-agente com isolamento por chave de roteamento). O padrão através de todos esses: produtos de agente de labs fronteira estão majoritariamente gargalados em memória e estado, não em capacidade bruta de modelo. O valor da Andon Labs como time de eval é nomear essa restrição com perdas específicas em dólares através de múltiplos labs — Project Vend da Anthropic, agora Café-Faire do Google Gemini. Esperem resultados similares quando alguém rodar a mesma forma contra GPT-5.5, Llama, DeepSeek. O diagnóstico é consistente com o que a própria função "Dreaming" de curadoria de memória da Anthropic (anunciada no Code with Claude 2026) está tentando resolver. O ciclo que segue é previsível: Andon Labs roda eval, encontra falha de janela de contexto, labs fronteira entregam um produto memória/dreaming/estado-de-agente, próxima rerun de eval, repete. A questão aberta interessante é se a memória persistente de agente pode ser resolvida com retrieval + logs estruturados, ou se requer mudanças arquitetônicas — tokens de estado, módulos de memória neural, verdadeiras janelas de contexto longas que não degradem.

A Andon Labs está se estabelecendo como o equivalente de eval-de-agente do que a METR se tornou para evals de pesquisa autônoma — rodando testes do mundo real de longo horizonte em escala lab-fronteira e publicando modos de falha legíveis com cifras de dólares anexadas. Para qualquer um entregando um produto agente em produção agora: orce para uma falha estilo Andon Labs (seu agente esquecerá ações passadas e as repetirá) e construa estado durável fora da janela de contexto do agente — um livro razão estruturado, um armazenamento de memória, um banco de dados do qual o agente tenha que ler antes de decidir. Para a audiência ampla: "a IA vai gerenciar negócios" é o pitch de marketing; "a IA ordena 6.000 guardanapos porque esqueceu que comprou 4.000 na semana passada" é a substância. Café-Faire é mais útil como benchmark do que como história. A cifra de $10.300 de perda vai ser citada muito.