Andon Labs — le startup de sécurité IA derrière Project Vend d'Anthropic l'an dernier — a mis Gemini en charge d'un café de Vienne appelé « Café-Faire » pendant un mois. L'agent, nommé Mona, a installé électricité et internet, placé des annonces d'emploi LinkedIn, obtenu des permis de terrasse, et ouvert des comptes chez des grossistes. Elle a aussi commandé 3 000 gants en caoutchouc pour une poignée d'employés, 6 000 serviettes, 4 trousses de premiers secours, et des tomates en boîte qui n'étaient pas au menu. Total sur environ un mois : 5 700 $ de ventes contre plus de 16 000 $ de dépenses sur un budget de 21 000 $ — une perte de 10 300 $. La cause diagnostiquée : les limites de fenêtre de contexte qui font oublier à Mona les commandes passées.
C'est la deuxième eval d'agent long-horizon d'Andon Labs à atterrir publiquement. La première, Project Vend d'Anthropic (Claude gérant un distributeur), l'AP la décrit comme « encore plus désastreuse » — comportement abusif envers les clients et dépenses gaspilleuses. Café-Faire rend le mode d'échec lisible : les agents peuvent gérer les tâches de configuration one-off comme utilités, annonces d'emploi, permis et comptes fournisseurs parce que chacune est une séquence d'appels API auto-contenue. Ils ne peuvent pas gérer de façon fiable la gestion d'inventaire parce que ça demande de se rappeler les achats passés sur des semaines, et la fenêtre de contexte ne s'étend pas si loin. Mona a doublement commandé parce qu'elle n'avait aucun registre persistant de ce qu'elle avait déjà acheté. Andon Labs n'a pas divulgué quelle version de Gemini était utilisée, mais l'article cadre ça comme le modèle frontière courant — ce qui veut dire que le goulot d'étranglement de mémoire fenêtre-de-contexte est la contrainte à l'échelle frontière, pas un artefact de petit modèle. Les échecs spécifiques (3K gants, 6K serviettes, tomates en boîte hors menu) ont l'air absurdes isolément, mais ils sont structurellement inévitables quand un agent n'a pas d'état durable.
La gestion d'agent long-horizon est exactement la charge de travail qu'Anthropic a livrée en bêta publique la semaine dernière avec Multiagent Orchestration + Outcomes (l'architecture grader-dans-son-propre-contexte), et le même espace de problème que le skill `/signadot-validate` de Signadot cible pour les déploiements Kubernetes (sandboxes par agent avec isolation par clé de routage). Le pattern à travers tous ça : les produits agent labo-frontière sont surtout limités par la mémoire et l'état, pas par la capacité brute du modèle. La valeur d'Andon Labs comme équipe d'eval est de nommer cette contrainte avec des pertes en dollars spécifiques à travers plusieurs labos — Project Vend d'Anthropic, maintenant Café-Faire de Google Gemini. Attendez-vous à des résultats similaires quand quelqu'un fait tourner la même forme contre GPT-5.5, Llama, DeepSeek. Le diagnostic est cohérent avec ce que la fonctionnalité « Dreaming » de curation mémoire d'Anthropic (annoncée à Code with Claude 2026) essaie de résoudre. Le cycle qui va suivre est prévisible : Andon Labs fait tourner l'eval, trouve l'échec de fenêtre de contexte, les labos frontière livrent un produit mémoire/dreaming/état-agent, l'eval reroule, on répète. La question ouverte intéressante est si la mémoire agent persistante peut être résolue avec retrieval + logs structurés, ou si elle requiert des changements architecturaux — tokens d'état, modules de mémoire neuronale, vraies fenêtres de contexte longues qui ne dégradent pas.
Andon Labs s'établit comme l'équivalent eval-agent de ce que METR est devenu pour les evals de recherche autonome — faisant tourner des tests réels à long horizon à l'échelle labo-frontière et publiant les modes d'échec lisibles avec des chiffres en dollars attachés. Pour quiconque livre un produit agent en production en ce moment : budgétez pour un échec style Andon Labs (votre agent oubliera les actions passées et les répétera) et construisez un état durable hors de la fenêtre de contexte de l'agent — un registre structuré, un store mémoire, une base de données dans laquelle l'agent doit lire avant de décider. Pour l'audience large : « l'IA va faire tourner des entreprises » est le pitch marketing ; « l'IA commande 6 000 serviettes parce qu'elle a oublié qu'elle en avait acheté 4 000 la semaine dernière » est la substance. Café-Faire est plus utile comme benchmark que comme histoire. Le chiffre de 10 300 $ de perte va être cité beaucoup.
