Une analyse systématique des agents de style ReAct révèle qu'ils brûlent 90,8% de leur budget de tentatives sur des erreurs qui ne peuvent jamais réussir — spécifiquement, des appels d'outils hallucinés vers des fonctions qui n'existent pas. L'étude a suivi 200 tâches et a trouvé que la cause racine n'est pas la précision du modèle mais un défaut architectural fondamental : laisser les modèles de langage choisir les noms d'outils à l'exécution par de simples recherches dans un dictionnaire comme `TOOLS.get(tool_name)`. Quand les modèles hallucinent des noms d'outils inexistants, les systèmes gaspillent de précieuses tentatives sur des échecs garantis au lieu d'erreurs récupérables.

Ceci expose un problème d'infrastructure plus profond qui afflige les systèmes AI en production. Alors que les agents deviennent plus complexes — enchaînant plusieurs composants pour l'utilisation d'outils, la récupération de mémoire et les intégrations externes — la fiabilité se compose de façons que la plupart des équipes ne mesurent pas. L'analyse de l'industrie montre que même des composants hautement fiables (99% chacun) dégradent rapidement la performance du système quand ils sont enchaînés, tombant à 90% de fiabilité avec seulement 10 composants. La plupart des tableaux de bord de surveillance montrent des taux de succès acceptables et de la latence tout en ratant complètement le massacre d'efficacité qui se passe en dessous.

Les correctifs proposés sont structurels, pas basés sur les prompts : classifier les erreurs avant de réessayer, implémenter des circuit breakers par outil, et déplacer le routage d'outils dans du code déterministe plutôt que dans les sorties de modèle. Cette approche élimine entièrement les tentatives gaspillées et réduit la variance d'exécution de 3x. La leçon plus large s'étend au-delà des agents ReAct — alors que l'industrie construit des stacks d'agents de plus en plus sophistiqués, l'écart entre les capacités théoriques des modèles et la fiabilité des systèmes en production ne fera que s'élargir sans changements fondamentaux dans la façon dont on architecte l'infrastructure AI.