Uma análise sistemática de agentes estilo ReAct revela que eles estão queimando 90,8% de seu orçamento de tentativas em erros que nunca podem ter sucesso — especificamente, chamadas de ferramentas alucinadas para funções que não existem. O estudo rastreou 200 tarefas e descobriu que a causa raiz não é a precisão do modelo, mas uma falha arquitetural fundamental: permitir que modelos de linguagem escolham nomes de ferramentas em tempo de execução através de consultas simples de dicionário como `TOOLS.get(tool_name)`. Quando modelos alucinam nomes de ferramentas inexistentes, sistemas desperdiçam tentativas preciosas em falhas garantidas ao invés de erros recuperáveis.
Isso expõe um problema de infraestrutura mais profundo que aflige sistemas AI em produção. Conforme agentes se tornam mais complexos — encadeando múltiplos componentes para uso de ferramentas, recuperação de memória e integrações externas — a confiabilidade se compõe de maneiras que a maioria das equipes não está medindo. Análise da indústria mostra que mesmo componentes altamente confiáveis (99% cada) rapidamente degradam o desempenho do sistema quando encadeados, caindo para 90% de confiabilidade com apenas 10 componentes. A maioria dos dashboards de monitoramento mostra taxas de sucesso aceitáveis e latência enquanto perde completamente o massacre de eficiência acontecendo por baixo.
As correções propostas são estruturais, não baseadas em prompt: classificar erros antes de tentar novamente, implementar circuit breakers por ferramenta, e mover roteamento de ferramentas para código determinístico ao invés de outputs do modelo. Esta abordagem elimina tentativas desperdiçadas inteiramente e reduz variância de execução em 3x. A lição mais ampla se estende além de agentes ReAct — conforme a indústria constrói stacks de agentes cada vez mais sofisticados, a lacuna entre capacidades teóricas do modelo e confiabilidade do sistema em produção só vai se ampliar sem mudanças fundamentais em como arquitetamos infraestrutura AI.
