Los agentes ReAct están quemando 90% de reintentos en llamadas de herramientas imposibles

Un análisis sistemático de agentes estilo ReAct revela que están quemando 90.8% de su presupuesto de reintentos en errores que nunca pueden tener éxito — específicamente, llamadas de herramientas alucinadas a funciones que no existen. El estudio rastreó 200 tareas y encontró que la causa raíz no es la precisión del modelo sino una falla arquitectónica fundamental: permitir que los modelos de lenguaje elijan nombres de herramientas en tiempo de ejecución a través de búsquedas simples de diccionario como `TOOLS.get(tool_name)`. Cuando los modelos alucinan nombres de herramientas no existentes, los sistemas desperdician intentos preciosos en fallas garantizadas en lugar de errores recuperables.

Esto expone un problema de infraestructura más profundo que aqueja a los sistemas AI en producción. Mientras los agentes se vuelven más complejos — encadenando múltiples componentes para uso de herramientas, recuperación de memoria e integraciones externas — la confiabilidad se compone de maneras que la mayoría de equipos no están midiendo. El análisis de la industria muestra que incluso componentes altamente confiables (99% cada uno) degradan rápidamente el rendimiento del sistema cuando se encadenan, cayendo a 90% de confiabilidad con solo 10 componentes. La mayoría de dashboards de monitoreo muestran tasas de éxito aceptables y latencia mientras se pierden completamente la masacre de eficiencia que sucede por debajo.

Las soluciones propuestas son estructurales, no basadas en prompts: clasificar errores antes de reintentar, implementar circuit breakers por herramienta, y mover el enrutamiento de herramientas a código determinístico en lugar de outputs del modelo. Este enfoque elimina reintentos desperdiciados por completo y reduce la varianza de ejecución por 3x. La lección más amplia se extiende más allá de agentes ReAct — mientras la industria construye stacks de agentes cada vez más sofisticados, la brecha entre capacidades teóricas del modelo y confiabilidad del sistema en producción solo se ampliará sin cambios fundamentales en cómo arquitecturamos la infraestructura AI.

Los agentes ReAct están quemando 90% de reintentos en llamadas de herramientas imposibles

Más noticias