对ReAct风格智能体的系统性分析显示,它们将90.8%的重试预算浪费在永远不可能成功的错误上——具体来说,是对不存在函数的虚构工具调用。这项研究追踪了200个任务,发现根本原因不是模型准确性,而是一个基础架构缺陷:让语言模型在运行时通过简单的字典查找如`TOOLS.get(tool_name)`来选择工具名称。当模型虚构不存在的工具名称时,系统将宝贵的重试机会浪费在注定失败的调用上,而不是可恢复的错误。
这暴露了困扰生产AI系统的更深层基础设施问题。随着智能体变得更加复杂——串联多个组件进行工具使用、内存检索和外部集成——可靠性以大多数团队没有测量的方式复合。行业分析显示,即使是高度可靠的组件(每个99%)在串联时也会快速降低系统性能,仅10个组件就会使可靠性降至90%。大多数监控仪表板显示可接受的成功率和延迟,却完全错过了底层发生的效率屠杀。
提出的修复方案是结构性的,而非基于提示的:在重试前对错误进行分类,实施每工具熔断器,并将工具路由移至确定性代码而非模型输出。这种方法完全消除了浪费的重试,并将执行方差减少3倍。更广泛的教训超越了ReAct智能体——随着行业构建越来越复杂的智能体堆栈,理论模型能力与生产系统可靠性之间的差距只会扩大,除非我们从根本上改变AI基础设施的架构方式。
