ReAct智能体在不可能的工具调用上浪费了90%的重试次数

对ReAct风格智能体的系统性分析显示，它们将90.8%的重试预算浪费在永远不可能成功的错误上——具体来说，是对不存在函数的虚构工具调用。这项研究追踪了200个任务，发现根本原因不是模型准确性，而是一个基础架构缺陷：让语言模型在运行时通过简单的字典查找如`TOOLS.get(tool_name)`来选择工具名称。当模型虚构不存在的工具名称时，系统将宝贵的重试机会浪费在注定失败的调用上，而不是可恢复的错误。

这暴露了困扰生产AI系统的更深层基础设施问题。随着智能体变得更加复杂——串联多个组件进行工具使用、内存检索和外部集成——可靠性以大多数团队没有测量的方式复合。行业分析显示，即使是高度可靠的组件（每个99%）在串联时也会快速降低系统性能，仅10个组件就会使可靠性降至90%。大多数监控仪表板显示可接受的成功率和延迟，却完全错过了底层发生的效率屠杀。

提出的修复方案是结构性的，而非基于提示的：在重试前对错误进行分类，实施每工具熔断器，并将工具路由移至确定性代码而非模型输出。这种方法完全消除了浪费的重试，并将执行方差减少3倍。更广泛的教训超越了ReAct智能体——随着行业构建越来越复杂的智能体堆栈，理论模型能力与生产系统可靠性之间的差距只会扩大，除非我们从根本上改变AI基础设施的架构方式。

ReAct智能体在不可能的工具调用上浪费了90%的重试次数

更多新闻