ReAct代理在不可能的工具呼叫上燒掉90%的重試次數

對ReAct風格代理的系統性分析顯示，它們將90.8%的重試預算燒在永遠不可能成功的錯誤上——具體來說，是對不存在函數的幻想工具呼叫。這項研究追蹤了200個任務，發現根本原因不是模型準確性，而是一個基礎架構缺陷：讓語言模型在執行時透過簡單的字典查找如`TOOLS.get(tool_name)`來選擇工具名稱。當模型幻想不存在的工具名稱時，系統將珍貴的重試機會浪費在注定失敗的呼叫上，而非可恢復的錯誤。

這暴露了困擾生產AI系統的更深層基礎設施問題。隨著代理變得更加複雜——串聯多個組件進行工具使用、記憶體檢索和外部整合——可靠性以大多數團隊沒有測量的方式複合。業界分析顯示，即使是高度可靠的組件（每個99%）在串聯時也會快速降低系統效能，僅10個組件就會使可靠性降至90%。大多數監控儀表板顯示可接受的成功率和延遲，卻完全錯過了底層發生的效率屠殺。

提出的修復方案是結構性的，而非基於提示的：在重試前對錯誤進行分類，實施每工具斷路器，並將工具路由移至確定性程式碼而非模型輸出。這種方法完全消除了浪費的重試，並將執行變異減少3倍。更廣泛的教訓超越了ReAct代理——隨著業界建構越來越複雜的代理堆疊，理論模型能力與生產系統可靠性之間的差距只會擴大，除非我們從根本上改變AI基礎設施的架構方式。

ReAct代理在不可能的工具呼叫上燒掉90%的重試次數

更多新聞