對ReAct風格代理的系統性分析顯示,它們將90.8%的重試預算燒在永遠不可能成功的錯誤上——具體來說,是對不存在函數的幻想工具呼叫。這項研究追蹤了200個任務,發現根本原因不是模型準確性,而是一個基礎架構缺陷:讓語言模型在執行時透過簡單的字典查找如`TOOLS.get(tool_name)`來選擇工具名稱。當模型幻想不存在的工具名稱時,系統將珍貴的重試機會浪費在注定失敗的呼叫上,而非可恢復的錯誤。
這暴露了困擾生產AI系統的更深層基礎設施問題。隨著代理變得更加複雜——串聯多個組件進行工具使用、記憶體檢索和外部整合——可靠性以大多數團隊沒有測量的方式複合。業界分析顯示,即使是高度可靠的組件(每個99%)在串聯時也會快速降低系統效能,僅10個組件就會使可靠性降至90%。大多數監控儀表板顯示可接受的成功率和延遲,卻完全錯過了底層發生的效率屠殺。
提出的修復方案是結構性的,而非基於提示的:在重試前對錯誤進行分類,實施每工具斷路器,並將工具路由移至確定性程式碼而非模型輸出。這種方法完全消除了浪費的重試,並將執行變異減少3倍。更廣泛的教訓超越了ReAct代理——隨著業界建構越來越複雜的代理堆疊,理論模型能力與生產系統可靠性之間的差距只會擴大,除非我們從根本上改變AI基礎設施的架構方式。
