Anthropic發布了一個三代理框架,旨在解決自主程式設計的最大問題之一:AI代理在長時間開發會話中迷失方向。該系統將工作分配給專門的規劃、生成和評估代理,使用結構化交接和上下文重置來保持多小時程式設計運行的連貫性,這些會話可持續長達四小時,涉及5-15次迭代。

這解決了我在生產AI工作流中看到的問題——代理開始時表現強勁,但隨著上下文視窗填滿而偏向不連貫。Anthropic使用獨立評估代理的方法特別聰明。正如Anthropic Labs的Prithvi Rajasekaran所說,"將執行工作的代理與判斷工作的代理分離被證明是一個強有力的槓桿",因為代理始終高估自己的輸出,尤其是在UI設計等主觀任務上。評估器使用Playwright實際導航和測試生成的介面,提供具體反饋而不是自我表揚。

業界反應中突出的是這如何解決了"失憶問題",這個問題殺死了大多數長期運行的代理。Artem Bredikhin在LinkedIn上一針見血:"每個新的上下文視窗都是失憶"。Anthropic的結構化交接使用JSON規範和強制測試創造了壓縮技術無法匹配的連續性。壓縮保留上下文但使模型在接近限制時變得膽怯,而該系統擁抱帶有適當狀態轉移的新開始。

對於構建AI工作流的開發者,這驗證了我們看到有效的模式:具有明確邊界的專業化代理勝過試圖做所有事情的通用代理。如果你在構建程式設計助手或設計工具,獨立評估模式值得複製——只要確保你的評估器具有真正的測試能力,而不只是另一個給出意見的LLM。