Anthropic发布了一个三代理框架,旨在解决自主编程的最大问题之一:AI代理在长时间开发会话中迷失方向。该系统将工作分配给专门的规划、生成和评估代理,使用结构化交接和上下文重置来保持多小时编程运行的连贯性,这些会话可持续长达四小时,涉及5-15次迭代。

这解决了我在生产AI工作流中看到的问题——代理开始时表现强劲,但随着上下文窗口填满而偏向不连贯。Anthropic使用独立评估代理的方法特别聪明。正如Anthropic Labs的Prithvi Rajasekaran所说,"将执行工作的代理与判断工作的代理分离被证明是一个强有力的杠杆",因为代理始终高估自己的输出,尤其是在UI设计等主观任务上。评估器使用Playwright实际导航和测试生成的界面,提供具体反馈而不是自我表扬。

行业反应中突出的是这如何解决了"失忆问题",这个问题杀死了大多数长期运行的代理。Artem Bredikhin在LinkedIn上一针见血:"每个新的上下文窗口都是失忆"。Anthropic的结构化交接使用JSON规范和强制测试创造了压缩技术无法匹配的连续性。压缩保留上下文但使模型在接近限制时变得胆怯,而该系统拥抱带有适当状态转移的新开始。

对于构建AI工作流的开发者,这验证了我们看到有效的模式:具有明确边界的专业化代理胜过试图做所有事情的通用代理。如果你在构建编程助手或设计工具,独立评估模式值得复制——只要确保你的评估器具有真正的测试能力,而不只是另一个给出意见的LLM。