Anthropic 在今天的开发者活动上为 Claude Managed Agents 宣布「做梦」 — 一个在代理会话之间运行的计划进程,用于巩固持久化记忆:修剪过时笔记、合并重复、解决代理记忆文件中的矛盾。framing 借用大脑-睡眠期间类比(「不活跃时的记忆巩固」),但底层机制是运行长寿命代理的 builder 两年来手动做的:cron 作业总结并清理累积的上下文。Anthropic 把它产品化为一等特性,有两种操作模式 — 完全自动化,或写入前人工审查。研究预览,需开发者访问。同一公告包还包括 outcomes-based 评估和多代理编排进入公开 beta — 加在一起,这是持久代理栈走出原型。

对 builder 重要的架构细节。长寿命代理积累记忆状态 — 用户偏好、任务历史、学到的模式、项目上下文。没有巩固,记忆文件单调增长并开始自相矛盾:昨天关于用户偏好的笔记与今天的冲突,项目状态引用三会话前被重命名的文件,代理有「用户偏好 X」的两份笔记措辞略有不同。手动清理是任何运行生产代理部署的人的反复琐事。做梦特性把这个自动化为计划后台 pass — Claude 在会话间审查自己的记忆、surface 模式、把清理后的状态写回。写入前人工审查模式是用例需要审计 trail 的安全阀;完全自动是人工审查无法 scale 的高容量代理 fleet 的路径。与 outcomes-based 评估配对在结构上重要:没有 outcome 指标的做梦可能优化记忆整洁度同时退化实际性能。outcome-based 评估给巩固 pass 一个优化对象。

生态读法是这是 Anthropic 的持久代理栈从研究演示走向生产能力。把这个与本周早些时候的两个 piece 配对:Claude Code Auto Mode(通过 Sonnet 4.6 分类器以 0.4% FPR 过滤工具调用的 gating 层)和现在公开 beta 的多代理编排。加在一起它们形成一个连贯图景:代理 gate 自己的动作、在协调的 fleet 中工作、在会话间巩固记忆。那可识别地是该领域一直在朝向的持久-自主-代理架构,现在在平台级被缝合在一起,而不是由每个 builder bottom-up 构建。对运行自定义代理栈的 builder,问题是你是否大规模采用 Anthropic 的原语(更少工作,更深的 Claude 锁定)还是在自己的基础设施上复制模式(更多控制,跨模型 vendor 移植)。对已经在 Claude 上运行代理产品的 builder,做梦特性加 outcome-eval 是那种随时间提高代理可靠性而不需要你重建记忆层的能力。

实际动作:如果你在生产中运行带持久记忆的 Claude-based 代理,在切换生产前请求开发者访问 dreaming 并在你的 staging 环境运行。自动化模式下的记忆变更行为是要仔细验证的部分 — 它在巩固期间正确保留用户偏好吗?它正确检测矛盾还是把两边都当作过时?写入前人工审查模式是更安全的首次部署;一旦你在你的流量上验证了巩固行为,自动模式就成为生产默认。如果你在其他模型 provider(GPT、Gemini、Mistral)上运行代理,做梦模式是可移植的 — 会话间记忆巩固作为带可选审查 gate 的单独 pass 在任何骨干上都可实现,Anthropic 的产品化把这个模式形式化得足够让其他栈上的 builder 可以采纳。更长期的看点是这是否只是 feature 平价追赶现有代理框架(LangGraph、CrewAI、AutoGen)已经让 builder 做的事,或者平台级集成是否创造只在 Claude 上工作的能力 — 特别是记忆巩固与 Auto Mode 的 gating 决策交互的方式。那种耦合将是真正的护城河。