Anthropic 在今天的開發者活動上為 Claude Managed Agents 宣布「做夢」 — 一個在代理會話之間運行的計劃進程,用於鞏固持久化記憶:修剪過時筆記、合併重複、解決代理記憶檔案中的矛盾。framing 借用大腦-睡眠期間類比(「不活躍時的記憶鞏固」),但底層機制是運行長壽命代理的 builder 兩年來手動做的:cron 作業總結並清理累積的上下文。Anthropic 把它產品化為一等特性,有兩種操作模式 — 完全自動化,或寫入前人工審查。研究預覽,需開發者存取。同一公告包還包括 outcomes-based 評估和多代理編排進入公開 beta — 加在一起,這是持久代理棧走出原型。

對 builder 重要的架構細節。長壽命代理積累記憶狀態 — 使用者偏好、任務歷史、學到的模式、專案上下文。沒有鞏固,記憶檔案單調增長並開始自相矛盾:昨天關於使用者偏好的筆記與今天的衝突,專案狀態引用三會話前被重新命名的檔案,代理有「使用者偏好 X」的兩份筆記措辭略有不同。手動清理是任何運行生產代理部署的人的反覆瑣事。做夢特性把這個自動化為計劃後台 pass — Claude 在會話間審查自己的記憶、surface 模式、把清理後的狀態寫回。寫入前人工審查模式是用例需要審計 trail 的安全閥;完全自動是人工審查無法 scale 的高容量代理 fleet 的路徑。與 outcomes-based 評估配對在結構上重要:沒有 outcome 指標的做夢可能最佳化記憶整潔度同時退化實際性能。outcome-based 評估給鞏固 pass 一個最佳化對象。

生態讀法是這是 Anthropic 的持久代理棧從研究演示走向生產能力。把這個與本週早些時候的兩個 piece 配對:Claude Code Auto Mode(透過 Sonnet 4.6 分類器以 0.4% FPR 過濾工具呼叫的 gating 層)和現在公開 beta 的多代理編排。加在一起它們形成一個連貫圖景:代理 gate 自己的動作、在協調的 fleet 中工作、在會話間鞏固記憶。那可識別地是該領域一直在朝向的持久-自主-代理架構,現在在平台級被縫合在一起,而不是由每個 builder bottom-up 建構。對運行自訂代理棧的 builder,問題是你是否大規模採用 Anthropic 的原語(更少工作,更深的 Claude 鎖定)還是在自己的基礎設施上複製模式(更多控制,跨模型 vendor 移植)。對已經在 Claude 上運行代理產品的 builder,做夢特性加 outcome-eval 是那種隨時間提高代理可靠性而不需要你重建記憶層的能力。

實際動作:如果你在生產中運行帶持久記憶的 Claude-based 代理,在切換生產前請求開發者存取 dreaming 並在你的 staging 環境運行。自動化模式下的記憶變更行為是要仔細驗證的部分 — 它在鞏固期間正確保留使用者偏好嗎?它正確偵測矛盾還是把兩邊都當作過時?寫入前人工審查模式是更安全的首次部署;一旦你在你的流量上驗證了鞏固行為,自動模式就成為生產預設。如果你在其他模型 provider(GPT、Gemini、Mistral)上運行代理,做夢模式是可移植的 — 會話間記憶鞏固作為帶可選審查 gate 的單獨 pass 在任何骨幹上都可實現,Anthropic 的產品化把這個模式形式化得足夠讓其他棧上的 builder 可以採納。更長期的看點是這是否只是 feature 平價追趕現有代理框架(LangGraph、CrewAI、AutoGen)已經讓 builder 做的事,或者平台級整合是否創造只在 Claude 上工作的能力 — 特別是記憶鞏固與 Auto Mode 的 gating 決策互動的方式。那種耦合將是真正的護城河。