腾讯这周在 MIT 下放出了一个认真的 agent 内存版本——TencentDB Agent Memory,一个 4 层金字塔,解决了大多数 agent 团队还在手工绕开的长时上下文膨胀问题。形状:底部 L0 原始对话日志,L1 JSONL 原子事实,L2 Markdown 场景块,L3 顶部 Markdown 用户人设。上层保留结构,下层保留证据,每次 retrieval 都带 `node_id` + `result_ref`,这样当人设级事实不够时,agent 可以确定性下钻。对那些 ship 跑多 turn 的 agent 的人来说,这是迄今为止公开的最干净的内存问题架构。
在连续长时会话(不是单 turn 查找,后者才是正确 benchmark)上的数字:启用插件后 SWE-bench 58.4% → 64.2%(相对 +9.9%),token 使用降 33%。WideSearch 33% → 50%(+51.5%),token 降 61%。AA-LCR 44.0% → 47.5%,token 降 31%。PersonaMem 48% → 76%(+59%)。默认:带 sqlite-vec 扩展的 SQLite,零外部 API 依赖,Markdown 文件在 `~/.openclaw/memory-tdai/`。Recall 有 5 秒超时,超时时系统跳过注入而不是阻塞——所以慢的 retrieval 无法卡住 agent loop。BM25 + 向量混合,通过 Reciprocal Rank Fusion,默认 top-5。L1 原子事实抽取每 5 turn 一次;每 50 个新记忆重新生成人设。
生态解读:Mem0、Letta、MemGPT 和 Zep 已经分割 agent 内存两年了,但 4 层分解是架构差异。大多数现有系统要么把一切扁平化到向量索引(Mem0、Zep),要么维护 hot/cold 拆分(MemGPT)。金字塔方法给你 Persona-as-Markdown(用户可审计、人类可读、易编辑)、Atomic-as-JSONL(结构化、可解析、下钻键)和底层原始日志。这是一个可以用 `grep` 调试的白盒内存系统。腾讯把对 Mem0/Letta/MemGPT/Zep 的正面 benchmark 留在了发布之外——给个星号——但 SWE-bench 差值配 33% token 削减,是那种能经得起复现的数字。仓库:github.com/Tencent/TencentDB-Agent-Memory。
周一上午:集成目前锁死在腾讯的 OpenClaw(单 npm 包 `@tencentdb-agent-memory/memory-tencentdb`,需要 Node.js 22.16+)或 Hermes Agent(只支持 Docker)。v1 中没有 LangChain 或 LlamaIndex 绑定——如果你想在现有 harness 下使用 4 层架构,这就是明显的社区空白。如果你的 agent 每个 turn 都在回放对话历史烧 token,而你在等一个公开 baseline 后再构建自己的内存系统,clone 仓库,读 L0→L3 schema,决定是包装它还是用你的 stack 重新实现这个架构。benchmark 数字是可信的;集成成本是 trade-off。
