一位开发者成功地用 Google 的 Memory Agent pattern 替换了向量数据库,用于他们的 Obsidian 笔记系统,将结构化记忆存储在 SQLite 中并直接输入 Claude Haiku 4.5。该系统在 25 万上下文窗口内存储约 650 个记忆,每个结构化记忆条目大约 300 个 tokens,消除了对 Pinecone、Redis 或 embedding 管道的需求,这些原本是给 AI 助手持久记忆所必需的。
这种方法挑战了向量搜索对 AI 记忆系统必要的假设。数学基础已经发生根本性改变——早期 4K-8K token 限制的模型需要基于 embedding 的检索来找到相关文档而不将所有内容加载到上下文中。但是有了 Claude Haiku 4.5 的 25 万上下文窗口,你可以简单地将数百个结构化记忆直接放入 prompt 中,让模型对它们进行推理。这是回到更简单架构的做法,绕过了 embedding 管道、相似性搜索调优和向量数据库基础设施的复杂性。
虽然这是单个开发者的实验而非同行评议的研究,但它突显了随着上下文窗口扩展而发生的更广泛转变。这种方法在时间查询方面特别出色,比如"2月1日发生了什么"或"总结我与X的最后一次会议"——正是这种基于结构化、日期的检索是 embeddings 处理得不好的。然而,650 个记忆的限制意味着这种模式适用于个人生产力工具,但可能无法扩展到拥有数百万文档的企业知识库。
对于构建 AI 助手的开发者来说,这表明值得质疑你是否真的需要向量搜索基础设施。如果你的用例涉及数百而非数百万个记忆,并且需要精确的时间或结构化检索,基于 SQLite 的直接 LLM 推理可能比构建 embedding 管道更简单、更可靠。关键洞察:有时最好的架构就是你不必构建的架构。
