一位開發者成功地用 Google 的 Memory Agent pattern 取代了向量資料庫,用於他們的 Obsidian 筆記系統,將結構化記憶儲存在 SQLite 中並直接輸入 Claude Haiku 4.5。該系統在 25 萬上下文視窗內儲存約 650 個記憶,每個結構化記憶條目大約 300 個 tokens,消除了對 Pinecone、Redis 或 embedding 管線的需求,這些原本是給 AI 助手持久記憶所必需的。

這種方法挑戰了向量搜尋對 AI 記憶系統必要的假設。數學基礎已經發生根本性改變——早期 4K-8K token 限制的模型需要基於 embedding 的檢索來找到相關文件而不將所有內容載入到上下文中。但是有了 Claude Haiku 4.5 的 25 萬上下文視窗,你可以簡單地將數百個結構化記憶直接放入 prompt 中,讓模型對它們進行推理。這是回到更簡單架構的做法,繞過了 embedding 管線、相似性搜尋調優和向量資料庫基礎設施的複雜性。

雖然這是單個開發者的實驗而非同儕審查的研究,但它突顯了隨著上下文視窗擴展而發生的更廣泛轉變。這種方法在時間查詢方面特別出色,比如「2月1日發生了什麼」或「總結我與X的最後一次會議」——正是這種基於結構化、日期的檢索是 embeddings 處理得不好的。然而,650 個記憶的限制意味著這種模式適用於個人生產力工具,但可能無法擴展到擁有數百萬文件的企業知識庫。

對於構建 AI 助手的開發者來說,這表明值得質疑你是否真的需要向量搜尋基礎設施。如果你的用例涉及數百而非數百萬個記憶,並且需要精確的時間或結構化檢索,基於 SQLite 的直接 LLM 推理可能比構建 embedding 管線更簡單、更可靠。關鍵洞察:有時最好的架構就是你不必構建的架構。