Um desenvolvedor substituiu com sucesso bancos de dados vetoriais pelo Memory Agent pattern do Google para seu sistema de anotações Obsidian, armazenando memórias estruturadas em SQLite e alimentando-as diretamente ao Claude Haiku 4.5. O sistema armazena cerca de 650 memórias dentro da janela de contexto de 250k a aproximadamente 300 tokens por entrada de memória estruturada, eliminando a necessidade de Pinecone, Redis, ou pipelines de embeddings que eram anteriormente necessários para dar aos assistentes IA memória persistente.
Esta abordagem desafia a suposição de que busca vetorial é necessária para sistemas de memória IA. A matemática mudou fundamentalmente — modelos mais antigos com limites de tokens de 4K-8K exigiam recuperação baseada em embeddings para encontrar documentos relevantes sem carregar tudo no contexto. Mas com a janela de contexto de 250k do Claude Haiku 4.5, você pode simplesmente jogar centenas de memórias estruturadas diretamente no prompt e deixar o modelo raciocinar sobre elas. É um retorno à arquitetura mais simples que contorna a complexidade de pipelines de embeddings, ajuste de busca por similaridade, e infraestrutura de banco de dados vetorial.
Embora isto seja o experimento de um único desenvolvedor ao invés de pesquisa revisada por pares, destaca uma mudança mais ampla acontecendo conforme janelas de contexto se expandem. A abordagem brilha particularmente para consultas temporais como "o que aconteceu em 1º de fevereiro" ou "resuma minha última reunião com X" — exatamente o tipo de recuperação estruturada, baseada em datas que embeddings lidam mal. Contudo, o limite de 650 memórias significa que este padrão funciona para ferramentas de produtividade pessoal mas provavelmente não escalará para bases de conhecimento empresariais com milhões de documentos.
Para desenvolvedores construindo assistentes IA, isto sugere que vale a pena questionar se você realmente precisa de infraestrutura de busca vetorial. Se seu caso de uso envolve centenas ao invés de milhões de memórias, e você precisa de recuperação temporal ou estruturada precisa, raciocínio LLM direto sobre SQLite pode ser mais simples e confiável que construir pipelines de embeddings. O insight chave: às vezes a melhor arquitetura é aquela que você não tem que construir.
