Un desarrollador ha reemplazado exitosamente las bases de datos vectoriales con el Memory Agent pattern de Google para su sistema de notas Obsidian, almacenando memorias estructuradas en SQLite y alimentándolas directamente a Claude Haiku 4.5. El sistema almacena aproximadamente 650 memorias dentro de la ventana de contexto de 250k a roughly 300 tokens por entrada de memoria estructurada, eliminando la necesidad de Pinecone, Redis, o pipelines de embeddings que anteriormente se requerían para dar a los asistentes IA memoria persistente.

Este enfoque desafía la suposición de que la búsqueda vectorial es necesaria para sistemas de memoria IA. Las matemáticas han cambiado fundamentalmente — los modelos más antiguos con límites de tokens de 4K-8K requerían recuperación basada en embeddings para encontrar documentos relevantes sin cargar todo en el contexto. Pero con la ventana de contexto de 250k de Claude Haiku 4.5, simplemente puedes volcar cientos de memorias estructuradas directamente en el prompt y dejar que el modelo razone sobre ellas. Es un regreso a una arquitectura más simple que evita la complejidad de pipelines de embeddings, ajuste de búsqueda de similitud, e infraestructura de base de datos vectorial.

Aunque esto es el experimento de un solo desarrollador en lugar de investigación revisada por pares, destaca un cambio más amplio que está ocurriendo a medida que las ventanas de contexto se expanden. El enfoque brilla particularmente para consultas temporales como "qué pasó el 1 de febrero" o "resume mi última reunión con X" — exactamente el tipo de recuperación estructurada, basada en fechas que los embeddings manejan mal. Sin embargo, el límite de 650 memorias significa que este patrón funciona para herramientas de productividad personal pero probablemente no escalará a bases de conocimiento empresariales con millones de documentos.

Para desarrolladores construyendo asistentes IA, esto sugiere que vale la pena cuestionar si realmente necesitas infraestructura de búsqueda vectorial. Si tu caso de uso involucra cientos en lugar de millones de memorias, y necesitas recuperación temporal o estructurada precisa, el razonamiento LLM directo sobre SQLite podría ser más simple y confiable que construir pipelines de embeddings. La idea clave: a veces la mejor arquitectura es la que no tienes que construir.