Memoria de agente 4-tier de Tencent: SWE-bench 58,4 a 64,2%, SQLite local, MIT

Tencent soltó esta semana un release serio de memoria de agente bajo MIT — TencentDB Agent Memory, una pirámide de 4 tiers que resuelve el problema de context-bloat long-horizon que la mayoría de los shops de agentes todavía rodean a mano. La forma: L0 logs de conversación cruda en la base, L1 hechos atómicos en JSONL, L2 scenario blocks en Markdown, L3 persona de usuario en Markdown arriba. Los tiers superiores preservan estructura, los inferiores preservan evidencia, y cada retrieval viene con un `node_id` + `result_ref` para que el agente pueda drill-down determinísticamente cuando el hecho a nivel persona no alcanza. Para quien shippea agentes que corren más que un puñado de turns, esta es la arquitectura publicada más limpia para el problema de memoria a la fecha.

Números en sesiones long-horizon continuas (no single-turn lookups, que es el benchmark correcto): SWE-bench 58,4% → 64,2% con el plugin activado (+9,9% relativo), uso de tokens abajo 33%. WideSearch 33% → 50% (+51,5%), tokens abajo 61%. AA-LCR 44,0% → 47,5%, tokens abajo 31%. PersonaMem 48% → 76% (+59%). Defaults: SQLite con extensión sqlite-vec, cero dependencia de API externa, archivos Markdown en `~/.openclaw/memory-tdai/`. Recall tiene timeout de 5 segundos y en timeout el sistema skipea injection en lugar de bloquear — entonces un retrieval lento no puede stallear el loop del agente. Híbrido BM25 + vector vía Reciprocal Rank Fusion, top-5 por defecto. Extracción L1 de hechos atómicos cada 5 turns; regeneración de persona cada 50 nuevas memorias.

Lectura ecosystem: Mem0, Letta, MemGPT y Zep se reparten agent-memory desde hace dos años, pero el breakdown de 4 tiers es la delta arquitectónica. La mayoría de sistemas existentes o aplanan todo a un vector index (Mem0, Zep) o mantienen un split hot/cold (MemGPT). El enfoque pirámide te da Persona-as-Markdown (auditable por el usuario, legible humano, fácil de editar), Atomic-as-JSONL (estructurado, parseable, llaves de drill-down), y raw logs en el piso. Es un sistema de memoria white-box que puedes debuggear con `grep`. Tencent dejó los benchmarks head-to-head contra Mem0/Letta/MemGPT/Zep fuera del release — flagea el asterisco — pero el delta de SWE-bench con un corte de 33% de tokens es el tipo de número que sobrevive reproducción. Repo: github.com/Tencent/TencentDB-Agent-Memory.

Lunes por la mañana: la integración está actualmente trabada a OpenClaw de Tencent (single npm package `@tencentdb-agent-memory/memory-tencentdb`, requiere Node.js 22.16+) o Hermes Agent (sólo Docker). No hay bindings LangChain ni LlamaIndex en v1 — ese es el gap comunitario obvio si quieres usar la arquitectura 4-tier bajo tu harness existente. Si tu agente quema tokens replayendo historial de conversación en cada turn y estabas esperando una baseline publicada antes de construir tu propio sistema de memoria, clona el repo, lee el schema L0→L3, y decide si lo envuelves o reimplementas la arquitectura contra tu stack. Los números de benchmark son creíbles; el costo de integración es el trade.

Memoria de agente 4-tier de Tencent: SWE-bench 58,4 a 64,2%, SQLite local, MIT

Más noticias