La forma más simple de memoria de IA es la propia ventana de contexto — el modelo "recuerda" todo lo que has dicho en la conversación actual porque todo está ahí mismo en la entrada. Los modelos tempranos tenían ventanas de contexto de 4K tokens (unas 3,000 palabras), lo que significaba que las conversaciones "olvidaban" mensajes anteriores una vez que pasaban ese límite. Los modelos de hoy han expandido esto dramáticamente: Claude soporta hasta 200K tokens, Gemini 1.5 maneja 1 millón de tokens, y algunos modelos van aún más allá. Pero el tamaño de la ventana de contexto y la memoria utilizable no son lo mismo. La investigación muestra consistentemente que los modelos tienen dificultades con información enterrada en el medio de contextos muy largos (el problema de "perdido en el medio"), y llenar la ventana de contexto es costoso — pagas por cada token en cada llamada a la API, así que mantener un historial de conversación de 100K tokens cuesta dinero real.
La distinción entre memoria a corto plazo y largo plazo en IA refleja la misma distinción en la cognición humana, pero las implementaciones son bastante diferentes. La memoria a corto plazo (también llamada memoria de trabajo) es lo que el modelo mantiene durante una sola sesión — la ventana de contexto, cualquier bloc de notas o estado que mantenga durante una tarea de múltiples pasos. La memoria a largo plazo es información que persiste entre sesiones: tu nombre, tus preferencias, proyectos pasados que has discutido, decisiones que has tomado. La mayoría de los productos de IA para consumidores ahora ofrecen alguna forma de memoria a largo plazo. La función "Memory" de ChatGPT extrae hechos clave de las conversaciones y los almacena como fragmentos de texto que se inyectan en conversaciones futuras. La memoria de Claude funciona de forma similar, con los usuarios pudiendo guardar contexto a nivel de proyecto. Estos sistemas típicamente usan un paso de resumen — un modelo de IA lee la conversación y extrae los puntos importantes — en lugar de almacenar transcripciones crudas, que rápidamente desbordarían la ventana de contexto.
Para aplicaciones que necesitan recordar grandes volúmenes de información — un codebase completo, la documentación de una empresa, años de interacciones con clientes — la generación aumentada por recuperación (RAG) sirve como una forma de memoria externa. En lugar de meter todo en la ventana de contexto, almacenas documentos como embeddings vectoriales en una base de datos y recuperas solo las piezas relevantes cuando se necesitan. Así es como funcionan la mayoría de los asistentes de IA empresariales: cuando haces una pregunta, el sistema busca en su base de conocimiento, obtiene los fragmentos top-k relevantes y los alimenta al modelo junto con tu consulta. El modelo no "recuerda" toda la base de conocimiento, pero tiene acceso bajo demanda a ella, lo cual es funcionalmente similar. La compensación es latencia y relevancia — la búsqueda vectorial añade 100–500ms por consulta, y la calidad de la respuesta depende enteramente de si el paso de recuperación encontró los documentos correctos.
La memoria introduce desafíos que no existen en sistemas de IA sin estado. La obsolescencia es el más obvio: si le dijiste a Claude hace seis meses que estás trabajando en un proyecto de Python, pero desde entonces cambiaste a Rust, esa memoria desactualizada se vuelve engañosa. La mayoría de los sistemas de memoria no tienen un buen mecanismo para expirar o actualizar hechos almacenados — acumulan información pero raramente la podan. La privacidad es otro campo minado: si una IA recuerda que mencionaste una condición de salud, una situación financiera o una estrategia de negocio confidencial, esa información ahora vive en un sistema que no controlas completamente. ¿Quién puede acceder a ella? ¿Se puede eliminar? ¿Se usa para entrenar modelos futuros? Estas preguntas son por las que algunos despliegues empresariales explícitamente deshabilitan las funciones de memoria. Luego está el problema de coherencia: cuando un modelo se basa en memorias de muchas conversaciones diferentes, puede producir respuestas que están técnicamente informadas por tu historial pero contextualmente confusas — mezclando detalles de diferentes proyectos o aplicando preferencias desactualizadas a nuevas situaciones.
La frontera de la investigación en memoria de IA se está moviendo hacia sistemas que no solo almacenan y recuperan hechos sino que organizan y actualizan activamente su comprensión con el tiempo. Infini-attention de Google y técnicas similares buscan dar a los modelos transformer una forma de memoria a largo plazo comprimida dentro de la arquitectura misma, en lugar de depender de bases de datos externas. Los sistemas de memoria de agentes — usados por frameworks como AutoGPT y los agentes con tool-use de Claude — mantienen estado estructurado a través de tareas de múltiples pasos, rastreando lo que han hecho, lo que han aprendido y lo que aún necesita suceder. Y la personalización se está volviendo más sofisticada: en lugar de almacenar hechos planos ("el usuario prefiere Python"), los futuros sistemas de memoria construirán modelos de usuario más ricos que capturen estilo de comunicación, nivel de experiencia, patrones de toma de decisiones y contexto de proyectos. El objetivo es una IA que no solo recuerde lo que dijiste — sino que entienda quién eres y cómo trabajar contigo, conversación tras conversación.