记忆：定义与含义 — AI 维基

允许AI模型在单次对话之外保留和回忆信息的机制。这包括上下文记忆（使用上下文窗口）、外部记忆（RAG、向量数据库）、持久化对话记忆（跨会话记住用户偏好）和工作记忆（在多步骤代理任务中维持状态）。—记忆正是让AI感觉像一个协作者而非无状态工具的关键。

为什么重要

没有记忆，每次AI对话都从零开始。你必须重复说明你的偏好，重新解释你的代码库，重新描述你的项目。记忆正是将聊天机器人转变为助手的关键——而它也是最难妥善解决的问题之一，需要在相关性、隐私性、数据陈旧性和存储成本之间取得平衡。

深度解析

AI记忆最简单的形式就是上下文窗口本身——模型“记住”了当前对话中你说的每一句话，因为所有内容都直接包含在输入中。早期模型的上下文窗口为4K个标记（约3000个单词），这意味着当对话滚动超过该限制时，模型会“忘记”之前的对话内容。如今的模型已大幅扩展了这一能力：Claude支持高达200K个标记，Gemini 1.5可处理100万个标记，某些模型甚至更进一步。但上下文窗口大小和可用内存并不是一回事。研究表明，模型在处理非常长的上下文中间埋藏的信息时会遇到困难（即“中间迷失”问题），并且填满上下文窗口的成本很高——每次API调用都需要为每个标记付费，因此维护一个100K标记的对话历史会产生真实费用。

短期记忆与长期记忆

AI的短期记忆与长期记忆区别，与人类认知中的区别类似，但实现方式却大不相同。短期记忆（也称工作记忆）是模型在单次会话中保持的内容——上下文窗口，以及在多步骤任务中维护的任何草稿或状态。长期记忆是跨会话持续存在的信息：你的名字、你的偏好、你之前讨论过的项目、你做出的决定。目前大多数消费级AI产品都提供某种形式的长期记忆。ChatGPT的“记忆”功能会从对话中提取关键事实，并将其存储为文本片段，这些片段会在未来的对话中被注入。Claude的记忆功能也类似，用户可以保存项目级别的上下文。这些系统通常使用摘要步骤——AI模型会读取对话并提取重要信息，而不是存储原始对话文本，否则会迅速超出上下文窗口的容量。

RAG作为外部记忆

对于需要记住大量信息的应用——整个代码库、公司的文档、多年的客户互动——检索增强生成（RAG）充当了一种外部记忆形式。与其将所有内容塞进上下文窗口，不如将文档作为向量嵌入存储在数据库中，并在需要时仅检索相关部分。这就是大多数企业AI助手的工作方式：当你提问时，系统会搜索其知识库，提取前k个相关片段，并将它们与你的问题一起输入模型。模型不会“记住”完整的知识库，但可以按需访问它，这在功能上是相似的。权衡在于延迟和相关性——向量搜索每次查询会增加100–500毫秒的延迟，而响应质量完全取决于检索步骤是否找到了正确的文档。

棘手的问题

记忆引入了无状态AI系统中不存在的挑战。过时是最明显的问题：如果你六个月前告诉Claude你正在做一个Python项目，但你现在已转用Rust，那么这种过时的记忆就会变得误导。大多数记忆系统没有良好的机制来过期或更新存储的事实——它们积累信息但很少进行清理。隐私是另一个雷区：如果AI记住了你提到的健康状况、财务状况或机密商业策略，这些信息现在存储在一个你无法完全控制的系统中。谁可以访问它？能否删除？它会被用来训练未来的模型吗？这些问题就是为什么一些企业部署会明确禁用记忆功能。还有连贯性问题：当模型从许多不同对话中调用记忆时，它可能会生成技术上基于你历史记录但上下文混乱的响应——混淆不同项目的细节，或在新情境中应用过时的偏好。

AI记忆的未来

AI记忆研究的前沿正在转向不仅存储和检索事实，还能主动组织和更新理解的系统。谷歌的Infini-attention和类似技术旨在赋予Transformer模型一种压缩的长期记忆，直接嵌入架构本身，而不是依赖外部数据库。代理记忆系统——如AutoGPT和Claude的工具使用代理所使用的框架——在多步骤任务中维护结构化状态，跟踪已完成的内容、学到的知识以及仍需完成的任务。个性化也变得越来越复杂：未来记忆系统将不再仅存储扁平事实（“用户偏好Python”），而是构建更丰富的用户模型，捕捉沟通风格、专业知识水平、决策模式和项目背景。目标是让AI不仅记住你说过什么，还能理解你是谁，以及如何与你进行对话，一次又一次。

记忆