Zubnet AI学习Wiki › 记忆
使用AI

记忆

别名:AI 记忆、持久化上下文

允许AI模型在单次对话之外保留和回忆信息的机制。这包括上下文记忆(使用上下文窗口)、外部记忆(RAG、向量数据库)、持久化对话记忆(跨会话记住用户偏好)和工作记忆(在多步骤代理任务中维持状态)。—记忆正是让AI感觉像一个协作者而非无状态工具的关键。

为什么重要

没有记忆,每次AI对话都从零开始。你必须重复说明你的偏好,重新解释你的代码库,重新描述你的项目。记忆正是将聊天机器人转变为助手的关键——而它也是最难妥善解决的问题之一,需要在相关性、隐私性、数据陈旧性和存储成本之间取得平衡。

深度解析

AI记忆最简单的形式就是上下文窗口本身——模型“记住”了当前对话中你说的每一句话,因为所有内容都直接包含在输入中。早期模型的上下文窗口为4K个标记(约3000个单词),这意味着当对话滚动超过该限制时,模型会“忘记”之前的对话内容。如今的模型已大幅扩展了这一能力:Claude支持高达200K个标记,Gemini 1.5可处理100万个标记,某些模型甚至更进一步。但上下文窗口大小和可用内存并不是一回事。研究表明,模型在处理非常长的上下文中间埋藏的信息时会遇到困难(即“中间迷失”问题),并且填满上下文窗口的成本很高——每次API调用都需要为每个标记付费,因此维护一个100K标记的对话历史会产生真实费用。

短期记忆与长期记忆

AI的短期记忆与长期记忆区别,与人类认知中的区别类似,但实现方式却大不相同。短期记忆(也称工作记忆)是模型在单次会话中保持的内容——上下文窗口,以及在多步骤任务中维护的任何草稿或状态。长期记忆是跨会话持续存在的信息:你的名字、你的偏好、你之前讨论过的项目、你做出的决定。目前大多数消费级AI产品都提供某种形式的长期记忆。ChatGPT的“记忆”功能会从对话中提取关键事实,并将其存储为文本片段,这些片段会在未来的对话中被注入。Claude的记忆功能也类似,用户可以保存项目级别的上下文。这些系统通常使用摘要步骤——AI模型会读取对话并提取重要信息,而不是存储原始对话文本,否则会迅速超出上下文窗口的容量。

RAG作为外部记忆

对于需要记住大量信息的应用——整个代码库、公司的文档、多年的客户互动——检索增强生成(RAG)充当了一种外部记忆形式。与其将所有内容塞进上下文窗口,不如将文档作为向量嵌入存储在数据库中,并在需要时仅检索相关部分。这就是大多数企业AI助手的工作方式:当你提问时,系统会搜索其知识库,提取前k个相关片段,并将它们与你的问题一起输入模型。模型不会“记住”完整的知识库,但可以按需访问它,这在功能上是相似的。权衡在于延迟和相关性——向量搜索每次查询会增加100–500毫秒的延迟,而响应质量完全取决于检索步骤是否找到了正确的文档。

棘手的问题

记忆引入了无状态AI系统中不存在的挑战。过时是最明显的问题:如果你六个月前告诉Claude你正在做一个Python项目,但你现在已转用Rust,那么这种过时的记忆就会变得误导。大多数记忆系统没有良好的机制来过期或更新存储的事实——它们积累信息但很少进行清理。隐私是另一个雷区:如果AI记住了你提到的健康状况、财务状况或机密商业策略,这些信息现在存储在一个你无法完全控制的系统中。谁可以访问它?能否删除?它会被用来训练未来的模型吗?这些问题就是为什么一些企业部署会明确禁用记忆功能。还有连贯性问题:当模型从许多不同对话中调用记忆时,它可能会生成技术上基于你历史记录但上下文混乱的响应——混淆不同项目的细节,或在新情境中应用过时的偏好。

AI记忆的未来

AI记忆研究的前沿正在转向不仅存储和检索事实,还能主动组织和更新理解的系统。谷歌的Infini-attention和类似技术旨在赋予Transformer模型一种压缩的长期记忆,直接嵌入架构本身,而不是依赖外部数据库。代理记忆系统——如AutoGPT和Claude的工具使用代理所使用的框架——在多步骤任务中维护结构化状态,跟踪已完成的内容、学到的知识以及仍需完成的任务。个性化也变得越来越复杂:未来记忆系统将不再仅存储扁平事实(“用户偏好Python”),而是构建更丰富的用户模型,捕捉沟通风格、专业知识水平、决策模式和项目背景。目标是让AI不仅记住你说过什么,还能理解你是谁,以及如何与你进行对话,一次又一次。

相关概念

← 所有术语
← 机器学习 Meta AI →
ESC