Zubnet AI學習Wiki › 記憶
使用AI

記憶

別名:AI 記憶、持久化上下文

讓AI模型能夠保留並回憶超越單次對話資訊的機制。這包括上下文記憶(使用上下文視窗)、外部記憶(RAG、向量資料庫)、持續對話記憶(記住用戶在不同會話中的偏好),以及工作記憶(在多步驟代理任務中維持狀態)。記憶正是讓AI感覺像協作者而非無狀態工具的關鍵。

為什麼重要

沒有記憶,每一次與AI的對話都必須從零開始。你必須重複說明自己的偏好,重新解釋自己的程式碼庫,重新描述自己的專案。記憶正是將聊天機器人轉變為助理的關鍵——而這也是最難妥善解決的問題之一,需要在相關性、隱私、過時性與儲存成本之間取得平衡。

深度解析

最簡單的AI記憶形式就是上下文視窗本身 — 模型會「記住」你在當前對話中說過的一切,因為所有內容都在輸入中。早期的模型只有4K-token的上下文視窗(約3,000個字),這意味著當對話滾動超過這個限制時,就會「遺忘」先前的訊息。如今的模型已大幅擴展了這個範圍:Claude支援高達200K tokens,Gemini 1.5可處理100萬tokens,有些模型甚至更進一步。但上下文視窗大小與可用記憶並非同一回事。研究持續顯示,模型在處理非常長的上下文裡深層資訊時會遇到困難(所謂的「中間遺失」問題),而且填滿上下文視窗的成本很高 — 每次API呼叫都要為每個token付費,因此維持100K-token的對話歷史會產生實際費用。

短期記憶 vs. 長期記憶

AI的短期記憶與長期記憶之分,與人類認知中的區分相似,但實現方式卻大不相同。短期記憶(也稱為工作記憶)是指模型在單次會話中所持有的資訊 — 上下文視窗,以及在多步驟任務中維持的任何草稿或狀態。長期記憶則是跨會話持續存在的資訊:你的名字、偏好、過去討論過的專案、做出的決策。目前大多數消費級AI產品都提供某種形式的長期記憶。ChatGPT的「Memory」功能會從對話中提取關鍵事實,並以文字片段形式儲存,之後會注入到未來的對話中。Claude的記憶功能類似,用戶可以儲存專案級的上下文。這些系統通常會使用摘要步驟 — 一個AI模型讀取對話並提取重要資訊 — 而非儲存原始對話內容,否則會迅速超出上下文視窗的容量。

RAG作為外部記憶

對於需要記住大量資訊的應用 — 整個程式碼庫、公司的文件、數年的客戶互動 — 檢索增強生成(RAG)便成為一種外部記憶形式。與將所有內容塞進上下文視窗不同,你會將文件儲存為向量嵌入在資料庫中,並在需要時只檢索相關片段。這就是大多數企業AI助手的運作方式:當你提出問題時,系統會在其知識庫中搜尋,提取前k個相關片段,並與你的問題一併輸入模型。模型本身不會「記住」完整的知識庫,但可以按需存取,這在功能上與記住知識庫相似。權衡之處在於延遲與相關性 — 向量搜尋會為每個問題增加100–500毫秒的延遲,而回應品質完全取決於檢索步驟是否找到了正確的文件。

困難的問題

記憶會引發在無狀態AI系統中不存在的挑戰。資料過時是最明顯的問題:如果你六個月前告訴Claude你正在開發一個Python專案,但後來轉用Rust,那麼過時的記憶就會產生誤導。大多數記憶系統缺乏有效過期或更新儲存資訊的機制 — 它們會累積資訊但很少進行修剪。隱私則是另一個地雷區:如果AI記得你提到了健康狀況、財務情況或機密商業策略,這些資訊現在就存在於你無法完全控制的系統中。誰能存取它?能否刪除?它會用來訓練未來的模型嗎?這些問題就是為何某些企業部署會明確停用記憶功能。此外還有連貫性問題:當模型從許多不同對話中提取記憶時,可能會產生技術上基於你歷史但上下文混淆的回應 — 混淆不同專案的細節,或將過時的偏好套用到新情境。

AI記憶的未來

AI記憶研究的前沿正在朝向不僅儲存和檢索事實,更能主動組織和更新理解的系統。Google的Infini-attention及類似技術旨在讓Transformer模型在架構本身內具備壓縮的長期記憶,而非依賴外部資料庫。代理記憶系統 — 如AutoGPT和Claude的工具使用代理所使用的系統 — 在多步驟任務中維持結構化的狀態,追蹤已完成的動作、學習的內容以及仍需進行的任務。而個人化功能也變得更精緻:未來的記憶系統將不再僅儲存平面事實(如「用戶偏好Python」),而是建立更豐富的用戶模型,涵蓋溝通風格、專業程度、決策模式和專案背景。目標是讓AI不僅記得你說過什麼 — 更能理解你是誰,以及如何與你互動,一次又一次的對話中。

相關概念

← 所有術語
← 機器學習 Meta AI →
ESC