記憶：定義與含義 — AI 維基

讓AI模型能夠保留並回憶超越單次對話資訊的機制。這包括上下文記憶（使用上下文視窗）、外部記憶（RAG、向量資料庫）、持續對話記憶（記住用戶在不同會話中的偏好），以及工作記憶（在多步驟代理任務中維持狀態）。記憶正是讓AI感覺像協作者而非無狀態工具的關鍵。

為什麼重要

沒有記憶，每一次與AI的對話都必須從零開始。你必須重複說明自己的偏好，重新解釋自己的程式碼庫，重新描述自己的專案。記憶正是將聊天機器人轉變為助理的關鍵——而這也是最難妥善解決的問題之一，需要在相關性、隱私、過時性與儲存成本之間取得平衡。

深度解析

最簡單的AI記憶形式就是上下文視窗本身 — 模型會「記住」你在當前對話中說過的一切，因為所有內容都在輸入中。早期的模型只有4K-token的上下文視窗（約3,000個字），這意味著當對話滾動超過這個限制時，就會「遺忘」先前的訊息。如今的模型已大幅擴展了這個範圍：Claude支援高達200K tokens，Gemini 1.5可處理100萬tokens，有些模型甚至更進一步。但上下文視窗大小與可用記憶並非同一回事。研究持續顯示，模型在處理非常長的上下文裡深層資訊時會遇到困難（所謂的「中間遺失」問題），而且填滿上下文視窗的成本很高 — 每次API呼叫都要為每個token付費，因此維持100K-token的對話歷史會產生實際費用。

短期記憶 vs. 長期記憶

AI的短期記憶與長期記憶之分，與人類認知中的區分相似，但實現方式卻大不相同。短期記憶（也稱為工作記憶）是指模型在單次會話中所持有的資訊 — 上下文視窗，以及在多步驟任務中維持的任何草稿或狀態。長期記憶則是跨會話持續存在的資訊：你的名字、偏好、過去討論過的專案、做出的決策。目前大多數消費級AI產品都提供某種形式的長期記憶。ChatGPT的「Memory」功能會從對話中提取關鍵事實，並以文字片段形式儲存，之後會注入到未來的對話中。Claude的記憶功能類似，用戶可以儲存專案級的上下文。這些系統通常會使用摘要步驟 — 一個AI模型讀取對話並提取重要資訊 — 而非儲存原始對話內容，否則會迅速超出上下文視窗的容量。

RAG作為外部記憶

對於需要記住大量資訊的應用 — 整個程式碼庫、公司的文件、數年的客戶互動 — 檢索增強生成（RAG）便成為一種外部記憶形式。與將所有內容塞進上下文視窗不同，你會將文件儲存為向量嵌入在資料庫中，並在需要時只檢索相關片段。這就是大多數企業AI助手的運作方式：當你提出問題時，系統會在其知識庫中搜尋，提取前k個相關片段，並與你的問題一併輸入模型。模型本身不會「記住」完整的知識庫，但可以按需存取，這在功能上與記住知識庫相似。權衡之處在於延遲與相關性 — 向量搜尋會為每個問題增加100–500毫秒的延遲，而回應品質完全取決於檢索步驟是否找到了正確的文件。

困難的問題

記憶會引發在無狀態AI系統中不存在的挑戰。資料過時是最明顯的問題：如果你六個月前告訴Claude你正在開發一個Python專案，但後來轉用Rust，那麼過時的記憶就會產生誤導。大多數記憶系統缺乏有效過期或更新儲存資訊的機制 — 它們會累積資訊但很少進行修剪。隱私則是另一個地雷區：如果AI記得你提到了健康狀況、財務情況或機密商業策略，這些資訊現在就存在於你無法完全控制的系統中。誰能存取它？能否刪除？它會用來訓練未來的模型嗎？這些問題就是為何某些企業部署會明確停用記憶功能。此外還有連貫性問題：當模型從許多不同對話中提取記憶時，可能會產生技術上基於你歷史但上下文混淆的回應 — 混淆不同專案的細節，或將過時的偏好套用到新情境。

AI記憶的未來

AI記憶研究的前沿正在朝向不僅儲存和檢索事實，更能主動組織和更新理解的系統。Google的Infini-attention及類似技術旨在讓Transformer模型在架構本身內具備壓縮的長期記憶，而非依賴外部資料庫。代理記憶系統 — 如AutoGPT和Claude的工具使用代理所使用的系統 — 在多步驟任務中維持結構化的狀態，追蹤已完成的動作、學習的內容以及仍需進行的任務。而個人化功能也變得更精緻：未來的記憶系統將不再僅儲存平面事實（如「用戶偏好Python」），而是建立更豐富的用戶模型，涵蓋溝通風格、專業程度、決策模式和專案背景。目標是讓AI不僅記得你說過什麼 — 更能理解你是誰，以及如何與你互動，一次又一次的對話中。

記憶