AI推論遇到了一個意外的瓶頸:上下文記憶體儲存。隨著AI應用程式從簡單的提示-回應模式轉向複雜的多輪對話和代理工作流程,記憶體需求正在爆炸性成長,超出了傳統儲存的處理能力。NAND快閃記憶體本身已面臨供應限制,其架構並非為長上下文AI會話所需的持續讀寫模式而設計。
這反映了我自三月以來一直在追蹤的趨勢——儲存正成為新的GPU瓶頸。雖然我們透過更好的硬體解決了運算擴展問題,但上下文記憶體呈現了根本不同的挑戰。與可以批次處理和最佳化記憶體存取的訓練不同,推論會話需要在可能長達數小時的對話過程中保持大量上下文視窗隨時可用。當前的儲存架構將此視為傳統資料庫存取,但AI上下文的行為更像需要不斷更新的活躍工作記憶體。
NAND短缺在最不合適的時候放大了這個問題。AI公司發現他們的推論成本不再由運算主導——他們在為儲存頻寬和容量付費以維護上下文狀態。這解釋了為什麼我們看到更多記憶體最佳化技術如Google的TurboQuant獲得關注,以及為什麼直接LLM推理等方法在某些使用案例中正在取代向量資料庫。
對於建構AI應用程式的開發者來說,這意味著現在需要重新思考上下文管理策略。長對話串流和複雜代理工作流程將很快變得昂貴。考慮實作上下文壓縮、智慧型上下文修剪,或平衡上下文保留與儲存成本的混合方法。將上下文視為免費的時代正在結束。
