AI推理遇到了一个意外的瓶颈:上下文内存存储。随着AI应用从简单的提示-响应模式转向复杂的多轮对话和代理工作流,内存需求正在爆炸性增长,超出了传统存储的处理能力。NAND闪存本身已面临供应限制,其架构并非为长上下文AI会话所需的持续读写模式而设计。
这反映了我自三月以来一直在追踪的趋势——存储正成为新的GPU瓶颈。虽然我们通过更好的硬件解决了计算扩展问题,但上下文内存呈现了根本不同的挑战。与可以批处理和优化内存访问的训练不同,推理会话需要在可能长达数小时的对话过程中保持大量上下文窗口随时可用。当前的存储架构将此视为传统数据库访问,但AI上下文的行为更像需要不断更新的活跃工作内存。
NAND短缺在最不合适的时候放大了这个问题。AI公司发现他们的推理成本不再由计算主导——他们在为存储带宽和容量付费以维护上下文状态。这解释了为什么我们看到更多内存优化技术如Google的TurboQuant获得关注,以及为什么直接LLM推理等方法在某些用例中正在取代向量数据库。
对于构建AI应用的开发者来说,这意味着现在需要重新思考上下文管理策略。长对话线程和复杂代理工作流将很快变得昂贵。考虑实施上下文压缩、智能上下文修剪,或平衡上下文保留与存储成本的混合方法。将上下文视为免费的时代正在结束。
