知识截止日期是 AI 助手最常见的挫折来源。“为什么它不知道 X?”因为 X 发生在训练之后。这一限制推动了 RAG(让模型访问最新信息)和工具使用(让模型搜索网络)的采用。理解截止日期有助于你知道何时信任模型,何时需要验证。
截止日期的存在是因为训练数据必须在训练开始前收集、清洗和处理——这个过程需要数周到数月。2025 年发布的模型可能有 2024 年末的训练数据截止日期。截止日期和发布之间的间隔代表了处理时间。一些提供商通过在更新数据上微调来进行额外的"知识更新",但这些通常是狭窄的(新闻事件、产品发布),而非全面性的。
截止日期并非完全清晰。训练数据通常包含在一段时间范围内发布的内容,网页抓取可能包含最后更新时间不同的页面。模型可能知道其"官方"截止日期之后的某些事情,因为数据收集存在重叠。它也可能在截止日期之前存在知识空白,如果某些来源未被包含。截止日期是一个大致指南,而非精确边界。
三种方法解决截止日期的限制:RAG(检索当前文档并将其包含在提示中)、网络搜索工具(让模型搜索最新信息)以及定期模型更新(在最新数据上重新训练或微调)。在实践中,大多数生产应用使用 RAG 或工具使用,而不是仅依赖模型的内部知识,即使对于训练期内的信息也是如此,因为模型的参数化知识即使对于它"知道"的事情也可能不精确。