截止日期存在是因為訓練資料必須在訓練開始之前被收集、清理和處理——這個過程需要數週到數月。2025 年發布的模型可能有 2024 年底的訓練資料截止日期。截止日期和發布之間的差距代表處理時間。一些提供者透過對更近期資料的微調進行額外的「知識更新」,但這些通常是狹窄的(新聞事件、產品發布),而非全面的。
截止日期並不完全乾淨。訓練資料通常包含在一段日期範圍內發布的內容,而網路爬取可能包含在不同時間最後更新的頁面。模型可能知道其「官方」截止日期之後的一些事情,因為資料收集有重疊。它也可能在截止日期之前的知識上有空白,如果某些來源沒有被包含。截止日期是一個粗略的指南,而不是精確的邊界。
三種方法解決截止日期限制:RAG(檢索當前文件並將其包含在提示中)、網路搜尋工具(讓模型搜尋當前資訊)、以及定期模型更新(在近期資料上重新訓練或微調)。在實踐中,大多數生產應用程式使用 RAG 或工具使用,而不是僅依賴模型的內部知識,即使對於訓練期間內的資訊也是如此,因為模型的參數知識即使對於它「知道」的事情也可能不精確。