多個研究團隊已經記錄了產業內部的懷疑:透過擴展大型語言模型來實現通用人工智慧的時代已經撞牆了。Anthropic的反向擴展研究顯示,更大的模型在複雜任務上變得不太可靠,帶著危險的自信產生幻覺。Apple的GSM-Symbolic基準測試揭露,改變數學問題中的微小變數——比如把「David」換成「Clara」——會導致準確率下降65%,證明模型依賴的是脆弱的模式比對而非真正的推理。與此同時,Nature發表了「模型崩潰」的證據,因為AI生成的內容污染了訓練資料。
這些發現的匯集標誌著AI開發策略的根本轉變。整個產業把一切都押注在更大的模型最終會解決所有問題的假設上——OpenAI共同創辦人Ilya Sutskever現在承認這一策略已經「結束了」。經濟數據說明了問題:PNAS的一項研究發現,前沿模型往往比前輩貴10倍,但在現實世界的實用性上統計上沒有任何改善。我們在為使用者甚至無法感知的邊際收益支付指數級成本。
特別嚴重的是這些限制如何相互加重。隨著模型變大,它們同時變得不太可靠,在日益被污染的資料上訓練成本更高。預訓練範式的「輕鬆勝利」已經耗盡,迫使公司轉向全新的架構,如推理時推理——本質上承認當前方法已達到天花板。
對開發者來說,這意味著下一個突破不會來自等待GPT-5或Claude-4。專注於利用當前能力建構,而不是押注神奇的未來改進。「只是等待下一個模型」的時代結束了。
