擴展瓶頸：為什麼更大的AI模型表現更差

多個研究團隊已經記錄了產業內部的懷疑：透過擴展大型語言模型來實現通用人工智慧的時代已經撞牆了。Anthropic的反向擴展研究顯示，更大的模型在複雜任務上變得不太可靠，帶著危險的自信產生幻覺。Apple的GSM-Symbolic基準測試揭露，改變數學問題中的微小變數——比如把「David」換成「Clara」——會導致準確率下降65%，證明模型依賴的是脆弱的模式比對而非真正的推理。與此同時，Nature發表了「模型崩潰」的證據，因為AI生成的內容污染了訓練資料。

這些發現的匯集標誌著AI開發策略的根本轉變。整個產業把一切都押注在更大的模型最終會解決所有問題的假設上——OpenAI共同創辦人Ilya Sutskever現在承認這一策略已經「結束了」。經濟數據說明了問題：PNAS的一項研究發現，前沿模型往往比前輩貴10倍，但在現實世界的實用性上統計上沒有任何改善。我們在為使用者甚至無法感知的邊際收益支付指數級成本。

特別嚴重的是這些限制如何相互加重。隨著模型變大，它們同時變得不太可靠，在日益被污染的資料上訓練成本更高。預訓練範式的「輕鬆勝利」已經耗盡，迫使公司轉向全新的架構，如推理時推理——本質上承認當前方法已達到天花板。

對開發者來說，這意味著下一個突破不會來自等待GPT-5或Claude-4。專注於利用當前能力建構，而不是押注神奇的未來改進。「只是等待下一個模型」的時代結束了。

擴展瓶頸：為什麼更大的AI模型表現更差

更多新聞