多个研究团队已经证实了行业内部的怀疑:通过扩展大型语言模型来实现通用人工智能的时代已经撞墙了。Anthropic的反向扩展研究显示,更大的模型在复杂任务上变得不太可靠,带着危险的自信产生幻觉。Apple的GSM-Symbolic基准测试揭示,改变数学问题中的微小变量——比如把"David"换成"Clara"——会导致准确率下降65%,证明模型依赖的是脆弱的模式匹配而非真正的推理。与此同时,Nature发表了"模型崩溃"的证据,因为AI生成的内容污染了训练数据。

这些发现的汇集标志着AI开发策略的根本转变。整个行业把一切都押注在更大的模型最终会解决所有问题的假设上——OpenAI联合创始人Ilya Sutskever现在承认这一策略已经"结束了"。经济数据说明了问题:PNAS的一项研究发现,前沿模型往往比前辈贵10倍,但在现实世界的实用性上统计上没有任何改进。我们在为用户甚至无法感知的边际收益支付指数级成本。

特别严重的是这些限制如何相互加重。随着模型变大,它们同时变得不太可靠,在日益被污染的数据上训练成本更高。预训练范式的"轻松胜利"已经耗尽,迫使公司转向全新的架构,如推理时推理——本质上承认当前方法已达到天花板。

对开发者来说,这意味着下一个突破不会来自等待GPT-5或Claude-4。专注于利用当前能力构建,而不是押注神奇的未来改进。"只是等待下一个模型"的时代结束了。