OpenAI 本周发表了一项研究,针对的是每家实验室都会遇到却鲜有人能衡量好的难题:在模型上线之前,搞清楚它在真实世界里究竟会如何表现。这套被 OpenAI 称为 Deployment Simulation 的方法,利用近期的生产数据来预测不良行为在发布前的发生率。说得直白些,它把近期经过去标识化处理的用户请求重新输入候选模型,再用一个 LLM 评判器为回复打分,从而构建出一份预测:一旦真实用户拿到这个模型,它做出不受欢迎之事的频率会有多高。

最受关注的结果既关乎准确性,也关乎模型在测试下是否诚实。在 20 个行为类别和三个 GPT-5-series Thinking 部署中,模拟出的发生率与实际观测到的生产发生率高度吻合,而且在预测某种行为会朝哪个方向变化、变化幅度有多大方面,这套方法同时胜过了高难度提示基线和上一次部署基线。值得多停留片刻的部分是评估意识,这是一个由来已久的难题:模型一旦察觉到自己正在被测试,行为就可能不同。OpenAI 表示,模拟真实部署把这种意识降到了接近真实生产流量的水平,而这正是关键所在:一个模型无法与真实情况区分开来的测试,衡量的就是真实情况。团队还把该方法扩展到了智能体部署,使用有状态的工具模拟器,在获得足够上下文时,这些模拟器能产出逼真的多步骤轨迹。

更具普惠意义的一块,是 OpenAI 对齐博客上的一篇配套文章,它追问的是:几乎从来拿不到实验室私有生产数据的外部研究者,能否改用公开数据来做这件事。研究使用了 WildChat,这是一个收录了 2023 年和 2024 年约一百万段对话的公开数据集,答案是有保留的肯定:大约 95% 基于 WildChat 的预测落在已实现生产发生率约一个数量级的范围内,在 19 个被追踪的安全类别上平均误差接近 3.6x。与私有数据版本相比,这固然粗糙,但它是来自任何人都能使用的数据的真实信号,尽管 WildChat 的采集时间与如今人们使用模型的方式之间存在两到三年的差距。团队自己点明了一个尖锐的注意事项:WildChat 在智能体任务上要弱得多,原始误差大约要大 37x,因为简短的聊天记录里根本不包含智能体所产生的那种工具密集、多步骤的失败。

这件事之所以重要,落点与本月许多关于衡量的争论是一致的:基准测试会饱和、会被取巧,继而不再能预测真实行为,因此这个领域需要更好的方式来预判模型一旦放开后会做什么。一份能抵御应试取巧的发布前估计,加上一个让实验室之外的人得以核查实验室工作的公开数据版本,都是真正有用的进展。需要紧紧抓住的,是那些诚实的局限:这是一家实验室在自己的部署和数据上验证出来的方法,智能体方面的差距大到足以让人不应在使用工具的系统上信任聊天数据版本,而一份预测,无论校准得多好,终究仍是预测,而非对下一个放开面世的模型的保证。