研究人员发布了PRBench,这是一个测试AI代理是否能复现真实物理学论文计算结果的基准测试。OpenAI的Codex 5.3在该领域处于领先地位,尽管初步报告中未披露具体的性能指标。该基准测试标志着从合成编码测试向真实世界科学可重复性挑战的转变。
这很重要,因为代码复现是一个在AI出现之前就存在的基础科学问题。物理学论文经常包含其他研究人员难以复现的计算方法,导致了科学界更广泛的可重复性危机。如果AI代理能够可靠地复现科学代码,它们可以加速研究验证,并帮助建立跨学科的计算标准。
有限的报告立即引发了关于PRBench方法论和范围的问题。我们不知道测试了多少篇论文,什么构成"成功"复现,或者基准测试如何处理困扰科学代码的文档不全的依赖关系和环境设置这一众所周知的问题。详细性能数据或竞争观点的缺失表明这项研究仍处于早期阶段。
对于构建科学AI工具的开发者来说,PRBench可能成为一个关键的评估标准。但真正的考验将是这些代理是否能处理科学计算的混乱现实:不完整的文档、遗留代码库,以及需要多年才能掌握的领域专业知识。能运行的代码和科学上有效的代码不是一回事。
