一个名为The AI Scientist的AI系统产生了一篇machine learning论文,该论文得分足够高,通过了ICLR研讨会的同行评议,获得了6、7、6的评审分数,平均6.33分——高于接收门槛,位列提交论文的前45%。但论文内容平平无奇:它测试了一种最终并未改善神经网络学习的技术。研究团队按照他们预先建立的AI生成作品协议,在接收前撤回了论文。

真正的故事不是论文平庸的发现,而是它是如何产生的。The AI Scientist自动化了整个研究流程中的想法生成、文献综述、实验、手稿撰写和同行评议。这远远超越了当前帮助编码或数据分析的AI工具——它正在自动化假设形成和科学解释,这些是研究人员认为定义他们工作的部分。发表在Nature上,这代表了AI端到端通过同行评议门槛的首个记录案例,即使是在较低的研讨会水平上。

局限性显著且具有启发性。三篇论文都没有达到ICLR主会议的标准,研讨会接收70%的提交论文,而主会议只接收32%。人类仍然在提交前手动筛选输出,选择最有希望的候选论文。该系统只在machine learning领域有效,那里实验完全在计算机上运行,而不是在需要物理实验室或复杂现实世界验证的领域。

对于AI构建者来说,这标志着从协助研究的工具向尝试进行研究的系统的转变。这些含义令人不安:如果AI今天能够生成达到研讨会标准的可发表作品,那么明天科学职业、同行评议可信度和研究质量会发生什么?这项技术勉强可行——但它对科学本身提出的问题才刚刚开始。