研究人員發佈了PRBench,這是一個測試AI代理是否能重現真實物理學論文計算結果的基準測試。OpenAI的Codex 5.3在該領域處於領先地位,儘管初步報告中未揭露具體的效能指標。該基準測試標誌著從合成編程測試向真實世界科學可重現性挑戰的轉變。
這很重要,因為程式碼重現是一個在AI出現之前就存在的基礎科學問題。物理學論文經常包含其他研究人員難以重現的計算方法,導致了科學界更廣泛的可重現性危機。如果AI代理能夠可靠地重現科學程式碼,它們可以加速研究驗證,並幫助建立跨學科的計算標準。
有限的報告立即引發了關於PRBench方法論和範圍的問題。我們不知道測試了多少篇論文,什麼構成「成功」重現,或者基準測試如何處理困擾科學程式碼的文件不全的相依性和環境設定這一眾所周知的問題。詳細效能資料或競爭觀點的缺失表明這項研究仍處於早期階段。
對於構建科學AI工具的開發者來說,PRBench可能成為一個關鍵的評估標準。但真正的考驗將是這些代理是否能處理科學計算的混亂現實:不完整的文件、遺留程式碼庫,以及需要多年才能掌握的領域專業知識。能運行的程式碼和科學上有效的程式碼不是一回事。
