一個名為The AI Scientist的AI系統產生了一篇machine learning論文,該論文得分足夠高,通過了ICLR工作坊的同行評議,獲得了6、7、6的評審分數,平均6.33分——高於接收門檻,位列提交論文的前45%。但論文內容平平無奇:它測試了一種最終並未改善神經網路學習的技術。研究團隊按照他們預先建立的AI生成作品協議,在接收前撤回了論文。
真正的故事不是論文平庸的發現,而是它是如何產生的。The AI Scientist自動化了整個研究流程中的想法生成、文獻綜述、實驗、手稿撰寫和同行評議。這遠遠超越了當前幫助編程或資料分析的AI工具——它正在自動化假設形成和科學解釋,這些是研究人員認為定義他們工作的部分。發表在Nature上,這代表了AI端到端通過同行評議門檻的首個記錄案例,即使是在較低的工作坊水平上。
局限性顯著且具有啟發性。三篇論文都沒有達到ICLR主會議的標準,工作坊接收70%的提交論文,而主會議只接收32%。人類仍然在提交前手動篩選輸出,選擇最有希望的候選論文。該系統只在machine learning領域有效,那裡實驗完全在電腦上運行,而不是在需要物理實驗室或複雜現實世界驗證的領域。
對於AI建構者來說,這標誌著從協助研究的工具向嘗試進行研究的系統的轉變。這些含義令人不安:如果AI今天能夠生成達到工作坊標準的可發表作品,那麼明天科學職業、同行評議可信度和研究品質會發生什麼?這項技術勉強可行——但它對科學本身提出的問題才剛剛開始。
