同行評審被 AI 灌水:30% 的評審能被檢出,寫作品質下滑 1.28σ

INFORMS 旗下的管理學頂刊 Organization Science 發了一篇 AI Task Force 的編輯社論,把 ChatGPT 上線之後,AI 對它自家同行評審管線幹了什麼這件事,基本上量化清楚了。資料是 2021 年 1 月到 2026 年 2 月之間的 6,957 份初投稿件 + 10,389 篇評審報告。2022 年 12 月之後,投稿量直接跳了 42%。到 2026 年 2 月,被分析的論文裡多數都已顯出至少某種程度的 AI 參與;以可讀性指標度量的寫作品質,比基線下移了 1.28 個標準差。大約 30% 的同行評審現在能檢測到 AI 使用痕跡,而 ChatGPT 之前這個比例幾乎為零。檢測工具是 Pangram,在 0-1 連續區間打分,編輯們也直接寫明「沒有任何檢測系統在判定單篇文本時是完全可靠的」。

真正有意思的數字在標題下游。AI 含量在 0-15% 區間的稿件,拿到 revise-and-resubmit 的比例是 11.9%;AI 含量 70%+ 區間的稿件,拿到 R&R 的比例只剩 3.2% —— 意思是,嚴重 AI 協助的稿件被直接拒稿的比例反而更高得多。這不是編輯能完美識別出 AI 的意思;而是 AI 協助下的寫作,在評審實際衡量的那些維度上,是可被識別地更弱的。主導這次分析的是 Wharton 的資深編輯 Claudine Gartenberg。社論沒主張走自動化把關那條路 —— 它指向更深層的結構問題:tenure 與招聘體系獎勵的是投稿數量,而不是邊際貢獻。

對開發者而言,二階效應比頭條更重要。同行評審過的發表,長期是開發者篩選「值不值得讀」的信任訊號 ——「這篇過了 NeurIPS / Nature / 一線場所的評審」是技術可信度的代理指標。如果現在有 30% 的評審涉及 AI 協助、投稿量又漲了 42%,這個訊號下面的雜訊地板就在抬高。原本花四小時讀一篇稿子的評審人,現在可能在二十分鐘裡通過一個被 LLM 摘要過的版本。「評估的評估」這個問題在 AI 研究裡變得遞迴 —— 我們用同行評審來驗證 AI 的主張,但同行評審本身現在已經部分由 AI 在做。這跟 Harvard 急診那篇研究裡醫療 AI 的醫責追溯空白,是同一種形狀:臨床證據走在監管基礎設施前面,科學證據走在評審基礎設施前面。

可落地的讀法。在消費研究時,別把懷疑這件事外包給期刊名字 —— 讀方法節、檢查 eval harness、找程式碼 release;當一筆採購或一項架構決策要押在某篇論文的結論上時,中心 claim 自己再驗證一遍。如果你做的是學術發表,或者在內部跑研究專案,Pangram 這種「連續打分檢測」是值得追蹤的評估方法 —— 不是用來做把關,而是用來做分布性分析:看評審注意力流到了哪裡、又已經從哪裡流走了。Tenure 那套激勵是 Organization Science 自己點出的結構性槓桿,而那條槓桿,任何單一期刊都掌握不了。結論訊號:「以發表場所為信任憑據」是個 2010 年代的假設,在這一波量級衝擊下不再成立。

同行評審被 AI 灌水:30% 的評審能被檢出,寫作品質下滑 1.28σ

更多新聞