同行评审被 AI 灌水:30% 的评审能被检出,写作品质下滑 1.28σ

INFORMS 旗下的管理学顶刊 Organization Science 发了一篇 AI Task Force 的编辑社论,把 ChatGPT 上线之后,AI 对它自家同行评审管线干了什么这件事,基本上量化清楚了。数据是 2021 年 1 月到 2026 年 2 月之间的 6,957 份初投稿件 + 10,389 篇评审报告。2022 年 12 月之后,投稿量直接跳了 42%。到 2026 年 2 月,被分析的论文里多数都已显出至少某种程度的 AI 参与;以可读性指标度量的写作品质,比基线下移了 1.28 个标准差。大约 30% 的同行评审现在能检测到 AI 使用痕迹,而 ChatGPT 之前这个比例几乎为零。检测工具是 Pangram,在 0-1 连续区间打分,编辑们也直接写明「没有任何检测系统在判定单篇文本时是完全可靠的」。

真正有意思的数字在标题下游。AI 含量在 0-15% 区间的稿件,拿到 revise-and-resubmit 的比例是 11.9%;AI 含量 70%+ 区间的稿件,拿到 R&R 的比例只剩 3.2% —— 意思是,严重 AI 协助的稿件被直接拒稿的比例反而更高得多。这不是编辑能完美识别出 AI 的意思;而是 AI 协助下的写作,在评审实际衡量的那些维度上,是可被识别地更弱的。主导这次分析的是 Wharton 的资深编辑 Claudine Gartenberg。社论没主张走自动化把关那条路 —— 它指向更深层的结构问题:tenure 与招聘体系奖励的是投稿数量,而不是边际贡献。

对开发者而言,二阶效应比头条更重要。同行评审过的发表,长期是开发者筛选「值不值得读」的信任信号 —— 「这篇过了 NeurIPS / Nature / 一线场所的评审」是技术可信度的代理指标。如果现在有 30% 的评审涉及 AI 协助、投稿量又涨了 42%,这个信号下面的噪声地板就在抬高。原本花四小时读一篇稿子的评审人,现在可能在二十分钟里通过一个被 LLM 摘要过的版本。「评估的评估」这个问题在 AI 研究里变得递归 —— 我们用同行评审来验证 AI 的主张,但同行评审本身现在已经部分由 AI 在做。这跟 Harvard 急诊那篇研究里医疗 AI 的医责追溯空白,是同一种形状:临床证据走在监管基础设施前面,科学证据走在评审基础设施前面。

可落地的读法。在消费研究时,别把怀疑这件事外包给期刊名字 —— 读方法节、检查 eval harness、找代码 release;当一笔采购或一项架构决策要押在某篇论文的结论上时,中心 claim 自己再验证一遍。如果你做的是学术发表,或者在内部跑研究项目,Pangram 这种「连续打分检测」是值得跟踪的评估方法 —— 不是用来做把关,而是用来做分布性分析:看评审注意力流到了哪里、又已经从哪里流走了。Tenure 那套激励是 Organization Science 自己点出的结构性杠杆,而那条杠杆,任何单一期刊都掌握不了。结论信号:「以发表场所为信任凭据」是个 2010 年代的假设,在这一波量级冲击下不再成立。

同行评审被 AI 灌水:30% 的评审能被检出,写作品质下滑 1.28σ

更多新闻