Peer review में AI की बाढ़: 30% reviews में पता चल रहा, writing quality 1.28σ नीचे

INFORMS की management जर्नल Organization Science ने अपनी AI Task Force का संपादकीय प्रकाशित किया है, जो दस्तावेज़ करता है कि ChatGPT के लॉन्च के बाद से AI ने उसके peer review pipeline के साथ क्या किया है। Dataset: जनवरी 2021 से फ़रवरी 2026 तक 6,957 initial submissions और 10,389 reviews। दिसंबर 2022 के बाद submissions 42% उछले। फ़रवरी 2026 तक, विश्लेषित अधिकांश papers में कम से कम कुछ AI involvement दिखाई दिया; readability metrics से मापी गई writing quality baseline से 1.28 standard deviations गिरी। लगभग 30% peer reviews अब detectable AI use दिखाते हैं, बनाम ChatGPT से पहले लगभग शून्य। Detection tool Pangram है, जो 0-1 के निरंतर पैमाने पर स्कोर करता है, संपादक स्पष्ट रूप से स्वीकार करते हैं कि "कोई detection system व्यक्तिगत texts को judge करने के लिए पूरी तरह विश्वसनीय नहीं है"।

दिलचस्प संख्याएँ सुर्ख़ी से downstream हैं। 0-15% AI-content bucket में papers को 11.9% बार revise-and-resubmit decisions मिले। 70%+ AI bucket में papers को केवल 3.2% बार revise-and-resubmit मिला — यानी भारी AI-सहायता प्राप्त papers बहुत अधिक दर पर outright reject किए गए। यह संपादकों द्वारा AI की पूरी तरह पहचान करने की बात नहीं है; यह AI-सहायता प्राप्त लेखन का उन dimensions पर पहचान-योग्य रूप से कमज़ोर होना है जिन्हें reviewers वास्तव में मापते हैं। विश्लेषण का नेतृत्व कर रहीं senior editor Claudine Gartenberg हैं Wharton में। संपादकीय automated gatekeeping प्रस्तावित नहीं करता — यह गहरे structural मुद्दे को flag करता है: tenure और hiring incentives जो submission volume को पुरस्कृत करते हैं, marginal contribution की परवाह किए बिना।

Builders के लिए, दूसरे क्रम का प्रभाव सुर्ख़ी से अधिक मायने रखता है। Peer-reviewed publication वह trust signal रहा है जिसका उपयोग builders यह filter करने के लिए करते हैं कि क्या पढ़ने योग्य है — "यह NeurIPS / Nature / top venue पर review पास कर गया" तकनीकी विश्वसनीयता का proxy है। अगर 30% reviews अब AI-सहायता प्राप्त हैं और submission volume 42% बढ़ा है, तो उस signal के नीचे का noise floor उठ रहा है। जो reviewer एक paper पर चार घंटे ख़र्च करता था, वह अब बीस मिनट में LLM-summarized संस्करण को मंज़ूर कर सकता है। AI research में eval-of-evals समस्या पुनरावर्ती हो जाती है: हम AI claims को validate करने के लिए peer review का उपयोग करते हैं, पर peer review स्वयं अब आंशिक रूप से AI द्वारा संचालित है। यह Harvard ER medical-AI accountability gap के समान आकार है — clinical evidence regulatory infrastructure से आगे, scientific evidence review infrastructure से आगे।

व्यावहारिक पाठ। जब आप research consume करते हैं, journal के नाम को scepticism outsource न करें; methods section पढ़ें, eval harness जाँचें, code releases ढूँढें, जब procurement या architectural decision किसी paper के findings पर टिकी हो तो central claims स्वयं validate करें। अगर आप academic publishing में हैं या एक internal research program चला रहे हैं, Pangram-style detection-plus-continuous-scoring ट्रैक करने योग्य eval methodology है — gatekeeping के लिए नहीं बल्कि review attention कहाँ जा रही है और कहाँ पहले से चली गई है के distributional analysis के लिए। Tenure incentives वह structural lever है जिसे Organization Science पहचानता है, और वे किसी भी एक journal के नियंत्रण से बाहर हैं। संकेत: trust-via-venue एक 2010s assumption है जो volume shift से नहीं बचती।

Peer review में AI की बाढ़: 30% reviews में पता चल रहा, writing quality 1.28σ नीचे

और समाचार