Inundación IA en peer review: 30% de revisiones la muestran, calidad de escritura cae 1,28σ

Organization Science, la revista de management de INFORMS, ha publicado un editorial de su AI Task Force documentando qué le ha hecho la IA a su pipeline de peer review desde el lanzamiento de ChatGPT. El dataset: 6.957 envíos iniciales y 10.389 revisiones de enero 2021 a febrero 2026. Los envíos saltaron 42% tras diciembre 2022. Para febrero 2026, la mayoría de papers analizados mostraban al menos algo de involucramiento IA; la calidad de escritura, medida vía métricas de legibilidad, cayó 1,28 desviaciones estándar desde baseline. Aproximadamente 30% de los peer reviews ahora muestran uso IA detectable, versus casi cero antes de ChatGPT. La herramienta de detección es Pangram, puntuando en escala continua 0-1, con los editores reconociendo explícitamente que "ningún sistema de detección es totalmente confiable para juzgar textos individuales".

Los números interesantes están downstream del titular. Papers en el bucket 0-15% de contenido IA recibieron decisiones de revise-and-resubmit el 11,9% del tiempo. Papers en el bucket 70%+ IA recibieron revise-and-resubmit solo el 3,2% del tiempo — significando que los papers fuertemente asistidos por IA fueron rechazados outright a tasas mucho más altas. Eso no es editores detectando perfectamente IA; es la escritura asistida por IA siendo identificablemente más débil en las dimensiones que los revisores realmente miden. La senior editor que lidera el análisis es Claudine Gartenberg en Wharton. El editorial no propone gatekeeping automatizado — marca el problema estructural más profundo como incentivos de tenure y contratación que recompensan volumen de envíos sin importar la contribución marginal.

Para devs, el efecto de segundo orden importa más que el titular. La publicación peer-revisada ha sido la señal de confianza que los devs usan para filtrar qué vale la pena leer — "esto pasó revisión en NeurIPS / Nature / un top venue" es el proxy de credibilidad técnica. Si 30% de las revisiones ahora son asistidas por IA y el volumen de envíos subió 42%, el piso de ruido bajo esa señal está subiendo. El revisor que solía pasar cuatro horas en un paper puede ahora aprobar una versión resumida por LLM en veinte minutos. El problema eval-de-evals en investigación IA se vuelve recursivo: usamos peer review para validar claims IA, pero el peer review mismo ahora se conduce parcialmente por IA. Es la misma forma que el gap de rendición de cuentas médico-IA de Harvard ER — evidencia clínica adelantada a la infraestructura regulatoria, evidencia científica adelantada a la infraestructura de revisión.

Lecturas prácticas. Cuando consumes investigación, no terciarices el escepticismo al nombre de la revista; lee la sección de métodos, revisa el harness de eval, busca releases de código, valida claims centrales tú mismo cuando una decisión de adquisición o arquitectura depende de los findings de un paper. Si estás en publicación académica o corriendo un programa de investigación interno, la metodología detección-Pangram-con-scoring-continuo es el eval a seguir — no para gatekeeping sino para análisis distribucional de hacia dónde va la atención de los revisores y dónde ya fue. Los incentivos de tenure son la palanca estructural que Organization Science identifica, y están fuera del control de cualquier revista individual. La señal: confianza-vía-venue es una asunción de los 2010s que no sobrevive al shift de volumen.

Inundación IA en peer review: 30% de revisiones la muestran, calidad de escritura cae 1,28σ

Más noticias