Inundação IA no peer review: 30% das revisões a mostram, qualidade de escrita cai 1,28σ

A Organization Science, a revista de management da INFORMS, publicou um editorial da sua AI Task Force documentando o que a IA fez ao seu pipeline de peer review desde o lançamento do ChatGPT. O dataset: 6.957 submissões iniciais e 10.389 revisões de janeiro de 2021 a fevereiro de 2026. As submissões deram um salto de 42% depois de dezembro de 2022. Em fevereiro de 2026, a maioria dos papers analisados mostrava ao menos algum envolvimento IA; a qualidade de escrita, medida via métricas de legibilidade, caiu 1,28 desvios padrão da baseline. Cerca de 30% dos peer reviews agora mostram uso IA detectável, versus quase zero antes do ChatGPT. A ferramenta de detecção é o Pangram, pontuando numa escala contínua 0-1, com os editores reconhecendo explicitamente que "nenhum sistema de detecção é totalmente confiável para julgar textos individuais".

Os números interessantes estão downstream da manchete. Papers no bucket 0-15% de conteúdo IA receberam decisões de revise-and-resubmit em 11,9% das vezes. Papers no bucket 70%+ IA receberam revise-and-resubmit em apenas 3,2% das vezes — significando que os papers fortemente assistidos por IA foram rejeitados outright em taxas muito mais altas. Isso não é editores detectando perfeitamente IA; é a escrita assistida por IA sendo identificavelmente mais fraca nas dimensões que os revisores de fato medem. A senior editor liderando a análise é Claudine Gartenberg em Wharton. O editorial não propõe gatekeeping automatizado — sinaliza o problema estrutural mais profundo como incentivos de tenure e contratação que recompensam volume de submissões sem importar a contribuição marginal.

Pra devs, o efeito de segunda ordem importa mais que a manchete. A publicação peer-revisada tem sido o sinal de confiança que devs usam pra filtrar o que vale a pena ler — "isso passou revisão na NeurIPS / Nature / num top venue" é o proxy de credibilidade técnica. Se 30% das revisões agora são assistidas por IA e o volume de submissões subiu 42%, o piso de ruído sob esse sinal está subindo. O revisor que costumava gastar quatro horas num paper pode agora aprovar uma versão resumida por LLM em vinte minutos. O problema eval-de-evals em pesquisa IA fica recursivo: usamos peer review pra validar claims IA, mas o peer review mesmo agora é parcialmente conduzido por IA. É a mesma forma do gap de responsabilização médico-IA de Harvard ER — evidência clínica à frente da infraestrutura regulatória, evidência científica à frente da infraestrutura de revisão.

Leituras práticas. Quando você consome pesquisa, não terceirize o ceticismo pro nome da revista; leia a seção de métodos, cheque o harness de eval, procure releases de código, valide claims centrais você mesmo quando uma decisão de aquisição ou arquitetura depende dos findings de um paper. Se você está em publicação acadêmica ou rodando um programa de pesquisa interno, a metodologia detecção-Pangram-com-scoring-contínuo é o eval a acompanhar — não pra gatekeeping mas pra análise distribucional de pra onde a atenção dos revisores está indo e onde já foi. Incentivos de tenure são a alavanca estrutural que a Organization Science identifica, e estão fora do controle de qualquer revista sozinha. O sinal: confiança-via-venue é uma assunção dos anos 2010 que não sobrevive ao shift de volume.

Inundação IA no peer review: 30% das revisões a mostram, qualidade de escrita cai 1,28σ

Mais notícias