Inondation IA dans le peer review : 30 % des évals la montrent, qualité d'écriture en baisse de 1,28σ

Organization Science, la revue de management de l'INFORMS, a publié un éditorial de son AI Task Force documentant ce que l'IA a fait à son pipeline de peer review depuis le lancement de ChatGPT. Le dataset : 6 957 soumissions initiales et 10 389 évaluations de janvier 2021 à février 2026. Les soumissions ont fait un saut de 42 % après décembre 2022. À février 2026, la majorité des papiers analysés montraient au moins une certaine implication IA; la qualité d'écriture, mesurée par des métriques de lisibilité, a chuté de 1,28 écart-type par rapport à la baseline. Environ 30 % des peer reviews montrent maintenant un usage IA détectable, versus quasi-zéro avant ChatGPT. L'outil de détection, c'est Pangram, qui score sur une échelle continue 0-1, et les éditeurs reconnaissent explicitement qu'« aucun système de détection n'est totalement fiable pour juger des textes individuels ».

Les chiffres intéressants sont en aval de la manchette. Les papiers dans le bucket 0-15 % de contenu IA ont reçu des décisions revise-and-resubmit 11,9 % du temps. Les papiers dans le bucket 70 %+ d'IA ont reçu revise-and-resubmit seulement 3,2 % du temps — ce qui veut dire que les papiers fortement assistés par IA étaient rejetés outright à des taux beaucoup plus élevés. Ce n'est pas que les éditeurs détectent parfaitement l'IA; c'est que l'écriture assistée par IA est identifiablement plus faible sur les dimensions que les évaluateurs mesurent vraiment. La senior editor qui mène l'analyse, c'est Claudine Gartenberg à Wharton. L'éditorial ne propose pas de gatekeeping automatisé — il pointe vers l'enjeu structurel plus profond : les incitatifs de tenure et d'embauche qui récompensent le volume de soumissions sans égard à la contribution marginale.

Pour les développeurs, l'effet de second ordre compte plus que la manchette. La publication peer-reviewée a été le signal de confiance que les développeurs utilisent pour filtrer ce qui mérite d'être lu — « ça a passé l'évaluation à NeurIPS / Nature / une top venue » est le proxy de la crédibilité technique. Si 30 % des évaluations sont maintenant assistées par IA et que le volume de soumissions a grimpé de 42 %, le plancher de bruit sous ce signal monte. L'évaluateur qui passait quatre heures sur un papier peut maintenant approuver une version résumée par LLM en vingt minutes. Le problème éval-des-évals en recherche IA devient récursif : on utilise le peer review pour valider les claims IA, mais le peer review lui-même est maintenant partiellement conduit par IA. C'est la même forme que le gap de reddition de comptes médical-IA de Harvard ER — évidence clinique en avance sur l'infrastructure réglementaire, évidence scientifique en avance sur l'infrastructure d'évaluation.

Lectures pratiques. Quand tu consommes de la recherche, n'externalise pas le scepticisme au nom de la revue; lis la section méthodologie, vérifie le harness d'éval, cherche les releases de code, valide les claims centraux toi-même quand une décision d'approvisionnement ou d'architecture repose sur les findings d'un papier. Si tu es en publication académique ou que tu fais rouler un programme de recherche interne, la méthodologie détection-Pangram-avec-scoring-continu est l'éval à suivre — pas pour faire du gatekeeping mais pour de l'analyse distributionnelle de où l'attention des évaluateurs va et où elle est déjà allée. Les incitatifs de tenure sont le levier structurel qu'Organization Science identifie, et ils sont hors du contrôle de n'importe quelle revue seule. Le signal : confiance-via-venue, c'est une présomption 2010s qui ne survit pas au shift de volume.

Inondation IA dans le peer review : 30 % des évals la montrent, qualité d'écriture en baisse de 1,28σ

Plus de nouvelles