Microsoft DELEGATE-52 : GPT-5.4, Opus 4.6, Gemini 3.1 corrompent 25 % des docs, Zubnet AI Nouvelles

Un preprint de Microsoft Research vient de larguer un benchmark appelé DELEGATE-52 et le chiffre de manchette est tranchant : GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro corrompent en moyenne 25 % du contenu de document à la fin des workflows délégués longs. Le papier — « LLMs Corrupt Your Documents When You Delegate » par Philippe Laban, Tobias Schnabel et Jennifer Neville — évalue 19 LLMs au total sur 52 domaines professionnels qui incluent code, cristallographie et notation musicale. C'est un preprint, pas encore peer-reviewed, et le benchmark teste délibérément les workflows délégués étendus plutôt que les requêtes single-turn. Ce framing compte : ce n'est pas « est-ce qu'un modèle peut éditer un document » mais « qu'est-ce qui arrive quand tu donnes à un modèle une tâche d'édition multi-étapes et que tu t'en vas ».

Les trois facteurs de dégradation nommés sont concrets et testables : taille de document, longueur d'interaction et présence de fichiers distracteurs dans le contexte de travail. Les trois empirent la corruption dans les résultats rapportés. Ça mappe directement à la forme opérationnelle des workflows agentiques dans la nature — contextes longs, beaucoup de tours, beaucoup de fichiers adjacents que l'agent peut voir — et explique pourquoi les équipes qui roulent de longues sessions Claude Code ou Codex sur du vrai code rapportent la même classe de pannes anecdotiquement. Le benchmark donne à cette anecdote un chiffre, attaché à des versions spécifiques de modèles frontières, avec un harness publié plutôt que de l'auto-déclaration vendor. La couverture compagnon de Futurism note que le Copilot de Microsoft lui-même a été exclu de l'évaluation des modèles frontières — lis ça comme tu veux, mais l'absence vaut la peine d'être signalée.

Les caveats honnêtes : le 25 % est une moyenne sur 52 domaines, et les moyennes cachent la variance — sans le breakdown par domaine, tu ne peux pas dire si les documents de code se corrompent à 5 % et la cristallographie à 60 %, ou si le résultat est uniforme. L'abstract ne précise pas la définition opérationnelle de « corruption de contenu » — si ça veut dire erreurs factuelles, bris syntaxique, sections perdues, ajouts hallucinés ou un composite pondéré. Le statut preprint signifie que la méthodologie va se faire éplucher en review, et les spécificités du harness comptent pour toute équipe qui essaie de reproduire. Rien de tout ça n'invalide la manchette ; ça veut juste dire que la manchette c'est le début de la lecture, pas la fin.

Pour les builders qui shippent des workflows délégués : l'implication pratique c'est que « envoie le document au modèle et demande-lui de l'éditer en dix étapes » n'est pas encore une abstraction sécuritaire à la qualité des modèles frontières. Soit garde l'humain dans chaque commit, raccourcis l'horizon de délégation, soit utilise de la vérification de diff de document à chaque étape avant de propager les changements. Watch arxiv.org/abs/2604.15597 pour le PDF complet et les chiffres par domaine quand le papier sera mis à jour — ces chiffres te diront quelles sortes spécifiques de travail de document sont encore sécuritaires à déléguer et lesquelles sont l'extrémité 25 %-corruption de la distribution.

Microsoft DELEGATE-52 : GPT-5.4, Opus 4.6, Gemini 3.1 corrompent 25 % des docs

Plus de nouvelles