Un preprint de Microsoft Research acaba de soltar un benchmark llamado DELEGATE-52 y el número titular es contundente: GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro corrompen un promedio de 25 % del contenido del documento al final de los workflows delegados largos. El paper — "LLMs Corrupt Your Documents When You Delegate" por Philippe Laban, Tobias Schnabel y Jennifer Neville — evalúa 19 LLMs en total en 52 dominios profesionales que incluyen código, cristalografía y notación musical. Es un preprint, aún no peer-reviewed, y el benchmark prueba deliberadamente workflows delegados extendidos en lugar de solicitudes de un solo turno. Ese encuadre importa: esto no es "puede un modelo editar un documento" sino "qué pasa cuando le das a un modelo un trabajo de edición de múltiples pasos y te vas".

Los tres factores de degradación nombrados son concretos y comprobables: tamaño del documento, longitud de interacción y presencia de archivos distractores en el contexto de trabajo. Los tres empeoran la corrupción en los resultados reportados. Eso mapea directamente a la forma operacional de los workflows agénticos en la naturaleza — contextos largos, muchos turnos, muchos archivos adyacentes que el agente puede ver — y explica por qué los equipos corriendo sesiones largas de Claude Code o Codex en bases de código reales han estado reportando la misma clase de fallas anecdóticamente. El benchmark le da a esa anécdota un número, adjunto a versiones específicas de modelos frontera, con un harness publicado en lugar de autoinforme del vendor. La cobertura compañera de Futurism nota que el propio Copilot de Microsoft fue excluido de la evaluación de modelos frontera — léelo como quieras, pero la ausencia vale la pena marcarla.

Los caveats honestos: el 25 % es un promedio en 52 dominios, y los promedios esconden varianza — sin el desglose por dominio, no puedes decir si los documentos de código se corrompen al 5 % y la cristalografía al 60 %, o si el resultado es uniforme. El abstract no precisa la definición operacional de "corrupción de contenido" — si eso significa errores fácticos, rotura sintáctica, secciones perdidas, adiciones alucinadas o un compuesto ponderado. El estatus de preprint significa que la metodología va a ser desmenuzada en revisión, y las especificidades del harness importan para cualquier equipo que intente reproducir. Nada de esto invalida el titular; solo significa que el titular es el principio de la lectura, no el final.

Para builders que envían workflows delegados: la implicación práctica es que "envía el documento al modelo y pídele que edite a través de diez pasos" todavía no es una abstracción segura a la calidad de los modelos frontera. O mantén al humano en cada commit, acorta el horizonte de delegación, o usa verificación de diff de documento en cada paso antes de propagar cambios. Observa arxiv.org/abs/2604.15597 para el PDF completo y los números por dominio cuando el paper se actualice — esos números te dirán qué tipos específicos de trabajo de documento siguen siendo seguros para delegar y cuáles están en el extremo 25 %-corrupción de la distribución.