Um preprint da Microsoft Research acabou de soltar um benchmark chamado DELEGATE-52 e o número de manchete é cortante: GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro corrompem uma média de 25% do conteúdo do documento ao final de workflows delegados longos. O paper — "LLMs Corrupt Your Documents When You Delegate" por Philippe Laban, Tobias Schnabel e Jennifer Neville — avalia 19 LLMs no total em 52 domínios profissionais que incluem código, cristalografia e notação musical. É um preprint, ainda não revisado por pares, e o benchmark testa deliberadamente workflows delegados estendidos em vez de solicitações de turno único. Esse enquadramento importa: isto não é "um modelo pode editar um documento" mas "o que acontece quando você dá a um modelo um trabalho de edição de múltiplos passos e vai embora".

Os três fatores de degradação nomeados são concretos e testáveis: tamanho do documento, comprimento da interação e presença de arquivos distratores no contexto de trabalho. Os três pioram a corrupção nos resultados relatados. Isso mapeia diretamente para a forma operacional dos workflows agênticos na natureza — contextos longos, muitos turnos, muitos arquivos adjacentes que o agente pode ver — e explica por que equipes rodando longas sessões de Claude Code ou Codex em bases de código reais vêm relatando a mesma classe de falhas anedoticamente. O benchmark dá a essa anedota um número, anexado a versões específicas de modelos de fronteira, com um harness publicado em vez de autodeclaração de vendor. A cobertura companheira da Futurism nota que o próprio Copilot da Microsoft foi excluído da avaliação de modelos de fronteira — leia isso como você quiser, mas a ausência vale ser sinalizada.

Os caveats honestos: os 25% é uma média em 52 domínios, e médias escondem variância — sem o breakdown por domínio, você não pode dizer se documentos de código corrompem a 5% e cristalografia a 60%, ou se o resultado é uniforme. O abstract não fixa a definição operacional de "corrupção de conteúdo" — se isso significa erros factuais, quebra sintática, seções perdidas, adições alucinadas ou um composto ponderado. O status de preprint significa que a metodologia vai ser desmontada em revisão, e as especificidades do harness importam para qualquer equipe tentando reproduzir. Nada disso invalida a manchete; só significa que a manchete é o início da leitura, não o fim.

Para builders que enviam workflows delegados: a implicação prática é que "envie o documento ao modelo e peça para editar em dez passos" ainda não é uma abstração segura na qualidade dos modelos de fronteira. Ou mantenha o humano em cada commit, encurte o horizonte de delegação, ou use verificação de diff de documento em cada passo antes de propagar mudanças. Observe arxiv.org/abs/2604.15597 para o PDF completo e os números por domínio quando o paper for atualizado — esses números vão dizer quais tipos específicos de trabalho de documento ainda são seguros para delegar e quais são a extremidade 25%-corrupção da distribuição.