A Datacurve lançou DeepSWE, um benchmark de engenharia de software de longo horizonte com 113 tarefas através de 91 repositórios em 5 linguagens. Pontuações top reportadas: GPT-5.5 a 70%, GPT-5.4 a 56%, Claude Opus 4.7 a 54%, Gemini 3.1 Pro a 10%. A manchete lê "GPT-5.5 vence". A história interessante para construtores está na página de metodologia, não no leaderboard.

Os quatro avanços declarados do benchmark: tarefas escritas do zero em vez de adaptadas de PRs ou commits existentes, com um GUID deep-swe-canary embarcado para que a contaminação possa ser detectada se o corpus vazar no pretraining; cobertura abrangendo 91 repos e 5 linguagens; prompts aproximadamente metade do comprimento dos do SWE-bench Pro mas soluções exigindo 5.5x mais código e ~2x mais tokens de saída; verifiers escritos à mão que testam comportamento do software em vez de detalhes de implementação. Todos os modelos rodam através de mini-swe-agent para um scaffold comum. Os exemplos de tarefas são não triviais — "Adicionar operações XML diff, patch, e merge a etree", "Adicionar geração trap coredump a wasmi", "Corrigir ordenação PromQL de labels através de valores tipados e não tipados" — trabalho que tomava horas a engenheiros antes da era agentic. Níveis de orçamento de raciocínio assimétricos na comparação: GPT-5.5 rodou em xhigh, Claude Opus 4.7 em max, Gemini 3.1 Pro sem etiqueta.

Duas leituras relevantes para construtores. Primeira: a diferença de 60 pontos entre GPT-5.5 e Gemini 3.1 Pro é grande o suficiente para suspeitar viés estrutural do benchmark em direção ao idioma de tool-use de um modelo, especialmente em uma avaliação nova onde as convenções de harness importam. As pontuações SWE-bench Verified se estreitaram quando o campo teve tempo de re-rodar em múltiplos scaffolds; DeepSWE provavelmente seguirá o mesmo arco. Segunda: Datacurve está no negócio de serviços de dados, então um benchmark que ranqueia modelos foundation também é um anúncio para a empresa que o construiu. Isso não invalida a avaliação, mas significa que o leaderboard pede re-execução independente antes de ser load-bearing. A escolha do harness mini-swe-agent é um scaffold — OpenHands, Aider, harnesses estilo Claude Code produzirão diferentes ordenações relativas nas mesmas tarefas.

Se você envia agentes que usam código segunda de manhã: leia a seção de metodologia de qualquer novo benchmark SWE antes de tratar os números como ordenação. Procure o GUID canary, a divulgação do scaffold, a normalização do orçamento de raciocínio, e se a avaliação vive em um contêiner Docker que você pode rodar você mesmo. Aposte na tendência metodológica, não no título do leaderboard.