O interessante na safra atual de benchmarks de raciocínio agêntico é o quanto eles discordam sobre quão bons os modelos realmente são. SWE-bench Verified tem os sistemas de fronteira acima de 80%, o que soa como resolvido. OSWorld, que mede uso de computador entre aplicações, os tem em 12,24% contra uma baseline humana de 72,36% — basicamente outro planeta. ARC-AGI-1 está saturado em 90%+, ARC-AGI-3 tem a fronteira abaixo de 1% em março de 2026. τ-bench mostra menos de 50% de sucesso em tentativa única e consistência pass^k abaixo de 25%. Os scores não são ruído; estão medindo coisas diferentes, e a diferença entre o benchmark mais lisonjeiro e o mais honesto é agora a história real.
A ressalva metodológica que todos que publicam scores deveriam ser obrigados a repetir: resultados de agentes dependem do scaffold. O modelo é uma variável. O design do prompt, acesso a ferramentas, orçamento de retry, ambiente de execução e versão do avaliador são todas as outras variáveis. Um score SWE-bench Verified da Anthropic rodando seu próprio scaffold e um score SWE-bench Verified de um avaliador terceiro sobre o mesmo modelo podem diferir em dezenas. Quando um vendor cita 80%, a pergunta certa a seguir é "com qual scaffold, qual stack de ferramentas e qual política de retry" — não "ótimo, manda ver". O time Sierra τ-bench fez a versão mais forte desse ponto introduzindo pass^k, que mede se o agente tem sucesso k vezes seguidas na mesma tarefa. A queda de pass@1 para pass^8 é brutal em todos os modelos, e essa é a lacuna de confiabilidade que deployments em produção realmente batem.
OSWorld é o benchmark que mais limpamente expõe onde mora a lacuna entre demos e deployment. Um humano tira 72% em tarefas GUI entre aplicações. O melhor modelo de fronteira tira 12%. Isso não é um benchmark que precisa de perguntas mais difíceis; é uma classe de modelos que ainda não sabe operar um computador como uma pessoa. A maioria dos outros benchmarks agênticos roda em ambientes só-texto ou só-API onde o agente pode chamar ferramentas limpas — OSWorld faz ele clicar em botões, trocar janelas, lidar com o que o OS devolver. A lacuna de 60 pontos é o número certo para fixar na parede quando alguém te mostra uma demo polida de um "assistente de IA que usa seu computador". Demos são scriptadas. OSWorld não.
Para desenvolvedores, a lista prática de leitura fica assim: SWE-bench Verified para especialização em reparo de código, τ-bench para confiabilidade em tentativas repetidas, OSWorld para grounding em uso de computador, GAIA para raciocínio web multi-passo, ARC-AGI-2 para raciocínio visual novo, WebArena para navegação, AgentBench para amplitude entre ambientes. Nenhum é suficiente sozinho. Nenhum mede custo por tarefa, segurança sob entrada adversarial, ou raciocínio multimodal além da visão — essas são as lacunas que o campo ainda não endereçou. Escolha os dois ou três que mapeiam ao seu produto real, rode seu próprio scaffold contra a avaliação pública, e trate números de manchete de vendor como marketing até que você os reproduza. O placar é mais útil como mapa do que ninguém resolveu ainda do que como volta da vitória pelo que foi reivindicado.
