MIT Tech Review traz à tona o benchmark APEX-Agents: modelos de fronteira resolvem só 33% de tarefas reais de trabalho

O boletim de IA do MIT Technology Review enquadrou sua peça de hoje em torno do que chamou de problema dos «gnomos das cuecas»: Passo 1 construir o modelo, Passo 3 transformar a empresa, Passo 2 principalmente um aceno de mão. A evidência concreta por trás do enquadramento é o benchmark APEX-Agents da Mercor, que Will Douglas Heaven citou e que merece sua própria atenção. APEX compreende 480 tarefas profissionais construídas por especialistas com 10+ anos em bancos de investimento top, firmas de consultoria de gestão, e práticas de direito corporativo. Os agentes trabalham dentro de 33 «mundos» simulados, cada um um ambiente Google Workspace completo com threads de Slack, arquivos de Drive, planilhas, e PDFs que o modelo tem que navegar de verdade, não um benchmark API simplificado. O leaderboard da semana passada: GPT-5.5 (xhigh) em 37,7%, GPT-5.4 (xhigh) em 33,3%, Claude Opus 4.6 em 33,0%, Gemini 3.1 Pro Preview em 32,0%. Conclusão da própria Mercor: nenhum modelo está pronto para substituir um profissional de ponta a ponta. O enquadramento do MITTR é mais duro: este é o ponto de dados ao qual a narrativa IA-substitui-trabalho tem sido alérgica.

A realidade técnica que o benchmark traz à tona é que modelos de fronteira estão convergindo em capacidade enquanto ainda falham em duas de cada três tarefas reais de trabalho. A diferença de 1,3 ponto percentual entre os três labs top é marcante por si só; estamos no ponto onde a diferenciação lab-a-lab importa menos que o teto de capacidade absoluto em trabalho profissional multi-passo. As tarefas que APEX mede não são benchmarks de brinquedo como MMLU ou mesmo SWE-Bench; são entregas concretas que um banqueiro, advogado, ou consultor júnior receberia em seus primeiros dois anos, embutidas no contexto Workspace real e bagunçado onde você tem que encontrar a planilha certa, parsear a thread Slack não-estruturada, cruzar o PDF, e produzir uma saída que outro profissional aceitaria. Modelos se destacam nas sub-etapas de planejamento e pesquisa, o que combina com a literatura existente, mas falham no que a Mercor chama de julgamentos estratégicos: as partes do trabalho onde a resposta depende de saber o que a firma ou cliente realmente quer, que não está em nenhum documento. Isso é consistente com outro estudo citado na peça do MITTR, onde a Anthropic previu probabilidades de disrupção de empregos com base em análise de tarefas mas teve que reconhecer que isso não mede o que acontece quando o agente é lançado em um fluxo de trabalho real com colegas reais e contexto institucional real.

A implicação mais ampla é desconfortável tanto para o caso bull quanto para o caso bear da IA, que é parte de por que vale a pena levar os dados a sério. Bulls extrapolam de benchmarks de chat e demos para «agentes vão substituir trabalhadores do conhecimento em 18 meses»; APEX diz que agentes de fronteira atuais não conseguem completar a maioria de um dia real de banqueiro júnior. Bears extrapolam de falhas atuais para «toda essa coisa é uma bolha»; APEX também mostra GPT-5.5 pulando de 33,3 para 37,7 em uma única iteração, que é um salto de capacidade significativo em tarefas que resistem ao gaming. A leitura honesta é a que a Mercor publica ao lado do leaderboard: modelos fundacionais estão melhorando consistentemente nesse tipo de trabalho, a taxa de melhoria é real, e a lacuna até a finalização ponta-a-ponta nível profissional também é real e não está fechando no próximo trimestre. O chamado do MITTR por «menos suposições e mais evidência, transparência dos fabricantes de modelos, coordenação entre pesquisadores e empresas, novas formas de avaliar essa tecnologia» é essencialmente um pedido por mais benchmarks estilo APEX. Agora não tem muitos; APEX, OSWorld, TAU-Bench, e um punhado de outros estão fazendo o trabalho portante que ARC, MMLU e HumanEval fizeram para a geração anterior.

Para construtores enviando produtos agênticos para empresa, a leitura acionável é tratar pontuações APEX como um teste de sanidade em vez de prova de marketing. Se um modelo de fronteira passa uma tarefa em três em um ambiente equivalente a Workspace, seu agente em produção vai parecer similar a menos que você tenha construído andaime específico ao domínio (verificadores, recuperação, conjuntos de ferramentas estreitos) que reduza materialmente a superfície de tarefa. Os labs que enviam agentes alegando altas taxas de sucesso empresarial quase sempre estão reportando sobre uma distribuição de tarefas muito mais estreita que o que APEX mede, e a diferença é a lacuna que MITTR chama de faltante. Três sugestões concretas: primeiro, quando você avaliar agentes internamente, construa sua própria versão do setup Workspace bagunçado, não um arnês API limpo; diferenças de desempenho de 30-40 pontos percentuais são rotineiras entre os dois. Segundo, projete seu produto em torno do modo de falha julgamento-estratégico: mantenha humanos no loop nas partes onde a resposta depende de contexto que o agente não pode ver, automatize as sub-etapas pesquisa-e-rascunho onde os modelos realmente vão bem. Terceiro, espere que o leaderboard continue subindo; planejar seu roadmap em torno de uma pontuação APEX de 60-70% em 18 meses é mais razoável que substituição-em-2026 ou nunca. A história real está no Passo 2, e APEX é a coisa mais próxima que o campo tem de uma medição de quão longe nesse passo realmente estamos.

MIT Tech Review traz à tona o benchmark APEX-Agents: modelos de fronteira resolvem só 33% de tarefas reais de trabalho

Mais notícias