MIT Tech Review surfacea el benchmark APEX-Agents: los modelos de frontera resuelven solo 33% de tareas reales de trabajo

El boletín de IA de MIT Technology Review enmarcó su pieza de hoy en torno a lo que llamó el problema de los «gnomos de los calzoncillos»: Paso 1 construir el modelo, Paso 3 transformar la empresa, Paso 2 principalmente un movimiento de manos. La evidencia concreta detrás del encuadre es el benchmark APEX-Agents de Mercor, que Will Douglas Heaven citó y que merece su propia atención. APEX comprende 480 tareas profesionales construidas por expertos con 10+ años en bancos de inversión top, firmas de consultoría de gestión, y prácticas de derecho corporativo. Los agentes trabajan dentro de 33 «mundos» simulados, cada uno un entorno completo de Google Workspace con hilos de Slack, archivos de Drive, hojas de cálculo, y PDFs que el modelo tiene que navegar realmente, no un benchmark de API recortado. La tabla de líderes a la semana pasada: GPT-5.5 (xhigh) en 37.7%, GPT-5.4 (xhigh) en 33.3%, Claude Opus 4.6 en 33.0%, Gemini 3.1 Pro Preview en 32.0%. Conclusión propia de Mercor: ningún modelo está listo para reemplazar a un profesional de extremo a extremo. El encuadre de MITTR es más duro: este es el punto de datos al que la narrativa IA-reemplaza-el-trabajo ha sido alérgica.

La realidad técnica que el benchmark hace surgir es que los modelos de frontera están convergiendo en capacidad mientras todavía fallan en dos de cada tres tareas reales de trabajo. La brecha de 1.3 puntos porcentuales entre los tres labs top es llamativa por sí misma; estamos en el punto donde la diferenciación lab-a-lab importa menos que el techo de capacidad absoluto en trabajo profesional multi-paso. Las tareas que APEX mide no son benchmarks de juguete como MMLU o incluso SWE-Bench; son entregables concretos que un banquero, abogado o consultor junior recibiría en sus primeros dos años, embebidos en el contexto Workspace real y desordenado donde tienes que encontrar la hoja de cálculo correcta, parsear el hilo Slack no estructurado, cruzar el PDF, y producir una salida que otro profesional aceptaría. Los modelos sobresalen en las subetapas de planificación e investigación, que coincide con la literatura existente, pero fallan en lo que Mercor llama juicios estratégicos: las partes del trabajo donde la respuesta depende de saber lo que la firma o el cliente realmente quiere, que no está en ningún documento. Esto es consistente con otro estudio citado en la pieza de MITTR, donde Anthropic predijo probabilidades de disrupción laboral basado en análisis de tareas pero tuvo que reconocer que no mide lo que pasa cuando el agente es lanzado a un flujo de trabajo real con compañeros reales y contexto institucional real.

La implicación más amplia es incómoda para tanto el caso alcista como el caso bajista de la IA, que es parte de por qué la data vale la pena tomar en serio. Los alcistas extrapolan de benchmarks de chat y demos a «los agentes reemplazarán trabajadores del conocimiento en 18 meses»; APEX dice que los agentes de frontera actuales no pueden completar la mayoría de un día real de banquero junior. Los bajistas extrapolan de fallas actuales a «todo esto es una burbuja»; APEX también muestra GPT-5.5 saltando de 33.3 a 37.7 en una sola iteración, que es un salto de capacidad significativo en tareas que resisten el gaming. La lectura honesta es la que Mercor publica junto a la tabla: los modelos fundacionales están mejorando constantemente en este tipo de trabajo, la tasa de mejora es real, y la brecha hasta la finalización de extremo a extremo de grado profesional también es real y no se está cerrando en el próximo trimestre. El llamado de MITTR a «menos suposiciones y más evidencia, transparencia de los fabricantes de modelos, coordinación entre investigadores y empresas, nuevas formas de evaluar esta tecnología» es esencialmente una solicitud de más benchmarks estilo APEX. Ahora mismo no hay muchos; APEX, OSWorld, TAU-Bench, y un puñado de otros están haciendo el trabajo portador que ARC, MMLU y HumanEval hicieron para la generación previa.

Para constructores que envían productos agénticos a empresa, la lectura accionable es tratar los puntajes APEX como un chequeo de cordura en lugar de una prueba de marketing. Si un modelo de frontera pasa una tarea de tres en un entorno equivalente a Workspace, tu agente en producción se verá similar a menos que hayas construido andamiaje específico al dominio (verificadores, recuperación, conjuntos de herramientas estrechos) que reduzca materialmente la superficie de tarea. Los labs que envían agentes reclamando altas tasas de éxito empresarial casi siempre están reportando sobre una distribución de tareas mucho más estrecha que lo que APEX mide, y la diferencia es la brecha que MITTR llama faltante. Tres sugerencias concretas: primero, cuando evalúes agentes internamente, construye tu propia versión del setup Workspace desordenado, no un arnés API limpio; las diferencias de rendimiento de 30 a 40 puntos porcentuales son rutinarias entre los dos. Segundo, diseña tu producto alrededor del modo de fallo de juicio estratégico: mantén humanos en el bucle en las partes donde la respuesta depende de contexto que el agente no puede ver, automatiza las subetapas de investigación-y-borrador donde los modelos sí lo hacen bien. Tercero, espera que la tabla de líderes siga subiendo; planificar tu hoja de ruta alrededor de un puntaje APEX de 60-70% en 18 meses es más razonable que reemplazo-en-2026 o nunca. La historia real está en el Paso 2, y APEX es lo más cercano que el campo tiene a una medición de qué tan lejos en ese paso realmente estamos.

MIT Tech Review surfacea el benchmark APEX-Agents: los modelos de frontera resuelven solo 33% de tareas reales de trabajo

Más noticias