Lo interesante de la cosecha actual de benchmarks de razonamiento agéntico es cuánto están en desacuerdo sobre qué tan buenos son realmente los modelos. SWE-bench Verified tiene a los sistemas frontera por encima del 80%, lo cual suena a resuelto. OSWorld, que mide uso de computadora entre aplicaciones, los tiene en 12,24% frente a una baseline humana de 72,36% — básicamente otro planeta. ARC-AGI-1 está saturado al 90%+, ARC-AGI-3 tiene a la frontera bajo 1% al marzo de 2026. τ-bench muestra menos del 50% de éxito en intento único y consistencia pass^k bajo 25%. Los puntajes no son ruido; están midiendo cosas diferentes, y la brecha entre el benchmark más halagador y el más honesto es ahora la verdadera historia.

La advertencia metodológica que todos los que publican puntajes deberían estar obligados a repetir: los resultados de agentes dependen del scaffold. El modelo es una variable. El diseño del prompt, el acceso a herramientas, el presupuesto de reintentos, el entorno de ejecución y la versión del evaluador son todas las otras variables. Un puntaje SWE-bench Verified de Anthropic corriendo su propio scaffold y un puntaje SWE-bench Verified de un evaluador externo sobre el mismo modelo pueden diferir en dos dígitos. Cuando un vendedor cita 80%, la próxima pregunta correcta es "¿con qué scaffold, qué stack de herramientas y qué política de reintentos?" — no "genial, despáchalo". El equipo Sierra τ-bench hizo la versión más fuerte de este punto introduciendo pass^k, que mide si el agente tiene éxito k veces seguidas en la misma tarea. La caída de pass@1 a pass^8 es brutal en todos los modelos, y esa es la brecha de fiabilidad que los despliegues en producción realmente golpean.

OSWorld es el benchmark que expone más limpiamente dónde vive la brecha entre demos y despliegue. Un humano saca 72% en tareas GUI entre aplicaciones. El mejor modelo frontera saca 12%. Eso no es un benchmark que necesite preguntas más duras; es una clase de modelos que todavía no sabe operar una computadora como lo hace una persona. La mayoría de los otros benchmarks agénticos corren en entornos solo-texto o solo-API donde el agente puede llamar herramientas limpias — OSWorld lo hace clickear botones, cambiar ventanas, lidiar con lo que el OS le devuelva. La brecha de 60 puntos es el número correcto para clavar en la pared cuando alguien te muestra una demo pulida de un "asistente de IA que usa tu computadora". Las demos están scripteadas. OSWorld no.

Para desarrolladores, la lista de lectura práctica se ve así: SWE-bench Verified para especialización en reparación de código, τ-bench para fiabilidad en ensayos repetidos, OSWorld para anclaje en uso de computadora, GAIA para razonamiento web multi-paso, ARC-AGI-2 para razonamiento visual novedoso, WebArena para navegación, AgentBench para amplitud entre entornos. Ninguno es suficiente solo. Ninguno mide costo por tarea, seguridad bajo entrada adversarial, o razonamiento multimodal más allá de la visión — esos son los huecos que el campo todavía no ha abordado. Elige los dos o tres que mapeen a tu producto real, corre tu propio scaffold contra la evaluación pública, y trata los números de titular del vendedor como marketing hasta que los reproduzcas. El tablero es más útil como mapa de lo que nadie ha resuelto todavía que como vuelta de victoria por lo que se ha reclamado.