La Fundación ARC Prize de François Chollet acaba de lanzar ARC-AGI-3, y es brutal. La nueva versión de este benchmark de razonamiento interactivo que los humanos resuelven al 100% ha tirado todos los modelos de IA frontera por debajo del 1%. El Gemini Pro de Google lidera esta tabla de humillación con 0.37%, seguido por GPT 5.4 High con 0.26%, Claude Opus con 0.25%, y Grok con un cero redondo. Son escenarios tipo juego sin instrucciones donde los modelos deben descubrir reglas, formar objetivos y ejecutar estrategias completamente desde cero.

Este reset importa porque pincha la burbuja del hype de AGI exactamente en el momento correcto. Los labs quemaron millones entrenando específicamente en ARC-AGI-2, empujando scores de 3% a alrededor de 50% en menos de un año — solo para ser tumbados de vuelta a casi cero por V3. Chollet diseñó esto intencionalmente para separar el razonamiento genuino del pattern matching caro y la optimización de fuerza bruta. El premio de $1 millón que respalda el desafío tiene a los labs frontera prestando mucha más atención de la que prestaron a versiones anteriores.

Lo más revelador es el patrón. Cada lanzamiento de ARC activa el mismo ciclo: los modelos quedan en ridículo, los labs lanzan recursos al problema, los scores suben rápido, luego una nueva versión resetea todo. Si las eventuales mejoras de score en V3 representarán avances reales de razonamiento o solo memorización más sofisticada es exactamente lo que Chollet construyó esto para exponer. Para desarrolladores que apuestan en capacidades de razonamiento de modelos, ARC-AGI-3 es el reality check que necesita su roadmap de producto.