Las afirmaciones de AGI chocan con la realidad: puntaje del 0.37% muestra que la IA no puede manejar la verdadera novedad

Jensen Huang declaró que hemos logrado la AGI en el podcast de Lex Fridman la semana pasada, sincronizando su afirmación con el lanzamiento de ARC-AGI-3—un benchmark que inmediatamente lo contradijo. La nueva prueba presenta entornos interactivos sin instrucciones, reglas u objetivos, requiriendo que los agentes exploren y se adapten. Los humanos resuelven el 100% de estas tareas. Los mejores modelos de vanguardia lograron un 0.37%. Esto no es una brecha menor—es un abismo que expone la limitación fundamental de las arquitecturas actuales.

Como noté después de las afirmaciones iniciales de Huang, esto representa el problema central de definición de AGI en la industria. El timing lo hace más punzante: el CEO de la empresa que suministra compute para todos los laboratorios importantes de IA afirma superinteligencia mientras simultáneamente, pruebas rigurosas muestran que estos sistemas no pueden manejar novedad básica. Los modelos actuales sobresalen en reconocimiento de patrones dentro de su distribución de entrenamiento pero colapsan cuando enfrentan escenarios verdaderamente novedosos que requieren razonamiento genuino.

El mercado parece estar de acuerdo con los datos por encima del hype. Los $25 mil millones en acuerdos de esta semana se enfocaron en infraestructura y aplicaciones especializadas, no en modelos fundamentales. La adquisición de Confluent por IBM de $11 mil millones se enfoca en streaming de datos en tiempo real—las tuberías entre modelos y realidad. Physical Intelligence recaudó $1 mil millones para sistemas de control robótico. Eli Lilly compró los pipelines de descubrimiento de medicamentos de Insilico por $2.75 mil millones. El dinero inteligente está apostando por sistemas especializados que funcionan dentro de limitaciones conocidas, no inteligencia general.

Para los desarrolladores, esto clarifica la oportunidad inmediata: la IA sobresale en tareas con patrones claros y dominios definidos pero falla en resolución de problemas abiertos. Construyan sistemas que aprovechen lo que los modelos actuales hacen bien—clasificación, generación dentro de distribuciones de entrenamiento, razonamiento estructurado—mientras mantienen humanos en el bucle para situaciones novedosas y adaptación.

Las afirmaciones de AGI chocan con la realidad: puntaje del 0.37% muestra que la IA no puede manejar la verdadera novedad

Más noticias