El primer problema con la AGI es que nadie está de acuerdo sobre qué significa. OpenAI publicó un marco de cinco niveles en 2024: el nivel 1 es chatbots (IA conversacional), el nivel 2 es razonadores (resolución de problemas a nivel humano), el nivel 3 es agentes (sistemas que toman acciones), el nivel 4 es innovadores (sistemas que ayudan en la invención) y el nivel 5 es organizaciones (IA que puede hacer el trabajo de toda una empresa). Por su propia definición, afirmaron que se acercaban al nivel 2 con o1. François Chollet, creador de Keras y del benchmark ARC, tiene una visión fundamentalmente diferente — argumenta que la AGI significa adquisición eficiente de habilidades, la capacidad de aprender tareas genuinamente nuevas con ejemplos mínimos, no solo un buen desempeño en tareas similares a los datos de entrenamiento. Google DeepMind propuso otro marco más que separa la generalidad del desempeño, creando una matriz donde podrías tener superinteligencia estrecha o incompetencia general. Estas no son simples discusiones sobre definiciones. La definición que adoptes determina si la AGI está a dos años o a dos siglos.
Dónde realmente estamos depende completamente de cómo lo midas. Los grandes modelos de lenguaje pueden pasar el examen de abogacía, escribir código publicable, explicar la mecánica cuántica, componer poesía y razonar a través de nuevos acertijos lógicos. Por cualquier estándar de hace incluso cinco años, esto se habría considerado evidencia sólida de inteligencia general. Y sin embargo, estos mismos sistemas a veces no pueden contar confiablemente las letras de una palabra, tienen dificultades con el razonamiento espacial, confunden correlación con causalidad y afirman con confianza información falsa. ¿Esto es el 90 % del camino hacia la AGI, con el 10 % restante siendo detalles de ingeniería? ¿O es el 10 % del camino, con las partes impresionantes siendo un truco de salón construido sobre el emparejamiento de patrones a gran escala? Los investigadores honestos discrepan profundamente. Los optimistas señalan que cada nueva generación de modelos corrige muchas de las fallas anteriores. Los escépticos señalan que las fallas restantes sugieren limitaciones arquitectónicas fundamentales, no solo problemas de escalado.
El debate técnico más consecuente en IA en este momento es si el escalado — más datos, más cómputo, más parámetros — eventualmente producirá AGI, o si necesitamos arquitecturas fundamentalmente nuevas. La hipótesis del escalado, defendida más visiblemente por investigadores de OpenAI, sostiene que la inteligencia es principalmente una función de la escala: haz el modelo lo suficientemente grande, entrénalo con suficientes datos, y la capacidad general emerge. La evidencia para esta visión es real — GPT-4 es cualitativamente más capaz que GPT-3, que era cualitativamente más capaz que GPT-2, y cada salto vino en gran parte del escalado. El argumento contrario es que las leyes de escalado muestran rendimientos decrecientes, que las arquitecturas actuales tienen limitaciones fundamentales (sin memoria persistente, sin modelo del mundo, sin razonamiento causal), y que lanzar más cómputo a una arquitectura defectuosa solo produce un sistema defectuoso más grande. La verdad probablemente está en algún punto intermedio. El escalado ha producido avances genuinos que nadie predijo, pero hay clases de problemas — planificación a largo plazo, razonamiento físico, aritmética confiable — donde más escala no ha ayudado de manera confiable.
Hay una reformulación pragmática de la AGI que esquiva el debate filosófico por completo: la AGI no necesita igualar o superar la inteligencia humana en cada dominio. Solo necesita ser lo suficientemente buena como para automatizar la mayoría del trabajo del conocimiento. Un sistema que pueda escribir código a nivel de ingeniero senior, redactar documentos legales, analizar imágenes médicas, gestionar proyectos y manejar el soporte al cliente — incluso si no puede atarse los cordones de los zapatos ni entender un chiste sobre sus propias limitaciones — transformaría la economía global tan profundamente como cualquier AGI hipotéticamente "verdadera". Algunos economistas argumentan que ya estamos entrando en esta era. La pregunta no es si la IA será consciente o "verdaderamente" inteligente, sino si hará automatizables la mayoría de los trabajos de oficina. Ese encuadre hace que el cronograma de la AGI se sienta mucho más corto y mucho más concreto, independientemente de dónde te sitúes en las cuestiones filosóficas.
El cronograma para la AGI importa enormemente para la investigación en seguridad, y esta no es una preocupación teórica. La alineación — el trabajo de asegurar que los sistemas avanzados de IA hagan lo que realmente queremos — es genuinamente difícil. Las técnicas actuales como RLHF e IA constitucional funcionan razonablemente bien para los sistemas de hoy, pero dependen de que los humanos puedan evaluar las salidas de la IA. A medida que los sistemas se vuelven más capaces, este supuesto se rompe. Si la AGI está a cincuenta años, hay tiempo para desarrollar técnicas de alineación robustas, construir marcos institucionales e iterar a través de muchas rondas de pruebas. Si la AGI está a cinco años, estamos ejecutando la investigación en alineación con un plazo que puede no ser suficiente. Por eso las estimaciones de cronograma no son solo una curiosidad académica — determinan directamente con qué urgencia necesitamos resolver la alineación, con qué agresividad deberíamos regular el desarrollo de IA, y cuánto riesgo deberían estar dispuestos a aceptar los principales laboratorios en busca de ganancias de capacidad. Los investigadores que más se preocupan por la seguridad de la AGI no son necesariamente los que piensan que la AGI es más probable; son los que piensan que las consecuencias de equivocarse son irreversibles.