O primeiro problema com a AGI é que ninguém concorda sobre o que ela significa. A OpenAI publicou um quadro de cinco níveis em 2024: o Nível 1 é chatbots (IA conversacional), o Nível 2 é reasoners (resolução de problemas em nível humano), o Nível 3 é agentes (sistemas que tomam ações), o Nível 4 é inovadores (sistemas que auxiliam na invenção) e o Nível 5 é organizações (IA que pode executar o trabalho de uma empresa inteira). Pelo próprio conceito, afirmaram que estavam se aproximando do Nível 2 com o1. François Chollet, criador do Keras e do benchmark ARC, tem uma visão fundamentalmente diferente — ele argumenta que AGI significa aquisição eficiente de habilidades, a capacidade de adquirir tarefas genuinamente novas com mínimos exemplos, e não apenas desempenho impressionante em tarefas semelhantes aos dados de treinamento. A Google DeepMind propôs outro quadro que separa generalidade do desempenho, criando uma matriz na qual você poderia ter superinteligência estreita ou incompetência geral. Essas não são meras discussões sobre definições. Qual definição você adota determina se a AGI está a dois anos ou a dois séculos de distância.
Onde realmente estamos depende totalmente de como você mede. Modelos de linguagem grandes podem passar no exame da barra, escrever código publicável, explicar mecânica quântica, compor poesia e raciocinar em novos quebra-cabeças lógicos. Por qualquer padrão de cinco anos atrás, isso seria considerado forte evidência de inteligência geral. E, no entanto, os mesmos sistemas às vezes não conseguem contar confiavelmente as letras de uma palavra, têm dificuldade com raciocínio espacial, confundem correlação com causalidade e afirmam com confiança informações falsas. Isso é 90% do caminho para a AGI, com os 10% restantes sendo detalhes de engenharia? Ou é apenas 10% do caminho, com as partes impressionantes sendo um truque de salão baseado em correspondência de padrões em larga escala? Pesquisadores honestos discordam fortemente. Os otimistas apontam que cada nova geração de modelos corrige muitos dos modos anteriores de falha. Os céticos apontam que as falhas restantes sugerem limitações fundamentais na arquitetura, e não apenas problemas de escalabilidade.
O debate técnico mais relevante na IA no momento é se a escalabilidade — mais dados, mais computação, mais parâmetros — eventualmente produzirá AGI, ou se precisamos de arquiteturas fundamentalmente novas. A hipótese da escalabilidade, defendida principalmente por pesquisadores da OpenAI, afirma que a inteligência é primariamente uma função da escala: faça o modelo grande o suficiente, treine-o com dados suficientes, e a capacidade geral emerge. A evidência para essa visão é real — o GPT-4 é qualitativamente mais capaz que o GPT-3, que era qualitativamente mais capaz que o GPT-2, e cada salto veio principalmente da escalabilidade. O argumento contrário é que as leis de escalabilidade mostram retornos decrescentes, que as arquiteturas atuais têm limitações fundamentais (não há memória persistente, não há modelo do mundo, não há raciocínio causal), e que jogar mais computação em uma arquitetura com falhas apenas produz um sistema maior com falhas. A verdade provavelmente está em algum lugar entre essas duas visões. A escalabilidade produziu verdadeiras quebras que ninguém previu, mas existem classes de problemas — planejamento de longo horizonte, raciocínio físico, aritmética confiável — onde mais escala não ajudou de forma confiável.
Existe uma reinterpretação prática da AGI que desvia completamente o debate filosófico: a AGI não precisa corresponder ou exceder a inteligência humana em todos os domínios. Ela precisa apenas ser boa o suficiente para automatizar a maioria dos trabalhos de conhecimento. Um sistema que possa escrever código no nível de um engenheiro sênior, redigir documentos legais, analisar imagens médicas, gerenciar projetos e lidar com suporte ao cliente — mesmo que não consiga amarrar um cadarço ou entender uma piada sobre suas próprias limitações — transformaria a economia global tão profundamente quanto qualquer AGI hipotética "verdadeira". Alguns economistas argumentam que já estamos entrando nessa era. A pergunta não é se a IA será consciente ou "realmente" inteligente, mas se ela tornará a maioria dos trabalhos de escritório automatizáveis. Essa formulação faz o cronograma da AGI parecer muito mais curto e muito mais concreto, independentemente de onde você esteja nas perguntas filosóficas.
O cronograma para a AGI importa enormemente para a pesquisa de segurança, e isso não é uma preocupação teórica. Alinhamento — o trabalho de garantir que sistemas de IA avançados façam o que realmente queremos — é genuinamente difícil. Técnicas atuais como RLHF e IA constitucional funcionam razoavelmente bem para os sistemas atuais, mas dependem de humanos serem capazes de avaliar as saídas da IA. À medida que os sistemas se tornam mais capazes, essa suposição se desfaz. Se a AGI estiver a cinquenta anos de distância, há tempo para desenvolver técnicas de alinhamento robustas, construir estruturas institucionais e iterar por muitas rodadas de testes. Se a AGI estiver a cinco anos de distância, estamos conduzindo pesquisas de alinhamento com um prazo que pode não ser suficiente. É por isso que estimativas de cronograma não são apenas curiosidades acadêmicas — elas determinam diretamente quão urgentemente precisamos resolver o alinhamento, quão agressivamente devemos regular o desenvolvimento da IA e quanta risco os grandes laboratórios devem estar dispostos a aceitar na busca por ganhos de capacidade. Os pesquisadores que se preocupam mais com a segurança da AGI nem necessariamente são os que acham que a AGI é mais provável; são os que acham que as consequências de errar são irreversíveis.