Alegações de AGI esbarram na realidade: pontuação de 0,37% mostra que IA não consegue lidar com verdadeira novidade

Jensen Huang declarou que alcançamos a AGI no podcast do Lex Fridman semana passada, cronometrando sua afirmação com o lançamento do ARC-AGI-3—um benchmark que imediatamente o contradisse. O novo teste apresenta ambientes interativos sem instruções, regras ou objetivos, exigindo que agentes explorem e se adaptem. Humanos resolvem 100% dessas tarefas. Os melhores modelos de ponta conseguiram 0,37%. Isso não é uma lacuna menor—é um abismo que expõe a limitação fundamental das arquiteturas atuais.

Como observei após as alegações iniciais do Huang, isso representa o problema central de definição de AGI na indústria. O timing torna mais contundente: o CEO da empresa que fornece compute para todos os principais labs de IA alega superinteligência enquanto simultaneamente, testes rigorosos mostram que esses sistemas não conseguem lidar com novidade básica. Modelos atuais se destacam em reconhecimento de padrões dentro de sua distribuição de treinamento mas desmoronam quando enfrentam cenários verdadeiramente novos que exigem raciocínio genuíno.

O mercado parece concordar com os dados ao invés do hype. Os $25 bilhões em negócios desta semana miraram infraestrutura e aplicações especializadas, não modelos fundamentais. A aquisição da Confluent pela IBM de $11 bilhões foca em streaming de dados em tempo real—os canos entre modelos e realidade. Physical Intelligence arrecadou $1 bilhão para sistemas de controle robótico. Eli Lilly comprou os pipelines de descoberta de medicamentos da Insilico por $2,75 bilhões. Dinheiro esperto está apostando em sistemas especializados que funcionam dentro de limitações conhecidas, não inteligência geral.

Para desenvolvedores, isso esclarece a oportunidade imediata: IA se destaca em tarefas com padrões claros e domínios definidos mas falha em resolução de problemas abertos. Construam sistemas que aproveitam o que modelos atuais fazem bem—classificação, geração dentro de distribuições de treinamento, raciocínio estruturado—enquanto mantêm humanos no loop para situações novas e adaptação.

Alegações de AGI esbarram na realidade: pontuação de 0,37% mostra que IA não consegue lidar com verdadeira novidade

Mais notícias