A Fundação ARC Prize do François Chollet acabou de lançar o ARC-AGI-3, e tá brutal. A nova versão deste benchmark de raciocínio interativo que humanos resolvem 100% das vezes derrubou todos os modelos de IA de fronteira abaixo de 1%. O Gemini Pro do Google lidera esse placar de humilhação com 0,37%, seguido pelo GPT 5.4 High com 0,26%, Claude Opus com 0,25%, e Grok fazendo um zero redondo. São cenários tipo jogo sem instrução nenhuma onde os modelos devem descobrir regras, formar objetivos e executar estratégias completamente do zero.
Esse reset importa porque fura a bolha do hype de AGI exatamente no momento certo. Os labs queimaram milhões treinando especificamente no ARC-AGI-2, empurrando scores de 3% para cerca de 50% em menos de um ano — só para serem derrubados de volta para quase zero pelo V3. Chollet projetou isso intencionalmente para separar raciocínio genuíno de pattern matching caro e otimização de força bruta. O prêmio de $1 milhão que sustenta o desafio fez os labs de fronteira prestarem muito mais atenção do que prestaram nas versões anteriores.
O mais revelador é o padrão. Cada lançamento do ARC dispara o mesmo ciclo: modelos passam vergonha, labs jogam recursos no problema, scores sobem rápido, aí uma nova versão reseta tudo. Se as eventuais melhorias de score no V3 vão representar avanços reais de raciocínio ou só memorização mais sofisticada é exatamente o que o Chollet construiu isso para expor. Para desenvolvedores apostando em capacidades de raciocínio de modelos, ARC-AGI-3 é o banho de realidade que seu roadmap de produto precisa.
