Um Tiny Recursion Model (TRM) de 7 milhões de parâmetros está superando modelos de raciocínio mainstream milhares de vezes maiores, incluindo GPT-4 e Claude, ao mudar fundamentalmente como a IA aborda resolução de problemas. Em vez da arquitetura feed-forward tradicional que processa entradas em uma única passada, TRM usa um pequeno módulo MLP que refina iterativamente seu raciocínio, essencialmente trocando espaço computacional por tempo de pensamento. O modelo alcançou esse avanço em problemas novos como o benchmark ARC-AGI, onde memorização de dados de treinamento não oferece vantagem alguma.

Isso desafia a obsessão de uma década da indústria com escalabilidade — a crença de que inteligência emerge apenas através de modelos maiores, mais parâmetros e treinamento em escala de data centers. Modelos de raciocínio atuais como GPT-4 falham porque são fundamentalmente motores de predição de tokens que devem se comprometer com seu caminho de raciocínio inicial, frequentemente transformando erros iniciais em alucinações confiantes. Eles se destacam em adaptar soluções conhecidas mas lutam com raciocínio genuinamente novo, expondo sua dependência de reconhecimento de padrões em vez de dedução lógica.

O timing se alinha com impulsos de eficiência mais amplos pela indústria. O QwQ-32B da Alibaba recentemente demonstrou que um modelo de 32 bilhões de parâmetros pode igualar competidores de primeiro nível enquanto requer 98% menos memória que o R1 da DeepSeek. Pesquisadores chineses mostraram que aprendizado por reforço permite modelos de tamanho médio competirem com arquiteturas mixture-of-experts massivas. Enquanto isso, empresas como DeepSpeed estão construindo bibliotecas inteiras de compressão para tornar modelos grandes mais implementáveis.

Para desenvolvedores, isso sugere que a estratégia atual de seleção de modelos pode estar ao contrário. Em vez de escolher por padrão o maior modelo disponível, a abordagem vencedora pode ser modelos menores com capacidades de raciocínio iterativo — especialmente para aplicações que requerem resolução genuína de problemas em vez de reconhecimento de padrões. Isso poderia reduzir drasticamente custos de inferência enquanto melhora consistência lógica.