Un Tiny Recursion Model (TRM) de 7 millions de paramètres surpasse les modèles de raisonnement principaux qui sont des milliers de fois plus gros, incluant GPT-4 et Claude, en changeant fondamentalement la façon dont l'IA approche la résolution de problèmes. Au lieu de l'architecture feed-forward traditionnelle qui traite les entrées en un seul passage, TRM utilise un petit module MLP qui raffine itérativement son raisonnement, échangeant essentiellement l'espace computationnel pour du temps de réflexion. Le modèle a accompli cette percée sur des problèmes nouveaux comme le benchmark ARC-AGI, où la mémorisation des données d'entraînement n'offre aucun avantage.
Ceci défie l'obsession de l'industrie depuis une décennie avec la mise à l'échelle — la croyance que l'intelligence émerge seulement à travers des modèles plus gros, plus de paramètres, et un entraînement à l'échelle des centres de données. Les modèles de raisonnement actuels comme GPT-4 échouent parce qu'ils sont fondamentalement des moteurs de prédiction de tokens qui doivent s'engager dans leur trajectoire de raisonnement initiale, transformant souvent les erreurs précoces en hallucinations confiantes. Ils excellent à adapter des solutions connues mais peinent avec un véritable raisonnement nouveau, exposant leur dépendance à la reconnaissance de motifs plutôt qu'à la déduction logique.
Le timing s'aligne avec des poussées d'efficacité plus larges à travers l'industrie. Le QwQ-32B d'Alibaba a récemment démontré qu'un modèle de 32 milliards de paramètres peut égaler les concurrents de premier plan tout en nécessitant 98% moins de mémoire que le R1 de DeepSeek. Des chercheurs chinois ont montré que l'apprentissage par renforcement permet aux modèles de taille moyenne de compétitionner avec des architectures mixture-of-experts massives. Pendant ce temps, des compagnies comme DeepSpeed construisent des bibliothèques de compression entières pour rendre les grands modèles plus déployables.
Pour les développeurs, ceci suggère que la stratégie actuelle de sélection de modèles pourrait être à l'envers. Au lieu de choisir par défaut le plus gros modèle disponible, l'approche gagnante pourrait être des modèles plus petits avec des capacités de raisonnement itératif — surtout pour les applications nécessitant une véritable résolution de problèmes plutôt que la reconnaissance de motifs. Ceci pourrait réduire dramatiquement les coûts d'inférence tout en améliorant la cohérence logique.
