Des chercheurs de UC San Diego et Together AI ont résolu un problème de longue date avec les modèles de langage en boucle — des architectures qui exécutent les mêmes blocs transformer plusieurs fois pour augmenter le calcul sans ajouter de paramètres. Leur nouveau modèle, Parcae, atteint une perplexité de validation 6,3% plus faible que les approches en boucle précédentes et égale un transformer de 1,3B paramètres en utilisant seulement 770M paramètres. La percée réside dans le traitement de l'architecture en boucle comme un système dynamique et l'application de la théorie du contrôle pour prévenir l'« explosion de l'état résiduel » qui rendait les modèles en boucle antérieurs presque impossibles à entraîner.

C'est important parce que l'approche de mise à l'échelle par défaut de l'industrie — plus de paramètres, plus de données, plus de calcul — frappe des murs rapidement lors du déploiement de modèles sur des appareils edge ou la gestion des coûts d'inférence. Les architectures en boucle offrent un compromis différent : même empreinte mémoire, plus de calcul par passe avant. Mais les tentatives précédentes comme les Recurrent Depth Models souffraient d'instabilité d'entraînement et de pics de perte qui nécessitaient un babysitting extrême des hyperparamètres. Le design middle-looped de Parcae avec des contraintes de norme spectrale rend ces modèles réellement entraînables à grande échelle.

La recherche établit les premières lois d'échelle pour les modèles en boucle, montrant que l'entraînement optimal en calcul nécessite d'augmenter à la fois le nombre de boucles et les données ensemble — pas juste pousser les boucles. L'équipe a testé leur approche à plusieurs échelles et a constamment surpassé les transformers à profondeur fixe avec des budgets de paramètres identiques. Bien que l'article se concentre sur la perplexité de modélisation du langage, le vrai test sera la performance des tâches en aval et si ces gains d'efficacité tiennent dans les déploiements de production.

Pour les développeurs qui construisent des applications contraintes en mémoire, cela ouvre une véritable alternative au paradigme d'échelle « plus gros c'est mieux ». Au lieu de choisir entre la qualité du modèle et les contraintes de déploiement, Parcae suggère qu'on peut avoir les deux — si vous êtes prêt à échanger l'efficacité mémoire contre un calcul accru pendant l'inférence.