Un chercheur a démontré comment compiler des programmes simples directement dans les poids d'un transformer sans aucun entraînement, transformant l'architecture en moteur d'exécution déterministe. L'approche traite le flux résiduel comme mémoire de travail et chaque couche comme une étape machine, avec les têtes d'attention effectuant des recherches et les réseaux feed-forward exécutant des calculs locaux. Dans un exemple, le transformer encodé exécute une opération de recherche (y=lookup[x]=5) suivie d'une addition (z=y+1=6), avec les résultats intermédiaires stockés comme des registres dans un petit ordinateur.

Ceci représente un changement fondamental par rapport au paradigme standard où les transformers apprennent des circuits utiles par optimisation sur des données. Au lieu d'espérer que les bons motifs émergent pendant l'entraînement, cette méthode construit analytiquement les poids exacts nécessaires pour exécuter un graphe de calcul connu. Le travail offre une alternative intriguante à l'architecture dominante « LLM plus outils externes » en intégrant potentiellement le calcul déterministe directement dans les modèles plutôt que de les forcer à sortir de leur boucle d'exécution.

Le contexte plus large révèle une insatisfaction croissante avec les limitations des transformers. Une recherche de Stanford montre une croissance de 400% dans l'investissement d'architectures non-transformer sur deux ans, avec 60% des laboratoires d'IA leaders dédiant maintenant des équipes aux approches post-transformer. Pendant ce temps, d'autres chercheurs comme Will Whitney explorent des paradigmes d'interaction radicalement différents, proposant que l'IA devrait fonctionner plus comme des applications informatiques avec interfaces graphiques plutôt que comme agents conversationnels. Cette approche encodée diffère du travail récent de Percepta, qui compile un interpréteur général dans les poids tout en fournissant des programmes spécifiques via des prompts.

Pour les développeurs, cette technique demeure hautement spécialisée—utile pour des cas où vous avez un algorithme connu et voulez une exécution garantie plutôt qu'une approximation apprise. Mais elle suggère des architectures hybrides où les modèles pourraient basculer entre modes de raisonnement flexible et de calcul précis, réduisant potentiellement la dépendance aux appels API externes pour les opérations mathématiques.