Tilde Research a publié Aurora, un nouvel optimiseur « leverage-aware » qui corrige un bug caché dans Muon — l'optimiseur qui propulsait discrètement les speedruns modded-nanoGPT et un nombre croissant de pipelines d'entraînement frontière. Le bug : dans les matrices hautes comme les couches MLP, la mise à jour facteur-polaire de Muon crée une anisotropie des normes de ligne, causant que certains neurones reçoivent des mises à jour massives alors que d'autres n'en reçoivent presque pas. À l'étape 500, plus d'un neurone sur quatre est effectivement mort. Aurora empêche ça à environ 6 % de surcoût compute, se branche en remplacement de Muon, et arrive avec du code ouvert sur GitHub.

Le diagnostic compte plus que la correction. NorMuon (un intermédiaire antérieur) corrigeait l'anisotropie des normes via une normalisation post-hoc à norme unitaire, obtenait de bons résultats empiriques, mais n'expliquait pas pourquoi le problème sous-jacent existait. L'analyse d'Aurora : la mise à jour facteur-polaire de Muon fait la bonne chose pour les matrices carrées et la mauvaise chose pour les matrices hautes — et « haut » décrit la plupart des MLPs avec de grands facteurs d'expansion, donc le bug s'aggrave dans exactement les architectures que tout le monde entraîne. Aurora reformule la mise à jour des poids comme une contrainte conjointe : semi-orthogonalité gauche ET normes de ligne uniformes, résolues simultanément plutôt que patchées après coup. Deux implémentations livrent : Aurora Riemannienne (projection de gradient sur variété contrainte) et Aurora vanilla (variante pratique plus simple). Tilde rapporte 100× d'efficacité de données sur des données internet open-source à l'échelle 1,1B, nouveau state-of-the-art sur le speedrun modded-nanoGPT (dépassant le SOTA précédent de NorMuon), et surpasse des modèles plus gros sur HellaSwag. La revendication 100× demande une divulgation de harnais avant d'être traitée comme évangile — c'est un résultat générationnel, pas incrémental — mais le SOTA du speedrun est le point plus vérifiable parce qu'il a des chiffres de référence publics que tout le monde peut comparer.

Muon gagne en adoption depuis fin 2024 comme alternative plus efficace en compute à AdamW, surtout pour les speedruns nanoGPT et de plus en plus pour les runs d'entraînement frontière en production. Le diagnostic d'Aurora signifie que tout le monde qui obtient de bons résultats avec Muon perd discrètement environ un quart de sa capacité MLP en neurones morts à l'étape 500 — et probablement plus plus tard dans l'entraînement. NorMuon était déjà un signe que les gens sentaient que quelque chose n'allait pas sans avoir l'explication. Le pattern plus large : la recherche en optimiseurs a eu une décennie tranquille où AdamW était traité comme résolu, et la vague récente (Lion, Sophia, Muon, NorMuon, maintenant Aurora) rouvre la question. Le cadrage drop-in et le surcoût compute de 6 % est la partie qui rend Aurora vraiment adoptable plutôt que curiosité de recherche — s'il porte proprement aux pipelines d'entraînement existants, la barre pour passer de Muon est basse. Le nombre de neurones morts est aussi un diagnostic utile à ajouter au dashboard de run d'entraînement de n'importe qui, peu importe quel optimiseur il finit par choisir.

Code sur GitHub à `tilde-research/aurora-release`, papier à blog.tilderesearch.com. Si vous entraînez des transformers au-dessus de 100M paramètres et utilisez Muon, Aurora mérite un A/B contrôlé sur votre charge spécifique avant de croire le chiffre 100× en gros titre. Le cadrage mort-neurones est la partie qui devrait inquiéter quiconque fait tourner de l'entraînement en production sur Muon — vous avez peut-être perdu de la capacité que vous ne saviez pas perdre. Pour tous les autres, la vague de recherche en optimiseurs continue à suggérer que « stabilité d'entraînement » et « efficacité d'entraînement » ont encore des problèmes substantiels non résolus derrière eux, et que les labos qui les résolvent gagnent un levier démesuré sur le reste du stack.