Tilde Research ने Aurora release किया, एक नया "leverage-aware" optimizer जो Muon में एक hidden bug fix करता है — वह optimizer जो चुपचाप modded-nanoGPT speedruns और frontier training pipelines के बढ़ते set को power कर रहा था। Bug: MLP layers जैसी tall matrices में, Muon का polar-factor update row-norm anisotropy create करता है, जिससे कुछ neurons massive updates receive करते हैं जबकि अन्य लगभग कुछ नहीं। 500वें training step तक, चार में से एक से ज्यादा neurons effectively dead हैं। Aurora इसे लगभग 6% extra compute overhead पर रोकता है, Muon replacement के रूप में drop in करता है, और GitHub पर open code के साथ ship होता है।

Diagnosis fix से ज्यादा matter करता है। NorMuon (पिछला intermediate) row-norm anisotropy को unit norm पर post-hoc normalization के माध्यम से correct करता था, अच्छे empirical results मिले, लेकिन यह नहीं explain किया कि underlying problem क्यों मौजूद थी। Aurora का analysis: Muon का polar-factor update square matrices के लिए सही चीज करता है और tall matrices के लिए गलत चीज — और "tall" अधिकांश MLPs को describe करता है जिनमें बड़े expansion factors हैं, तो bug exactly उन architectures में compound होता है जो हर कोई train कर रहा है। Aurora weight update को एक joint constraint के रूप में reformulate करता है: left semi-orthogonality और uniform row norms, post-hoc patch करने के बजाय simultaneously solved। दो implementations ship: Riemannian Aurora (constrained manifold पर gradient projection) और vanilla Aurora (simpler practical variant)। Tilde 1.1B scale पर open-source internet data पर 100× data efficiency, modded-nanoGPT speedrun पर नया state-of-the-art (NorMuon के पिछले SOTA को surpassing), और HellaSwag पर बड़े models को outperforming report करता है। 100× claim को gospel के रूप में treat करने से पहले harness disclosure चाहिए — यह एक generational result है, incremental नहीं — लेकिन speedrun SOTA ज्यादा verifiable point है क्योंकि इसके public reference numbers हैं जिनकी हर कोई तुलना कर सकता है।

Muon 2024 के अंत से AdamW के लिए ज्यादा compute-efficient alternative के रूप में adoption gain कर रहा है, खासकर nanoGPT-style speedruns के लिए और बढ़ती रूप से production frontier training runs के लिए। Aurora का diagnosis मतलब है कि हर कोई जो Muon से अच्छे results पा रहा है वह step 500 तक dead neurons को लगभग एक चौथाई MLP capacity चुपचाप खो रहा है — और training में बाद में संभवतः ज्यादा। NorMuon पहले से ही एक संकेत था कि लोगों ने महसूस किया कुछ गलत है explanation के बिना। व्यापक pattern: optimizer research का एक quiet decade था जहाँ AdamW को solved treat किया जाता था, और recent wave (Lion, Sophia, Muon, NorMuon, अब Aurora) question को reopen कर रही है। Drop-in replacement framing और 6% compute overhead वह हिस्सा है जो Aurora को research curiosity के बजाय actually adoptable बनाता है — अगर यह existing training pipelines पर cleanly port होता है, Muon से switch करने का bar कम है। Dead-neurons number भी training-run dashboard में जोड़ने के लिए एक useful diagnostic है, चाहे वे कोई भी optimizer अंत में चुनें।

GitHub पर code `tilde-research/aurora-release` पर, paper blog.tilderesearch.com पर। अगर आप 100M parameter scale से ऊपर transformers train कर रहे हैं और Muon use कर रहे हैं, 100× headline number पर believe करने से पहले Aurora आपके specific workload पर controlled A/B run के लायक है। Neuron-death framing वह हिस्सा है जिसे Muon पर production training run करने वालों को concern करना चाहिए — आप शायद वह capacity खो रहे थे जो आपको पता नहीं था कि आप खो रहे थे। बाकी सभी के लिए, optimizer research wave यह suggest करना जारी रखती है कि "training stability" और "training efficiency" के पीछे अभी भी substantial unsolved problems हैं, और जो labs उन्हें solve करते हैं वे stack के बाकी हिस्से पर outsized leverage पाते हैं।