A Tilde Research lançou o Aurora, um novo otimizador "leverage-aware" que corrige um bug oculto no Muon — o otimizador que tem silenciosamente impulsionado os speedruns modded-nanoGPT e um conjunto crescente de pipelines de treinamento de fronteira. O bug: em matrizes altas como as camadas MLP, a atualização de fator polar do Muon cria anisotropia de norma de linha, fazendo com que alguns neurônios recebam atualizações massivas enquanto outros praticamente não recebem nada. No passo 500 do treinamento, mais de um em cada quatro neurônios está efetivamente morto. O Aurora evita isso com aproximadamente 6% de sobrecarga extra de computação, se encaixa como substituto do Muon, e vem com código aberto no GitHub.
O diagnóstico importa mais que a correção. O NorMuon (um intermediário anterior) corrigia a anisotropia de norma de linha via normalização pós-hoc para norma unitária, obteve bons resultados empíricos, mas não explicava por que o problema subjacente existia. A análise do Aurora: a atualização fator-polar do Muon faz a coisa certa para matrizes quadradas e a coisa errada para matrizes altas — e "alto" descreve a maioria dos MLPs com grandes fatores de expansão, então o bug se agrava nas arquiteturas exatas que todos estão treinando. O Aurora reformula a atualização de pesos como uma restrição conjunta: semi-ortogonalidade esquerda E normas de linha uniformes, resolvidas simultaneamente em vez de remendadas depois. Duas implementações são entregues: Aurora Riemanniano (projeção de gradiente em variedade restrita) e Aurora vanilla (variante prática mais simples). A Tilde reporta 100× de eficiência de dados em dados de internet open-source na escala 1.1B, novo state-of-the-art no speedrun modded-nanoGPT (superando o SOTA anterior do NorMuon), e supera modelos maiores no HellaSwag. A afirmação de 100× quer divulgação de harness antes de ser tratada como evangelho — esse é um resultado geracional, não incremental — mas o SOTA do speedrun é o ponto mais verificável porque tem números de referência públicos que todos podem comparar.
O Muon vem ganhando adoção desde o final de 2024 como uma alternativa mais eficiente em computação ao AdamW, especialmente para speedruns de nanoGPT e cada vez mais para runs de treinamento de fronteira em produção. O diagnóstico do Aurora significa que todos que estão obtendo bons resultados do Muon têm silenciosamente perdido cerca de um quarto de sua capacidade MLP para neurônios mortos no passo 500 — e presumivelmente mais depois no treinamento. O NorMuon já era um sinal de que pessoas sentiam que algo estava errado sem ter a explicação. O padrão mais amplo: a pesquisa de otimizadores teve uma década tranquila onde AdamW era tratado como resolvido, e a onda recente (Lion, Sophia, Muon, NorMuon, agora Aurora) está reabrindo a questão. O enquadramento drop-in e a sobrecarga de computação de 6% é a parte que torna o Aurora realmente adotável em vez de curiosidade de pesquisa — se ele se porta limpamente aos pipelines de treinamento existentes, a barra para mudar do Muon é baixa. O número de neurônios mortos é também um diagnóstico útil para adicionar ao dashboard de run de treinamento de qualquer um, independentemente de qual otimizador eles acabem escolhendo.
Código no GitHub em `tilde-research/aurora-release`, paper em blog.tilderesearch.com. Se você está treinando transformers acima de 100M de parâmetros e usando Muon, o Aurora vale um A/B controlado em sua carga específica antes de acreditar no número 100× da manchete. O enquadramento de neurônios-mortos é a parte que deveria preocupar qualquer um rodando treinamento em produção no Muon — você pode ter estado perdendo capacidade que não sabia que estava perdendo. Para todos os outros, a onda de pesquisa de otimizadores continua sugerindo que "estabilidade de treinamento" e "eficiência de treinamento" ainda têm problemas substanciais não resolvidos atrás deles, e que os labs que os resolvem ganham alavancagem desproporcional sobre o resto do stack.
