El optimizador Aurora de Tilde arregla el problema de muerte neuronal de Muon, nuevo SOTA, Zubnet AI Noticias

Tilde Research lanzó Aurora, un nuevo optimizador "leverage-aware" que arregla un bug oculto en Muon — el optimizador que ha estado silenciosamente impulsando los speedruns modded-nanoGPT y un creciente conjunto de pipelines de entrenamiento frontera. El bug: en matrices altas como las capas MLP, la actualización de factor polar de Muon crea anisotropía de norma de fila, causando que algunas neuronas reciban actualizaciones masivas mientras otras prácticamente no reciben nada. Para el paso 500 de entrenamiento, más de una de cada cuatro neuronas está efectivamente muerta. Aurora evita esto con aproximadamente 6% de sobrecarga extra de cómputo, se integra como reemplazo de Muon, y viene con código abierto en GitHub.

El diagnóstico importa más que el arreglo. NorMuon (un intermedio previo) corregía la anisotropía de norma de fila vía normalización post-hoc a norma unitaria, obtuvo buenos resultados empíricos, pero no explicaba por qué existía el problema subyacente. El análisis de Aurora: la actualización factor-polar de Muon hace lo correcto para matrices cuadradas y lo incorrecto para matrices altas — y "alto" describe la mayoría de los MLPs con grandes factores de expansión, así que el bug se agrava en exactamente las arquitecturas que todos están entrenando. Aurora reformula la actualización de pesos como una restricción conjunta: semi-ortogonalidad izquierda Y normas de fila uniformes, resueltas simultáneamente en lugar de parcheadas después. Dos implementaciones se entregan: Aurora Riemanniana (proyección de gradiente en variedad restringida) y Aurora vanilla (variante práctica más simple). Tilde reporta 100× de eficiencia de datos en datos de internet open-source a escala 1.1B, nuevo state-of-the-art en el speedrun modded-nanoGPT (superando el SOTA previo de NorMuon), y supera a modelos más grandes en HellaSwag. La afirmación 100× quiere divulgación de harness antes de ser tratada como evangelio — ese es un resultado generacional, no incremental — pero el SOTA del speedrun es el punto más verificable porque tiene cifras de referencia públicas que todos pueden comparar.

Muon ha ganado adopción desde finales de 2024 como una alternativa más eficiente en cómputo a AdamW, especialmente para speedruns de nanoGPT y cada vez más para runs de entrenamiento frontera en producción. El diagnóstico de Aurora significa que todos los que obtienen buenos resultados con Muon han estado silenciosamente perdiendo aproximadamente un cuarto de su capacidad MLP a neuronas muertas para el paso 500 — y presumiblemente más después en el entrenamiento. NorMuon ya era una señal de que la gente sentía que algo andaba mal sin tener la explicación. El patrón más amplio: la investigación de optimizadores tuvo una década tranquila donde AdamW era tratado como resuelto, y la ola reciente (Lion, Sophia, Muon, NorMuon, ahora Aurora) está reabriendo la pregunta. El encuadre drop-in y la sobrecarga de cómputo del 6% es la parte que hace a Aurora realmente adoptable en lugar de curiosidad de investigación — si se porta limpiamente a pipelines de entrenamiento existentes, la barra para cambiar de Muon es baja. El número de neuronas muertas es también un diagnóstico útil para agregar al dashboard de run de entrenamiento de cualquiera, sin importar qué optimizador termine eligiendo.

Código en GitHub en `tilde-research/aurora-release`, paper en blog.tilderesearch.com. Si estás entrenando transformers arriba de 100M de parámetros y usando Muon, Aurora vale un A/B controlado en tu carga específica antes de creer el número 100× del titular. El encuadre de neuronas-muertas es la parte que debería preocupar a cualquiera ejecutando entrenamiento en producción con Muon — puedes haber estado perdiendo capacidad que no sabías que estabas perdiendo. Para todos los demás, la ola de investigación de optimizadores continúa sugiriendo que "estabilidad de entrenamiento" y "eficiencia de entrenamiento" aún tienen problemas substanciales no resueltos detrás de ellos, y que los labs que los resuelven ganan apalancamiento desmesurado sobre el resto del stack.

El optimizador Aurora de Tilde arregla el problema de muerte neuronal de Muon, nuevo SOTA

Más noticias