NVIDIA publicó esta semana un único checkpoint de 30 mil millones de parámetros que se puede cortar — sin reentrenamiento — en variantes de 23B o 12B. Los modelos más pequeños no se degradan como respaldos destilados; se co-entrenan dentro del más grande y se extraen por ranking de importancia al desplegar. Para quien ejecute cargas de razonamiento a escala, el supuesto de que "modelo más pequeño más barato" y "modelo más grande más inteligente" son archivos distintos acaba de aflojarse.
La base es Nemotron Nano v3, el híbrido Mamba-Transformer-MoE de NVIDIA (3,6B activos de 30B totales). El mecanismo de Star Elastic: entrenamiento elástico por anchura — los componentes (canales de embedding, cabezas de atención, cabezas SSM Mamba, número de expertos MoE, dimensiones intermedias FFN) se clasifican por contribución y se empaquetan para que el subconjunto contiguo mejor clasificado permanezca al cortar. Un router Gumbel-Softmax aprendible se entrena conjuntamente, seleccionando qué se activa por presupuesto. NVIDIA probó compresión en profundidad (eliminar capas) y obtuvo 95,2% del baseline; la compresión en anchura llegó al 98,1%, así que priorizaron anchura. Elastic-23B alcanza 85,63 en AIME-2025 frente a Qwen3-30B-A3B con 80,00. Coste de entrenamiento: 360× menos tokens que preentrenar tres variantes separadas, 7× menos que compresión secuencial por destilación. La cuantización anidada preserva el corte en FP8 y NVFP4.
El patrón de despliegue tipo Llama ha sido "lanzar una familia 7B, 13B, 70B — preentrenados por separado, destilados por separado, alojados por separado". MatFormer (Salesforce) y Megatron Elastic exploraron enfoques anidados pero con ranking de importancia fijo y poda en un solo eje. Lo nuevo aquí: entrenamiento conjunto con router aprendible sobre múltiples ejes simultáneamente — dimensión SSM, canales de embedding, número de expertos, anchura FFN — más REAP (Router-Weighted Expert Activation Pruning), que clasifica expertos MoE por puerta × magnitud de salida en lugar de solo frecuencia de enrutamiento. Para stacks de agentes que enrutan entre llamadas rápidas-baratas y lentas-profundas en endpoints separados, el supuesto arquitectónico de que son modelos distintos se afloja. Un checkpoint, un dial de latencia.
Disponible en Hugging Face: `nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B` en variantes BF16, FP8 y NVFP4. Vale la pena para cargas de razonamiento en H100/H200 donde actualmente cambias de modelo por compromisos coste/latencia. Verifica la licencia en la ficha del modelo antes de despliegue comercial — las variantes Nemotron se han publicado bajo licencias mixtas, y las notas de publicación no incluían una declaración open-source explícita.
