A NVIDIA lançou esta semana um único checkpoint de 30 bilhões de parâmetros que pode ser fatiado — sem retreinamento — em variantes de 23B ou 12B. Os modelos menores não degradam como fallbacks destilados; são co-treinados dentro do maior e extraídos por ranking de importância no momento do deploy. Para quem roda cargas de raciocínio em escala, o pressuposto de que "modelo menor mais barato" e "modelo maior mais inteligente" são arquivos diferentes acaba de afrouxar.

A base é Nemotron Nano v3, o híbrido Mamba-Transformer-MoE da NVIDIA (3,6B ativos de 30B totais). O mecanismo do Star Elastic: treinamento elástico por largura — os componentes (canais de embedding, cabeças de atenção, cabeças SSM Mamba, número de experts MoE, dimensões intermediárias FFN) são classificados por contribuição e empacotados de forma que o subconjunto contíguo mais bem classificado permaneça ao fatiar. Um roteador Gumbel-Softmax aprendível treina conjuntamente, selecionando o que ativa por orçamento. NVIDIA testou compressão em profundidade (remover camadas) e obteve 95,2% do baseline; compressão em largura chegou a 98,1%, daí a prioridade. Elastic-23B atinge 85,63 no AIME-2025 contra Qwen3-30B-A3B com 80,00. Custo de treinamento: 360× menos tokens que pré-treinar três variantes separadas, 7× menos que compressão sequencial por destilação. Quantização aninhada preserva o fatiamento em FP8 e NVFP4.

O padrão de deploy estilo Llama tem sido "lançar uma família 7B, 13B, 70B — pré-treinados separadamente, destilados separadamente, hospedados separadamente". MatFormer (Salesforce) e Megatron Elastic exploraram abordagens aninhadas mas com ranking de importância fixo e poda em um único eixo. O que é novo aqui: treinamento conjunto com roteador aprendível em múltiplos eixos simultaneamente — dimensão SSM, canais de embedding, número de experts, largura FFN — mais REAP (Router-Weighted Expert Activation Pruning) que classifica experts MoE por porta × magnitude de saída em vez de só frequência de roteamento. Para stacks de agentes que roteiam entre chamadas rápidas-baratas e lentas-profundas em endpoints separados, o pressuposto arquitetônico de que são modelos diferentes se afrouxa. Um checkpoint, um dial de latência.

Disponível no Hugging Face: `nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B` em variantes BF16, FP8 e NVFP4. Vale a pena para cargas de raciocínio em H100/H200 onde você atualmente troca de modelo por compromissos custo/latência. Verifique a licença na ficha do modelo antes de deploy comercial — as variantes Nemotron foram publicadas sob licenças mistas, e as notas de lançamento não incluíam uma declaração open-source explícita.