NVIDIA ने इस हफ्ते एक single 30 अरब-parameter checkpoint जारी किया जिसे — बिना retraining के — 23B या 12B variants में काटा जा सकता है। छोटे models distilled fallbacks की तरह degrade नहीं होते; वे बड़े model के अंदर co-trained हैं और deploy time पर importance ranking से extract होते हैं। बड़े पैमाने पर reasoning workloads चलाने वाले किसी भी व्यक्ति के लिए, यह assumption कि "छोटा सस्ता model" और "बड़ा smarter model" अलग files हैं, अभी ढीली हुई है।

Base है Nemotron Nano v3, NVIDIA का Mamba-Transformer-MoE hybrid (30B total में से 3.6B active)। Star Elastic का mechanism: width-based elastic training — components (embedding channels, attention heads, Mamba SSM heads, MoE expert count, FFN intermediate dimensions) contribution से रैंक होकर pack किए जाते हैं ताकि slice करने पर top-ranked contiguous subset बना रहे। एक learnable Gumbel-Softmax router model के साथ jointly train होता है, budget के अनुसार चुनता है क्या activate होगा। NVIDIA ने depth compression (layers हटाना) test किया और 95.2% baseline मिला; width compression ने 98.1% दिया, इसलिए width priority। Elastic-23B AIME-2025 पर 85.63 score करता है, Qwen3-30B-A3B 80.00 पर। Training cost: तीन अलग variants pretrain करने से 360× कम tokens, sequential distillation compression से 7× कम। Nested quantization FP8 और NVFP4 के बीच slicing preserve करता है।

Llama-family deployment pattern रहा है "7B, 13B, 70B family ship करो — अलग-अलग pretrained, अलग-अलग distilled, अलग-अलग hosted"। MatFormer (Salesforce) और Megatron Elastic ने nested approaches explore किए लेकिन fixed importance ranking और single-axis pruning के साथ। यहाँ नया क्या है: multiple axes पर simultaneously learnable router के साथ joint training — SSM dimension, embedding channels, expert count, FFN width — plus REAP (Router-Weighted Expert Activation Pruning) जो MoE experts को सिर्फ routing frequency के बजाय gate × output magnitude से rank करता है। Agent stacks के लिए जो currently fast-cheap और slow-deep model calls के बीच अलग endpoints पर route करते हैं, architectural assumption कि ये अलग models हैं, ढीली होती है। एक checkpoint, एक latency dial।

Hugging Face पर available: `nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B` BF16, FP8 और NVFP4 variants में। H100/H200 reasoning workloads के लिए worth है जहाँ आप currently cost/latency tradeoffs के लिए models swap करते हैं। Commercial deploy से पहले model card पर license terms check करें — Nemotron variants mixed licenses के तहत ship हुए हैं, और release notes में explicit open-source statement नहीं था।