NVIDIA lanzó Nemotron-Labs-Diffusion (NLD), una familia de LLM de pesos abiertos en tamaños 3B, 8B, y 14B que soporta tres modos de decodificación desde un solo checkpoint sin cambios arquitectónicos. Modo AR: generación izquierda-a-derecha estándar con atención causal, un token por forward. Modo difusión: elimina ruido de múltiples tokens por bloque en paralelo con atención bidireccional dentro de bloques. Modo auto-especulación: el pathway de difusión redacta k tokens, el pathway AR los verifica en una segunda pasada, aceptando el prefijo coincidente más largo. Variantes base, instruct, y visión-lenguaje. Licencia NVIDIA Nemotron Open Model. La colección de HuggingFace está activa. El modelo 8B en auto-especulación con mejora LoRA logra 5.99 tokens por forward al 62.81% de precisión promedio a través de HumanEval, MBPP, GSM8K, Math500, MMLU y otros — versus 63.61% para el baseline AR y 62.75% para Qwen3-8B. 4x throughput vs Qwen3-8B en un GB200; 2.4x más rápido que Qwen3-8B-Eagle3 en tamaño de batch 1. Inicializado desde Ministral3 base, entrenado 1 billón de tokens solo-AR luego 300 mil millones tokens en el objetivo conjunto ℒ = ℒ_AR + α·ℒ_diff con α = 0.3, en 256 H100s.
La apuesta arquitectónica es la capacidad tri-modo en checkpoint único. Sin entrenamiento conjunto, envías dos modelos (uno AR, uno difusión) y enrutas en tiempo de inferencia, con el overhead operacional que implica. Con entrenamiento conjunto α = 0.3, NVIDIA reporta que ambos objetivos suben y bajan juntos — un conjunto de pesos sirve ambos, y el pathway de auto-especulación usa ambos en tándem. La longitud de aceptación es lo que impulsa el throughput: 6.82 tokens por paso de redacción con LoRA versus 2.75 para Eagle3 es la brecha que se convierte en 5.99x tokens por forward. El fine-tuning LoRA mejora la aceptación en 14.4 a 32.5 por ciento dependiendo de la escala. El modo solo-difusión logra 2.57x TPF al 63.18 por ciento de precisión — competitivo sin el verificador AR — pero auto-especulación con LoRA es donde vive el verdadero speedup. El desacoplamiento entre objetivo de entrenamiento y modo de decodificación es lo nuevo: LMs de difusión anteriores (Plaid, enfoques basados en score) no podían cambiar de vuelta a AR limpiamente. NLD puede.
Por qué importa a los builders. La decodificación especulativa ha sido una optimización de inferencia conocida desde 2023, pero las implementaciones típicas requieren un modelo redactor separado (Llama pequeño redactando para Llama grande, etc.) — entrenar y mantener dos modelos. NVIDIA pliega la redacción al mismo checkpoint. 4x throughput GB200 a precisión paridad es la reducción de costo de inferencia: misma calidad de modelo, 25% wall-clock o 4x throughput dependiendo del eje que optimices. Para calidad clase-Claude/GPT/Gemini a un cuarto del cómputo de inferencia, esta es la concesión arquitectura-vs-pila-vendor que ha sido prometida por años. Pesos abiertos en HuggingFace significa desplegar tú mismo en lugar de pagar márgenes de API — material si tu carga está limitada por costo de inferencia. La inicialización desde Ministral3 también es notable: NVIDIA construyendo explícitamente sobre el linaje Mistral (cubrimos la adquisición Emmi de Mistral esta mañana, y el hecho de que NLD-3B/8B/14B esté inicializado desde Ministral3 significa que los pesos subyacentes empezaron Mistral y terminaron NVIDIA). El ecosistema de modelos se está mezclando a través de los vendors al nivel de inicialización de pesos.
Lunes: si tienes cargas de producción limitadas por costo de inferencia en Qwen3-8B, Llama-3.x-8B, clase Mistral 7B, o cualquier LM de tamaño medio similar, evalúa NLD-8B como candidato drop-in. Las afirmaciones de throughput son afirmaciones; verifica en tus propios prompts y hardware. Pruebas específicas: (1) delta de precisión en tu suite de eval a través de los tres modos (AR, difusión, auto-spec+LoRA), (2) latencia de cola en batch=1 vs setup actual, (3) tokens-por-dólar en tu mezcla de hardware (H100, H200, GB200, MI300, ARM-host con Grace+Hopper). Auto-especulación+LoRA es el objetivo de costo-producción — pero la variación de 14.4 a 32.5 por ciento de aceptación por escala significa que tu distribución de prompts importa; las ganancias no son uniformes. Si estás en la clase de tamaño 3B para despliegue edge, la inicialización de pesos abiertos de linaje Ministral3 te da algo distinto de Mistral base, Phi, o Gemma. Para observación de tendencias más amplias: NVIDIA enviando un LM modo-difusión con pesos abiertos es una señal de dirección-investigación. Los LMs de difusión eran una dirección de investigación lenta; esto cambia las matemáticas de despliegue. Espera más lanzamientos modo-difusión de otros laboratorios en los próximos dos a tres trimestres a medida que la historia de reducción-de-costo se propaga.
