Zyphra lanzó ZAYA1-8B-Diffusion-Preview, lo que describe como el primer modelo de difusión MoE convertido desde un LLM autorregresivo en lugar de entrenado desde cero. El punto de partida es ZAYA1-8B, un modelo MoE autorregresivo usando la variante CCA (Continuous Compression Attention) de Zyphra con configuración CCGQA. La conversión usa la receta TiDAR a través de aproximadamente 1.1 billones de tokens adicionales de mid-training: 600B tokens de entrenamiento de conversión a difusión en contexto 32k, 500B tokens de extensión de contexto nativo a 128k, y una fase de fine-tuning supervisado de difusión. Los números titulares de speedup son la noticia: un sampler lossless a 4.6x speedup de inferencia sin pérdida sistemática, y un sampler logit-mixing a 7.7x con cierto trade-off de calidad. Estado preview, no disponibilidad general — Zyphra describe la stack de inferencia de difusión como "early-stage".

El mecanismo es difusión especulativa de un solo paso con generación restringida por orden: en lugar de difusión enmascarada de posición aleatoria completa, el modelo genera subsecuencias contiguas extendiéndose desde el prefijo, prediciendo 16 tokens simultáneamente por forward pass con un KV-cache compartido en todo el bloque de tokens. Eso cambia el decoding de memory-bandwidth bound a compute-bound — lo que importa porque los aceleradores modernos han estado escalando FLOPs más rápido que el ancho de banda HBM por varias generaciones, y la inferencia está cada vez más limitada por memoria, no aritmética. En AMD MI300x reportan aproximadamente 3 propuestas de bloque por pass; en el más nuevo MI355x aproximadamente 5. El encuadre order-constrained también significa que esto no es un modelo de difusión libre en el sentido de image-gen — está más cerca del speculative decoding de bloque grande con un objetivo de entrenamiento estilo difusión que del "modelo de lenguaje de difusión" en el sentido más fuerte de esa frase.

La lectura de evaluación honesta es de dos capas. Primero, Zyphra enfatiza métricas "pass@" en lugar de benchmarks de precisión estándar porque este es un checkpoint base mid-train pre-RL training; los gains se reportan en LCB-v6 con "degradación de evaluación mínima" versus la base autorregresiva, pero no aparecen tablas de delta por benchmark en el anuncio. Segundo, el reporte de dual-sampler — 4.6x lossless y 7.7x con trade-off — es la forma correcta de divulgación, pero el tamaño del trade-off en 7.7x no está cuantificado en la versión pública. Los builders evaluando esto deben leer ambos números: la cifra lossless es la afirmación conservadora, el 7.7x titular es la afirmación agresiva, y la decisión real sobre si usar el sampler logit-mixing depende de la tolerancia a la varianza de calidad en tu workload. ZAYA1-8B-base (el modelo autorregresivo) está en Hugging Face; los artefactos de release y el estado de licencia de la variante de difusión no están completamente detallados en el anuncio.

Para builders observando la economía de inferencia: si el número lossless de 4.6x se sostiene en benchmarking de terceros en workloads reales a tamaños de batch modestos, este es un cambio significativo en la curva de costo para generación de texto de alto volumen, especialmente en silicio AMD donde los números MI300x/MI355x fueron medidos. La afirmación arquitectónica — convertir un modelo AR en lugar de reentrenar desde cero — también es metodológicamente interesante porque sugiere que los checkpoints AR MoE existentes podrían ser retrofitados en variantes de difusión sin volver a correr pretraining costoso, si la receta TiDAR se generaliza fuera de la stack de Zyphra. Las pruebas que decidirán si esto es un cambio permanente o un preview de investigación de un solo vendor son reproducciones en otras bases AR MoE (Qwen MoE, variantes DeepSeek MoE), y números limpios por benchmark en evaluaciones estándar una vez que Zyphra avance más allá del checkpoint pre-RL.