Zyphra a publié ZAYA1-8B-Diffusion-Preview, ce qu'elle décrit comme le premier modèle de diffusion MoE converti depuis un LLM autoregressif plutôt qu'entraîné depuis zéro. Le point de départ c'est ZAYA1-8B, un modèle autoregressif MoE utilisant la variante CCA (Continuous Compression Attention) de Zyphra avec configuration CCGQA. La conversion utilise la recette TiDAR à travers environ 1,1 trillion de tokens additionnels de mid-training : 600B tokens d'entraînement de conversion diffusion à contexte 32k, 500B tokens d'extension de contexte native à 128k, et une phase de fine-tuning supervisé diffusion. Les chiffres headline de speedup sont la nouvelle : un sampler lossless à 4,6x speedup d'inférence sans perte systématique, et un sampler logit-mixing à 7,7x avec une certaine perte de qualité. Statut preview, pas disponibilité générale — Zyphra décrit la stack d'inférence diffusion comme « early-stage ».
Le mécanisme c'est de la diffusion spéculative single-step avec génération order-constrained : au lieu de diffusion masquée à position aléatoire complète, le modèle génère des sous-séquences contiguës s'étendant depuis le préfixe, prédisant 16 tokens simultanément par forward pass avec un KV-cache partagé à travers le bloc de tokens. Ça shifte le decoding de memory-bandwidth bound à compute-bound — ce qui compte parce que les accélérateurs modernes ont scalé les FLOPs plus vite que la bande passante HBM depuis plusieurs générations, et l'inférence est de plus en plus bottlenecked sur la mémoire, pas l'arithmétique. Sur AMD MI300x ils rapportent environ 3 propositions de bloc par pass ; sur le plus récent MI355x environ 5. Le framing order-constrained signifie aussi que ce n'est pas un modèle diffusion free-form au sens image-gen — c'est plus proche du speculative decoding large-block avec un objectif d'entraînement style diffusion que de « modèle de langage diffusion » dans le sens le plus fort de cette phrase.
La lecture évaluation honnête c'est à deux couches. Premièrement, Zyphra emphasize les métriques « pass@ » plutôt que les benchmarks de précision standard parce que c'est un checkpoint de mid-train base pré-RL training ; les gains sont rapportés sur LCB-v6 avec « dégradation d'évaluation minimale » versus la base autoregressive, mais aucune table de delta par benchmark n'apparaît dans l'annonce. Deuxièmement, le reporting dual-sampler — 4,6x lossless et 7,7x avec trade-off — c'est la bonne forme de divulgation, mais la taille du trade-off à 7,7x n'est pas quantifiée dans la release publique. Les builders qui évaluent ça devraient lire les deux chiffres : le chiffre lossless c'est la prétention conservative, le 7,7x headline c'est la prétention aggressive, et la vraie décision sur s'il faut utiliser le sampler logit-mixing dépend de la tolérance à la variance de qualité sur ton workload. ZAYA1-8B-base (le modèle autoregressif) est sur Hugging Face ; les artefacts de release et le statut de licence de la variante diffusion ne sont pas pleinement détaillés dans l'annonce.
Pour les builders qui watch l'économie d'inférence : si le chiffre lossless 4,6x tient dans le benchmarking tiers sur des workloads réels à des batch sizes modestes, c'est un changement significatif dans la courbe de coût pour la génération de texte à haut volume, surtout sur silicium AMD où les chiffres MI300x/MI355x ont été mesurés. La prétention architecturale — convertir un modèle AR plutôt que retrain depuis zéro — c'est aussi méthodologiquement intéressant parce que ça suggère que les checkpoints AR MoE existants pourraient être retrofittés en variantes diffusion sans re-rouler du pretraining coûteux, si la recette TiDAR généralise hors de la stack de Zyphra. Les tests qui décideront si c'est un changement permanent ou un research preview single-vendor c'est des reproductions sur d'autres bases AR MoE (Qwen MoE, variantes DeepSeek MoE), et des chiffres propres par benchmark sur des évaluations standard une fois que Zyphra avance au-delà du checkpoint pré-RL.
