Zyphra 发布了 ZAYA1-8B-Diffusion-Preview,其描述为第一个从自回归 LLM 转换而来而非从零训练的 MoE 扩散模型。起点是 ZAYA1-8B,一个使用 Zyphra 的 CCA(连续压缩注意力)变体和 CCGQA 配置的 MoE 自回归模型。转换使用 TiDAR 配方跨越约 1.1 万亿额外的中训练 tokens:600B tokens 的扩散转换训练在 32k 上下文,500B tokens 的原生上下文扩展至 128k,以及一个扩散监督微调阶段。头条加速数字是新闻:一个无损采样器 4.6x 推理加速且无系统性损失,一个 logit-mixing 采样器 7.7x 带有一些质量取舍。状态是预览,非通用可用——Zyphra 将扩散推理栈描述为「早期阶段」。
机制是单步推测扩散与顺序约束生成:不同于完全随机位置遮罩扩散,该模型从前缀生成连续的子序列,在每个前向传递中同时预测 16 个 tokens,并在 token 块上共享 KV 缓存。这将解码从内存带宽限制转变为计算限制——这很重要,因为现代加速器在几代以来一直将 FLOPs 扩展得比 HBM 带宽更快,而推理越来越受内存而不是算术的瓶颈影响。在 AMD MI300x 上他们报告每次传递大约 3 个块提案;在较新的 MI355x 上大约 5 个。顺序约束的框架也意味着这不是 image-gen 意义上的自由形式扩散模型——它更接近于具有扩散式训练目标的大块推测解码,而不是该短语最强意义上的「扩散语言模型」。
诚实的评估解读是两层的。首先,Zyphra 强调「pass@」指标而不是标准准确度基准,因为这是预 RL 训练的基础中训练检查点;LCB-v6 上报告了增益,与自回归基础相比「评估降级最小」,但公告中没有出现按基准的 delta 表。其次,双采样器报告——4.6x 无损和 7.7x 带取舍——是正确的披露形式,但 7.7x 的取舍大小在公开发布中未量化。评估此事的构建者应该阅读两个数字:无损数字是保守主张,头条 7.7x 是激进主张,关于是否使用 logit-mixing 采样器的真正决定取决于你工作负载上的质量方差容忍度。ZAYA1-8B-base(自回归模型)在 Hugging Face 上;扩散变体的发布工件和许可状态在公告中未完全详述。
对于关注推理经济学的构建者:如果 4.6x 无损数字在第三方基准测试中在适度批次大小的真实工作负载上保持,这是高容量文本生成成本曲线的有意义变化,特别是在测量了 MI300x/MI355x 数字的 AMD 硅上。架构主张——转换 AR 模型而不是从零重训练——也在方法上很有趣,因为这表明如果 TiDAR 配方在 Zyphra 的栈之外推广,现有的 AR MoE 检查点可以在不重新运行昂贵的预训练的情况下被改装为扩散变体。将决定这是永久性改变还是单一供应商研究预览的测试是在其他 AR MoE 基础(Qwen MoE、DeepSeek MoE 变体)上的复现,以及在 Zyphra 超越预 RL 检查点之后在标准评估上每基准的干净数字。
