Zyphra 發布了 ZAYA1-8B-Diffusion-Preview,其描述為第一個從自迴歸 LLM 轉換而來而非從零訓練的 MoE 擴散模型。起點是 ZAYA1-8B,一個使用 Zyphra 的 CCA(連續壓縮注意力)變體和 CCGQA 配置的 MoE 自迴歸模型。轉換使用 TiDAR 配方跨越約 1.1 兆額外的中訓練 tokens:600B tokens 的擴散轉換訓練在 32k 上下文,500B tokens 的原生上下文擴展至 128k,以及一個擴散監督微調階段。頭條加速數字是新聞:一個無損取樣器 4.6x 推理加速且無系統性損失,一個 logit-mixing 取樣器 7.7x 帶有一些品質取捨。狀態是預覽,非通用可用——Zyphra 將擴散推理棧描述為「早期階段」。
機制是單步推測擴散與順序約束生成:不同於完全隨機位置遮罩擴散,該模型從前綴生成連續的子序列,在每個前向傳遞中同時預測 16 個 tokens,並在 token 區塊上共享 KV 快取。這將解碼從記憶體頻寬限制轉變為計算限制——這很重要,因為現代加速器在幾代以來一直將 FLOPs 擴展得比 HBM 頻寬更快,而推理越來越受記憶體而不是算術的瓶頸影響。在 AMD MI300x 上他們報告每次傳遞大約 3 個區塊提案;在較新的 MI355x 上大約 5 個。順序約束的框架也意味著這不是 image-gen 意義上的自由形式擴散模型——它更接近於具有擴散式訓練目標的大區塊推測解碼,而不是該短語最強意義上的「擴散語言模型」。
誠實的評估解讀是兩層的。首先,Zyphra 強調「pass@」指標而不是標準準確度基準,因為這是預 RL 訓練的基礎中訓練檢查點;LCB-v6 上報告了增益,與自迴歸基礎相比「評估降級最小」,但公告中沒有出現按基準的 delta 表。其次,雙取樣器報告——4.6x 無損和 7.7x 帶取捨——是正確的揭露形式,但 7.7x 的取捨大小在公開發布中未量化。評估此事的建構者應該閱讀兩個數字:無損數字是保守主張,頭條 7.7x 是激進主張,關於是否使用 logit-mixing 取樣器的真正決定取決於你工作負載上的品質變異容忍度。ZAYA1-8B-base(自迴歸模型)在 Hugging Face 上;擴散變體的發布工件和授權狀態在公告中未完全詳述。
對於關注推理經濟學的建構者:如果 4.6x 無損數字在第三方基準測試中在適度批次大小的真實工作負載上保持,這是高容量文字生成成本曲線的有意義變化,特別是在測量了 MI300x/MI355x 數字的 AMD 矽上。架構主張——轉換 AR 模型而不是從零重訓——也在方法上很有趣,因為這表明如果 TiDAR 配方在 Zyphra 的棧之外推廣,現有的 AR MoE 檢查點可以在不重新執行昂貴的預訓練的情況下被改裝為擴散變體。將決定這是永久性改變還是單一供應商研究預覽的測試是在其他 AR MoE 基礎(Qwen MoE、DeepSeek MoE 變體)上的複現,以及在 Zyphra 超越預 RL 檢查點之後在標準評估上每基準的乾淨數字。
