A Zyphra lançou o ZAYA1-8B-Diffusion-Preview, o que descreve como o primeiro modelo de difusão MoE convertido a partir de um LLM autorregressivo em vez de treinado do zero. O ponto de partida é o ZAYA1-8B, um modelo MoE autorregressivo usando a variante CCA (Continuous Compression Attention) da Zyphra com configuração CCGQA. A conversão usa a receita TiDAR através de aproximadamente 1,1 trilhão de tokens adicionais de mid-training: 600B tokens de treinamento de conversão para difusão em contexto 32k, 500B tokens de extensão de contexto nativo para 128k, e uma fase de fine-tuning supervisionado de difusão. Os números de manchete de speedup são a notícia: um sampler lossless a 4,6x speedup de inferência sem perda sistemática, e um sampler logit-mixing a 7,7x com algum trade-off de qualidade. Status preview, não disponibilidade geral — a Zyphra descreve a stack de inferência de difusão como "early-stage".
O mecanismo é difusão especulativa de uma etapa com geração restrita por ordem: em vez de difusão mascarada de posição aleatória completa, o modelo gera subsequências contíguas estendendo do prefixo, prevendo 16 tokens simultaneamente por forward pass com um KV-cache compartilhado em todo o bloco de tokens. Isso muda o decoding de memory-bandwidth bound para compute-bound — o que importa porque os aceleradores modernos têm estado escalando FLOPs mais rápido que a largura de banda HBM por várias gerações, e a inferência está cada vez mais limitada por memória, não aritmética. Em AMD MI300x eles relatam aproximadamente 3 propostas de bloco por pass; no mais novo MI355x aproximadamente 5. O enquadramento order-constrained também significa que isso não é um modelo de difusão livre no sentido de image-gen — está mais próximo do speculative decoding de bloco grande com um objetivo de treinamento estilo difusão do que do "modelo de linguagem de difusão" no sentido mais forte dessa frase.
A leitura de avaliação honesta é de duas camadas. Primeiro, a Zyphra enfatiza métricas "pass@" em vez de benchmarks de precisão padrão porque este é um checkpoint base mid-train pré-RL training; os ganhos são relatados em LCB-v6 com "degradação mínima de avaliação" versus a base autorregressiva, mas nenhuma tabela de delta por benchmark aparece no anúncio. Segundo, o relatório de dual-sampler — 4,6x lossless e 7,7x com trade-off — é a forma correta de divulgação, mas o tamanho do trade-off em 7,7x não é quantificado no release público. Builders avaliando isso devem ler ambos os números: a figura lossless é a alegação conservadora, o 7,7x de manchete é a alegação agressiva, e a decisão real sobre se usar o sampler logit-mixing depende da tolerância à variância de qualidade no seu workload. ZAYA1-8B-base (o modelo autorregressivo) está no Hugging Face; os artefatos de release e o status de licença da variante de difusão não são totalmente detalhados no anúncio.
Para builders observando a economia de inferência: se o número lossless de 4,6x se sustentar em benchmarking de terceiros em workloads reais em tamanhos de batch modestos, esta é uma mudança significativa na curva de custo para geração de texto de alto volume, especialmente em silício AMD onde os números MI300x/MI355x foram medidos. A alegação arquitetural — converter um modelo AR em vez de retreinar do zero — também é metodologicamente interessante porque sugere que checkpoints AR MoE existentes podem ser retrofitados em variantes de difusão sem reexecutar pré-treinamento caro, se a receita TiDAR generalizar fora da stack da Zyphra. Os testes que decidirão se isso é uma mudança permanente ou um preview de pesquisa de um único vendor são reproduções em outras bases AR MoE (Qwen MoE, variantes DeepSeek MoE), e números limpos por benchmark em avaliações padrão uma vez que a Zyphra avance além do checkpoint pré-RL.
