web-supplemented 2026-05-15 16:57 MiniMax-M2.7

Zyphra发布AMD生态首个扩散语言模型ZAYA1，推理速度最高提升7.7倍

Zyphra推出基于自回归模型转化的混合专家扩散模型ZAYA1-8B-Diffusion-Preview，在AMD硬件上完成训练并实现最高7.7倍推理加速。

zyphrazaya1扩散模型amd大语言模型moeai推理

References

MindWave AI快报

AI初创公司Zyphra近日发布了一款名为ZAYA1-8B-Diffusion-Preview的混合专家（MoE）扩散语言模型，该模型基于自回归大语言模型转化而来，是首个在AMD硬件生态内完成训练的扩散语言模型。

传统自回归模型受限于逐字串行生成，KV Cache的不断积累会使生成速度触及物理极限。ZAYA1沿用TiDAR方案，跳过了从头预训练环节，在单次前向传播中可同时对16个token候选进行去噪，将显存带宽瓶颈彻底转化为算力瓶颈。

这一思路与近期何恺明团队纯扩散模型ELF揭示的行业趋势相吻合——并行去噪是打破自回归生成速度瓶颈的关键。

结合ZAYA1专属的CCA注意力机制，使用标准无损采样器可在不降低生成质量的前提下实现4.6倍的接收加速比。若切换至混合logit采样器，加速比更跃升至7.7倍，为大规模推理任务提供了显著的降本空间。

虽然Zyphra在宣传中声称ZAYA1是「首个」实现自回归转扩散架构的模型，但该技术路线早在去年底已被SDAR和LLaDA 2.0等团队率先验证。ZAYA1的真正差异��在于，它是首个在AMD硬件上完成端到端训练的扩散语言模型，而非NVIDIA生态。

Zyphra此前已发布基于AMD训练的ZAYA1-8B推理模型，该模型拥有760M活跃参数和84亿总参数，在数学和编码基准测试中表现出色，Apache 2.0许可证下可在Hugging Face获取。

发布时间：2026年5月

相关文章