MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Zyphra发布AMD生态首个扩散语言模型ZAYA1,推理速度最高提升7.7倍

Zyphra推出基于自回归模型转化的混合专家扩散模型ZAYA1-8B-Diffusion-Preview,在AMD硬件上完成训练并实现最高7.7倍推理加速。

References

MindWave AI快报


Zyphra发布AMD生态首个扩散语言模型ZAYA1,推理速度最高提升7.7倍

AI初创公司Zyphra近日发布了一款名为ZAYA1-8B-Diffusion-Preview的混合专家(MoE)扩散语言模型,该模型基于自回归大语言模型转化而来,是首个在AMD硬件生态内完成训练的扩散语言模型。

技术突破:并行去噪打破生成瓶颈

传统自回归模型受限于逐字串行生成,KV Cache的不断积累会使生成速度触及物理极限。ZAYA1沿用TiDAR方案,跳过了从头预训练环节,在单次前向传播中可同时对16个token候选进行去噪,将显存带宽瓶颈彻底转化为算力瓶颈。

这一思路与近期何恺明团队纯扩散模型ELF揭示的行业趋势相吻合——并行去噪是打破自回归生成速度瓶颈的关键。

实测性能:最高7.7倍加速

结合ZAYA1专属的CCA注意力机制,使用标准无损采样器可在不降低生成质量的前提下实现4.6倍的接收加速比。若切换至混合logit采样器,加速比更跃升至7.7倍,为大规模推理任务提供了显著的降本空间。

背景:AMD训练+扩散架构双重创新

虽然Zyphra在宣传中声称ZAYA1是「首个」实现自回归转扩散架构的模型,但该技术路线早在去年底已被SDAR和LLaDA 2.0等团队率先验证。ZAYA1的真正差异���在于,它是首个在AMD硬件上完成端到端训练的扩散语言模型,而非NVIDIA生态。

Zyphra此前已发布基于AMD训练的ZAYA1-8B推理模型,该模型拥有760M活跃参数和84亿总参数,在数学和编码基准测试中表现出色,Apache 2.0许可证下可在Hugging Face获取。


发布时间:2026年5月