Zyphra发布ZAYA1-74B预览版:全球首个AMD全流程训练的大规模MoE推理基座
AI初创公司Zyphra于2026年5月正式开源ZAYA1-74B预览版模型,这是一个采用混合专家(MoE)架构的预强化学习推理基座,其完整预训练和上下文扩展流程均在美国超微半导体(AMD)的Instinct MI300x加速卡上端到端跑通²。
架构创新:滑动窗口注意力优化长文本效率
该模型拥有740亿总参数,单次推理仅需激活40亿参数即可运行¹。为优化长文本场景下的计算效率,ZAYA1-74B将交替的全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA)。官方测试表明,这一设计在不牺牲长文本性能的前提下,将KV缓存占用削减近50%²。
训练规模与硬件支撑
ZAYA1-74B的预训练共消耗15万亿token,随后在3万亿token的中间训练(Midtraining)阶段将上下文窗口逐步扩展至256K²。根据公开信息,AMD Instinct MI300X GPU提供的192GB高带宽内存使Zyphra能够以更简化的资源配置完成大规模训练,无须依赖昂贵的专家或张量分片技术³。
性能验证与开源协议
由于该预览版尚未进行强化学习(RL)和指令微调,Zyphra选择公布pass@4指标(即四次生成至少成功一次的概率),以证明基座模型已具备产生正确推理步骤的能力²。模型权重遵循Apache 2.0协议,已在Hugging Face平台开放下载²。
产业意义
ZAYA1-74B的发布标志着AMD在高端AI训练领域迈出重要一步´。此前AMD已宣布与Meta签订600亿美元芯片大单,并与IBM在云计算和网络上展开深度合作。Zyphra表示,完整满血版ZAYA1-74B预计将在未来数周内发布,届时将带来更完整的后训练模型与详细基准测试结果²。