MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Zyphra开源ZAYA1-74B预览版:AMD MI300x全流程训练的740亿参数MoE大模型

AI初创公司Zyphra联合AMD与IBM发布首个完全基于AMD硬件生态训练的大规模MoE模型ZAYA1-74B预览版,以740亿总参数、40亿激活参数的架构刷新端到端训练效率。

References

AMD Instinct MI300X GPU训练集群
AMD Instinct MI300X GPU为Zyphra提供192GB高带宽内存支撑大规模MoE训练 Image source

Zyphra发布ZAYA1-74B预览版:全球首个AMD全流程训练的大规模MoE推理基座

AI初创公司Zyphra于2026年5月正式开源ZAYA1-74B预览版模型,这是一个采用混合专家(MoE)架构的预强化学习推理基座,其完整预训练和上下文扩展流程均在美国超微半导体(AMD)的Instinct MI300x加速卡上端到端跑通²

架构创新:滑动窗口注意力优化长文本效率

该模型拥有740亿总参数,单次推理仅需激活40亿参数即可运行¹。为优化长文本场景下的计算效率,ZAYA1-74B将交替的全局注意力层替换为4K窗口大小的滑动窗口注意力(SWA)。官方测试表明,这一设计在不牺牲长文本性能的前提下,将KV缓存占用削减近50%²

训练规模与硬件支撑

ZAYA1-74B的预训练共消耗15万亿token,随后在3万亿token的中间训练(Midtraining)阶段将上下文窗口逐步扩展至256K²。根据公开信息,AMD Instinct MI300X GPU提供的192GB高带宽内存使Zyphra能够以更简化的资源配置完成大规模训练,无须依赖昂贵的专家或张量分片技术³

性能验证与开源协议

由于该预览版尚未进行强化学习(RL)和指令微调,Zyphra选择公布pass@4指标(即四次生成至少成功一次的概率),以证明基座模型已具备产生正确推理步骤的能力²。模型权重遵循Apache 2.0协议,已在Hugging Face平台开放下载²

产业意义

ZAYA1-74B的发布标志着AMD在高端AI训练领域迈出重要一步´。此前AMD已宣布与Meta签订600亿美元芯片大单,并与IBM在云计算和网络上展开深度合作。Zyphra表示,完整满血版ZAYA1-74B预计将在未来数周内发布,届时将带来更完整的后训练模型与详细基准测试结果²