web-supplemented 2026-05-08 18:53 MiniMax-M2.7

Zyphra开源ZAYA1-74B预览版：AMD MI300x全流程训练的740亿参数MoE大模型

AI初创公司Zyphra联合AMD与IBM发布首个完全基于AMD硬件生态训练的大规模MoE模型ZAYA1-74B预览版，以740亿总参数、40亿激活参数的架构刷新端到端训练效率。

zay a1zyphraamdmoe模型开源大模型mi300x人工智能

References

AMD Instinct MI300X GPU训练集群 — AMD Instinct MI300X GPU为Zyphra提供192GB高带宽内存支撑大规模MoE训练 Image source

Zyphra发布ZAYA1-74B预览版：全球首个AMD全流程训练的大规模MoE推理基座

AI初创公司Zyphra于2026年5月正式开源ZAYA1-74B预览版模型，这是一个采用混合专家（MoE）架构的预强化学习推理基座，其完整预训练和上下文扩展流程均在美国超微半导体（AMD）的Instinct MI300x加速卡上端到端跑通²。

架构创新：滑动窗口注意力优化长文本效率

该模型拥有740亿总参数，单次推理仅需激活40亿参数即可运行¹。为优化长文本场景下的计算效率，ZAYA1-74B将交替的全局注意力层替换为4K窗口大小的滑动窗口注意力（SWA）。官方测试表明，这一设计在不牺牲长文本性能的前提下，将KV缓存占用削减近50%²。

训练规模与硬件支撑

ZAYA1-74B的预训练共消耗15万亿token，随后在3万亿token的中间训练（Midtraining）阶段将上下文窗口逐步扩展至256K²。根据公开信息，AMD Instinct MI300X GPU提供的192GB高带宽内存使Zyphra能够以更简化的资源配置完成大规模训练，无须依赖昂贵的专家或张量分片技术³。

性能验证与开源协议

由于该预览版尚未进行强化学习（RL）和指令微调，Zyphra选择公布pass@4指标（即四次生成至少成功一次的概率），以证明基座模型已具备产生正确推理步骤的能力²。模型权重遵循Apache 2.0协议，已在Hugging Face平台开放下载²。

产业意义

ZAYA1-74B的发布标志着AMD在高端AI训练领域迈出重要一步´。此前AMD已宣布与Meta签订600亿美元芯片大单，并与IBM在云计算和网络上展开深度合作。Zyphra表示，完整满血版ZAYA1-74B预计将在未来数周内发布，届时将带来更完整的后训练模型与详细基准测试结果²。

Zyphra发布ZAYA1-74B预览版：全球首个AMD全流程训练的大规模MoE推理基座

架构创新：滑动窗口注意力优化长文本效率

训练规模与硬件支撑

性能验证与开源协议

产业意义

相关文章