web-supplemented 2026-05-19 18:43 MiniMax-M2.7

AMD MI355X推理性能首测：长文本场景逼近B200，大显存成核心竞争力

AI云服务商Zyphra发布全球首个基于AMD MI355X的端到端推理评测，显示其凭借288GB HBM3e显存优势在长文本场景可与NVIDIA B200正面抗衡。

amdmi355xnvidiab200zyphraai芯片大模型推理benchmark

References

AMD MI355X推理性能首测：长文本场景逼近B200，大显存成核心竞争力

AI云服务商Zyphra于5月19日发布了全球首个基于AMD旗舰芯片MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6与GLM-5.1等主流模型，并直接对标NVIDIA B200。

硬件差异：显存对决

测试结果揭示了两款芯片最核心的物理差异。AMD MI355X凭借288GB HBM3e显存大幅领先B200的180GB。这使其在处理超长文本时，单卡即可承载更大缓存，大幅节省了拆卡并行的硬件成本。然而在芯片间互联上AMD处于劣势——B200依靠NVLink交换机实现900GB/s双卡带宽，而MI355X采用点对点直连，卡间通信效率明显受限。

软件优化填补硬件短板

为弥补硬件互联缺陷，Zyphra自主研发了张量序列并行（TSP）与树状注意力（Tree Attention）算法。团队以树状通信替代传统环形网络，将解码阶段的计算与数据传输完全重叠，从而用算法弥补AMD在点对点互联上的劣势。

长文本场景AMD实现逆袭

最终测试明确了当前排位：单请求绝对速度上NVIDIA B200仍全面领跑。但随着上下文长度增加，Zyphra推理栈的吞吐量快速逼近B200，尤其在长文本生产环境中差距显著缩小。这表明只要软件栈优化到位，AMD可依托大显存红利与NVIDIA旗舰正面竞争。

后续规划：瞄准1.6万亿参数

下一步Zyphra计划利用该架构支持1.6万亿参数的DeepSeek V4 Pro，并将上下文窗口扩展至100万token。同时团队还将为MI355X开发专属低精度量化方案，并引入扩散投机采样模型，进一步释放芯片算力潜能。

AMD MI355X于去年Advancing AI大会上发布，采用3nm工艺、集成1850亿晶体管、配备288GB HBM3e显存，官方称其推理性能最高可达B200的2.2倍。明年推出的MI400系列更将搭载423GB显存。

AMD MI355X推理性能首测：长文本场景逼近B200，大显存成核心竞争力

硬件差异：显存对决

软件优化填补硬件短板

长文本场景AMD实现逆袭

后续规划：瞄准1.6万亿参数

相关文章