AMD MI355X推理性能首测:长文本场景逼近B200,大显存成核心竞争力
AI云服务商Zyphra于5月19日发布了全球首个基于AMD旗舰芯片MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6与GLM-5.1等主流模型,并直接对标NVIDIA B200。
硬件差异:显存对决
测试结果揭示了两款芯片最核心的物理差异。AMD MI355X凭借288GB HBM3e显存大幅领先B200的180GB。这使其在处理超长文本时,单卡即可承载更大缓存,大幅节省了拆卡并行的硬件成本。然而在芯片间互联上AMD处于劣势——B200依靠NVLink交换机实现900GB/s双卡带宽,而MI355X采用点对点直连,卡间通信效率明显受限。
软件优化填补硬件短板
为弥补硬件互联缺陷,Zyphra自主研发了张量序列并行(TSP)与树状注意力(Tree Attention)算法。团队以树状通信替代传统环形网络,将解码阶段的计算与数据传输完全重叠,从而用算法弥补AMD在点对点互联上的劣势。
长文本场景AMD实现逆袭
最终测试明确了当前排位:单请求绝对速度上NVIDIA B200仍全面领跑。但随着上下文长度增加,Zyphra推理栈的吞吐量快速逼近B200,尤其在长文本生产环境中差距显著缩小。这表明只要软件栈优化到位,AMD可依托大显存红利与NVIDIA旗舰正面竞争。
后续规划:瞄准1.6万亿参数
下一步Zyphra计划利用该架构支持1.6万亿参数的DeepSeek V4 Pro,并将上下文窗口扩展至100万token。同时团队还将为MI355X开发专属低精度量化方案,并引入扩散投机采样模型,进一步释放芯片算力潜能。
AMD MI355X于去年Advancing AI大会上发布,采用3nm工艺、集成1850亿晶体管、配备288GB HBM3e显存,官方称其推理性能最高可达B200的2.2倍。明年推出的MI400系列更将搭载423GB显存。