MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

AMD MI355X推理性能首测:长文本场景逼近B200,大显存成核心竞争力

AI云服务商Zyphra发布全球首个基于AMD MI355X的端到端推理评测,显示其凭借288GB HBM3e显存优势在长文本场景可与NVIDIA B200正面抗衡。

References

AMD MI355X推理性能首测:长文本场景逼近B200,大显存成核心竞争力

AI云服务商Zyphra于5月19日发布了全球首个基于AMD旗舰芯片MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6与GLM-5.1等主流模型,并直接对标NVIDIA B200。

硬件差异:显存对决

测试结果揭示了两款芯片最核心的物理差异。AMD MI355X凭借288GB HBM3e显存大幅领先B200的180GB。这使其在处理超长文本时,单卡即可承载更大缓存,大幅节省了拆卡并行的硬件成本。然而在芯片间互联上AMD处于劣势——B200依靠NVLink交换机实现900GB/s双卡带宽,而MI355X采用点对点直连,卡间通信效率明显受限。

软件优化填补硬件短板

为弥补硬件互联缺陷,Zyphra自主研发了张量序列并行(TSP)与树状注意力(Tree Attention)算法。团队以树状通信替代传统环形网络,将解码阶段的计算与数据传输完全重叠,从而用算法弥补AMD在点对点互联上的劣势。

长文本场景AMD实现逆袭

最终测试明确了当前排位:单请求绝对速度上NVIDIA B200仍全面领跑。但随着上下文长度增加,Zyphra推理栈的吞吐量快速逼近B200,尤其在长文本生产环境中差距显著缩小。这表明只要软件栈优化到位,AMD可依托大显存红利与NVIDIA旗舰正面竞争。

后续规划:瞄准1.6万亿参数

下一步Zyphra计划利用该架构支持1.6万亿参数的DeepSeek V4 Pro,并将上下文窗口扩展至100万token。同时团队还将为MI355X开发专属低精度量化方案,并引入扩散投机采样模型,进一步释放芯片算力潜能。

AMD MI355X于去年Advancing AI大会上发布,采用3nm工艺、集成1850亿晶体管、配备288GB HBM3e显存,官方称其推理性能最高可达B200的2.2倍。明年推出的MI400系列更将搭载423GB显存。