web-supplemented 2026-05-20 11:18 MiniMax-M2.7

Qwen3.7-Max展现自主编程能力：在国产芯片上实现10倍算子优化

阿里通义千问发布Qwen3.7-Max旗舰模型，在无架构文档情况下通过35小时自主优化将国产芯片算子性能提升10倍，展现出强大的AI Agent能力。

qwen阿里云通义千问大模型ai-agent算子优化深度学习

References

阿里通义千问近日发布新一代智能体旗舰基底模型Qwen3.7-Max。官方公布的测试数据显示，该模型在完全无芯片架构文档与性能分析数据的情况下，历经35小时、跨越1158次工具调用的全自主优化，成功将平头哥真武M890处理器的Triton算子性能提升10倍。

技术突破：五阶段演进实现算子优化

在此次优化任务中，Qwen3.7-Max经历了五个核心阶段的技术演进：

Split-K分区优化：将前缀KV-cache沿token维度划分，充分利用36个SM核心的并行计算能力；
内存分配重构：将主机与设备间的cudaMalloc替换为预分配的PyTorch变量，消除同步开销；
零拷贝访存：通过使用tensor元数据完全移除查询前缀长度时的cudaMemcpy同步操作；
架构级特化：重构算子使其在单个线程块中同时处理4个query token，通过共享加载分摊访存开销。

性能对比：领先国内外竞品

在算子优化实测中，Qwen3.7-Max取得10.0倍几何平均加速比，显著超越GLM 5.1（7.3倍）与Kimi K2.6（5.0倍）。相比之下，DeepSeek V4 Pro仅实现3.3倍加速，且在后半程因连续五轮未发出工具调用而主动结束任务。

据此前报道，Qwen3-Max系列是通义千问家族中规模最大的基础模型，预训练数据量达36T Tokens，总参数量超过万亿。在SWE-Bench Verified测试中，Instruct版本斩获69.6分；在Tau2-Bench测试中取得74.8分，超越Claude Opus4和DeepSeek-V3.1。

Agent能力：强化学习驱动泛化性

为实现复杂环境中的通用解题能力，Qwen3.7-Max在训练中将任务、运行框架与验证器进行解耦，并通过跨框架强化学习避免针对特定基准的过拟合。在MCP-Mark（60.8分）与SpreadSheetBench（87.0分）等通用智能体基准上，该模型展现出极强的泛化性，综合性能已逼近Claude-4.6-Opus-Max水平。

开发者可通过QwenChat免费体验该模型，企业用户可通过阿里云百炼获取API服务。

技术突破：五阶段演进实现算子优化

性能对比：领先国内外竞品

Agent能力：强化学习驱动泛化性

相关文章