阿里通义千问近日发布新一代智能体旗舰基底模型Qwen3.7-Max。官方公布的测试数据显示,该模型在完全无芯片架构文档与性能分析数据的情况下,历经35小时、跨越1158次工具调用的全自主优化,成功将平头哥真武M890处理器的Triton算子性能提升10倍。
技术突破:五阶段演进实现算子优化
在此次优化任务中,Qwen3.7-Max经历了五个核心阶段的技术演进:
- Split-K分区优化:将前缀KV-cache沿token维度划分,充分利用36个SM核心的并行计算能力;
- 内存分配重构:将主机与设备间的cudaMalloc替换为预分配的PyTorch变量,消除同步开销;
- 零拷贝访存:通过使用tensor元数据完全移除查询前缀长度时的cudaMemcpy同步操作;
- 架构级特化:重构算子使其在单个线程块中同时处理4个query token,通过共享加载分摊访存开销。
性能对比:领先国内外竞品
在算子优化实测中,Qwen3.7-Max取得10.0倍几何平均加速比,显著超越GLM 5.1(7.3倍)与Kimi K2.6(5.0倍)。相比之下,DeepSeek V4 Pro仅实现3.3倍加速,且在后半程因连续五轮未发出工具调用而主动结束任务。
据此前报道,Qwen3-Max系列是通义千问家族中规模最大的基础模型,预训练数据量达36T Tokens,总参数量超过万亿。在SWE-Bench Verified测试中,Instruct版本斩获69.6分;在Tau2-Bench测试中取得74.8分,超越Claude Opus4和DeepSeek-V3.1。
Agent能力:强化学习驱动泛化性
为实现复杂环境中的通用解题能力,Qwen3.7-Max在训练中将任务、运行框架与验证器进行解耦,并通过跨框架强化学习避免针对特定基准的过拟合。在MCP-Mark(60.8分)与SpreadSheetBench(87.0分)等通用智能体基准上,该模型展现出极强的泛化性,综合性能已逼近Claude-4.6-Opus-Max水平。
开发者可通过QwenChat免费体验该模型,企业用户可通过阿里云百炼获取API服务。