web-supplemented 2026-06-02 08:35 MiniMax-M2.7

阿里正式发布Qwen3.7-Plus多模态智能体底座，视觉编程能力全面升级

阿里巴巴通义千问团队正式发布全新多模态大模型Qwen3.7-Plus，作为多模态智能体底座全面升级视觉-语言能力，目前已登陆阿里云百炼平台开放商业API调用。

阿里云qwen大模型多模态智能体ai

References

Qwen3.7系列模型对比 — Qwen3.7-Max此前已发布，Qwen3.7-Plus定位于多模态智能体底座 Image source

阿里正式发布Qwen3.7-Plus多模态智能体底座，视觉编程能力全面升级

阿里巴巴通义千问团队于6月2日正式发布全新多模态大模型 Qwen3.7-Plus，定位为多模态智能体底座。该模型在Qwen3.7文本能力的基础上，全面升级了视觉-语言能力，同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。

与Qwen3.7-Max差异化定位

与5月20日发布的旗舰深度推理模型Qwen3.7-Max不同，Qwen3.7-Plus是一款主打多模态交互的混合智能体模型。Qwen3.7-Max侧重于编程智能体和通用智能体的深度推理能力，而Qwen3.7-Plus则聚焦于视觉与语言的融合交互。值得关注的是，Qwen3.7-Plus并不开源，而是作为专有闭源模型通过API提供服务。

核心能力：视觉-语言统一闭环

Qwen3.7-Plus的核心突破在于将图形用户界面（GUI）与命令行界面（CLI）操作统一在单个闭环中，同时支持视觉感知、屏幕阅读和终端代码执行。通过融合视觉与语言能力，该模型能够基于用户上传的网页截图、视频或设计原型图，直接推理并生成可执行的SVG代码或前端页面。

技术架构优化

在技术架构上，Qwen3.7-Plus针对多模态智能体在复杂长程任务中的表现进行了深度优化，支持跨多种主流智能体框架的无缝泛化，进一步提升了感知、推理和检索增强问答的精准度。该模型已通过阿里云百炼平台上线，支持OpenAI兼容API与Anthropic协议调用，也可在Qwen Studio体验。

应用场景

Qwen3.7-Plus支持图像、视频、屏幕、网页和文本等多种输入模态，面向复杂软件与办公流程场景，可直接在GUI、CLI和工具环境中完成自动化任务，为企业和开发者提供强大的多模态智能体开发底座。

阿里正式发布Qwen3.7-Plus多模态智能体底座，视觉编程能力全面升级

与Qwen3.7-Max差异化定位

核心能力：视觉-语言统一闭环

技术架构优化

应用场景

相关文章