MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

阿里正式发布Qwen3.7-Plus多模态智能体底座,视觉编程能力全面升级

阿里巴巴通义千问团队正式发布全新多模态大模型Qwen3.7-Plus,作为多模态智能体底座全面升级视觉-语言能力,目前已登陆阿里云百炼平台开放商业API调用。

References

Qwen3.7系列模型对比
Qwen3.7-Max此前已发布,Qwen3.7-Plus定位于多模态智能体底座 Image source

阿里正式发布Qwen3.7-Plus多模态智能体底座,视觉编程能力全面升级

阿里巴巴通义千问团队于6月2日正式发布全新多模态大模型 Qwen3.7-Plus,定位为多模态智能体底座。该模型在Qwen3.7文本能力的基础上,全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。

与Qwen3.7-Max差异化定位

与5月20日发布的旗舰深度推理模型Qwen3.7-Max不同,Qwen3.7-Plus是一款主打多模态交互的混合智能体模型。Qwen3.7-Max侧重于编程智能体和通用智能体的深度推理能力,而Qwen3.7-Plus则聚焦于视觉与语言的融合交互。值得关注的是,Qwen3.7-Plus并不开源,而是作为专有闭源模型通过API提供服务。

核心能力:视觉-语言统一闭环

Qwen3.7-Plus的核心突破在于将图形用户界面(GUI)与命令行界面(CLI)操作统一在单个闭环中,同时支持视觉感知、屏幕阅读和终端代码执行。通过融合视觉与语言能力,该模型能够基于用户上传的网页截图、视频或设计原型图,直接推理并生成可执行的SVG代码或前端页面。

技术架构优化

在技术架构上,Qwen3.7-Plus针对多模态智能体在复杂长程任务中的表现进行了深度优化,支持跨多种主流智能体框架的无缝泛化,进一步提升了感知、推理和检索增强问答的精准度。该模型已通过阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用,也可在Qwen Studio体验。

应用场景

Qwen3.7-Plus支持图像、视频、屏幕、网页和文本等多种输入模态,面向复杂软件与办公流程场景,可直接在GUI、CLI和工具环境中完成自动化任务,为企业和开发者提供强大的多模态智能体开发底座。