web-supplemented 2026-05-08 10:28 MiniMax-M2.7

智谱发布GLM-5V-Turbo：原生多模态编程基座模型Design2Code超Claude Opus

智谱AI发布首个原生多模态编程基座模型GLM-5V-Turbo，通过预训练阶段深度融合视觉与文本能力，在设计稿还原、GUI Agent等多项基准上取得领先，支持200K上下文并深度适配Claude Code等主流编程框架。

智谱GLM-5V-Turbo多模态AI编程大模型

References

GLM-5V-Turbo模型发布 — 智谱发布GLM-5V-Turbo多模态编程基座模型 Image source

智谱AI于4月初正式上线GLM-5V-Turbo多模态编程基座模型，并于近日补发了完整技术报告。该模型支持200K上下文窗口，可接入Claude Code、OpenClaw/AutoClaw等主流编程Agent框架，是智谱首个将视觉感知深度融入编程全流程的多模态基座模型。

架构设计三大核心

与多数将视觉作为语言模型附件的做法不同，GLM-5V-Turbo从预训练阶段就将视觉感知融入推理、规划、工具调用和执行的全流程。技术报告披露了三大关键设计：

CogViT视觉编码器：采用SigLIP2和DINOv3双教师蒸馏预训练，再用80亿中英双语图文语料做对比学习对齐，实现原生多模态理解能力。

多模态多Token预测（MMTP）：用一个共享的可学习特殊token替代直接传递视觉嵌入，降低跨pipeline阶段的通信复杂度，训练更稳定。

30余项任务联合强化学习：覆盖感知、推理和Agent执行三个层级，在视频理解、3D定位、GUI Agent、多模态搜索工具调用等任务上均取得显著提升。

性能表现亮眼

在核心基准测试中，GLM-5V-Turbo以更小参数尺寸取得领先表现：

Design2Code 94.8：超越Claude Opus 4.6
OSWorld 62.3、AndroidWorld 75.7：GUI操控能力领先
MMSearch 72.9、BrowseComp-VL 51.9：多模态搜索表现优异
MMSearch-Plus 30.0：较上一代GLM-4.6V提升近8倍

值得注意的是，纯文本编程能力在CC-Bench-V2的后端（22.8）、前端（68.4）和代码仓库探索（72.2）三项上均保持稳定，甚至反超其纯文本底座GLM-5-Turbo。

RL阶段能力提升显著

技术报告详细披露了多任务强化学习阶段的提升分布：2D图像定位+4.8%、视频理解+5.6%、3D定位+7.7%、OCR+4.2%、图表理解+7.7%、GUI Agent（OSWorld）+4.9%、多模态搜索工具调用+3.5%。团队指出，多任务RL不同于SFT常见的跨域干扰，各能力可稳定共同提升，一个领域学到的推理模式还会迁移到其他领域。

目前GLM-5V-Turbo已在Z.ai API和OpenRouter上线，完整技术报告可查阅arXiv。

架构设计三大核心

性能表现亮眼

RL阶段能力提升显著

相关文章