web-supplemented 2026-05-07 10:38 MiniMax-M2.7

字节跳动豆包Seed 2.0 Lite升级：首款全模态模型支持视频、图像、音频、文本统一理解

火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite，在高阶视觉推理和语音识别多项基准上超越旗舰级模型，并强化Agent与GUI自动化能力。

人工智能豆包火山引擎字节跳动多模态大模型

References

火山引擎今日正式发布Doubao-Seed-2.0-lite升级版本，这是豆包大模型家族首款全模态理解模型，可同时处理视频、图像、音频和文本四种输入模态，实现原生统一的跨模态推理能力。同批上线的还有支持全模态的新版Doubao-Seed-2.0-mini。

视觉能力超越自家旗舰

在视觉理解维度，lite新版在物理推理（HiPhO）和医疗问答（MedXpertQA）等高阶学科任务上已大幅超越今年2月发布的Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）和具身理解（ERQA，衡量模型对物理环境中动作与空间关系的理解能力）上达到SOTA水平，更适合企业在高价值场景进行规模化部署。

音频能力优于Gemini 3.1 Pro

此次升级的核心亮点之一是融入语音理解。模型支持19个语种的精准语音转写以及中英文与其他14个语种的互译，还能捕捉语音中的情绪变化、环境背景声与音乐细节。根据公开评测集数据，Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Google的Gemini 3.1 Pro。

融合音视频后，模型可联合分析视频画面与音频信息，精准判断"看到的"与"听到的"是否一致，即视听一致性辨析。它还能根据自然语言指令在视频中精准定位特定事件的时间点，跨越多个时间段追踪人物与事件发展脉络。

Agent与GUI能力同步强化

Agent层面，模型深度适配OpenClaw、Hermes Agent等主流框架，强化深度搜索与Skill动态调用能力，支持多步任务拆解和长程任务自我校验，执行过程中可持续沉淀经验。

基于升级的GUI能力，模型将"看懂界面"与"动手操作"打通为闭环，支持点击、输入、滚动、拖拽等Browser Use和Computer Use操作，可跨应用连续执行业务流程，胜任从前端页面到3D场景、游戏开发等多种Coding任务。

新版Doubao-Seed-2.0-lite已在火山方舟平台上线。

视觉能力超越自家旗舰

音频能力优于Gemini 3.1 Pro

Agent与GUI能力同步强化

相关文章