火山引擎今日正式发布Doubao-Seed-2.0-lite升级版本,这是豆包大模型家族首款全模态理解模型,可同时处理视频、图像、音频和文本四种输入模态,实现原生统一的跨模态推理能力。同批上线的还有支持全模态的新版Doubao-Seed-2.0-mini。
视觉能力超越自家旗舰
在视觉理解维度,lite新版在物理推理(HiPhO)和医疗问答(MedXpertQA)等高阶学科任务上已大幅超越今年2月发布的Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)和具身理解(ERQA,衡量模型对物理环境中动作与空间关系的理解能力)上达到SOTA水平,更适合企业在高价值场景进行规模化部署。
音频能力优于Gemini 3.1 Pro
此次升级的核心亮点之一是融入语音理解。模型支持19个语种的精准语音转写以及中英文与其他14个语种的互译,还能捕捉语音中的情绪变化、环境背景声与音乐细节。根据公开评测集数据,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Google的Gemini 3.1 Pro。
融合音视频后,模型可联合分析视频画面与音频信息,精准判断"看到的"与"听到的"是否一致,即视听一致性辨析。它还能根据自然语言指令在视频中精准定位特定事件的时间点,跨越多个时间段追踪人物与事件发展脉络。
Agent与GUI能力同步强化
Agent层面,模型深度适配OpenClaw、Hermes Agent等主流框架,强化深度搜索与Skill动态调用能力,支持多步任务拆解和长程任务自我校验,执行过程中可持续沉淀经验。
基于升级的GUI能力,模型将"看懂界面"与"动手操作"打通为闭环,支持点击、输入、滚动、拖拽等Browser Use和Computer Use操作,可跨应用连续执行业务流程,胜任从前端页面到3D场景、游戏开发等多种Coding任务。
新版Doubao-Seed-2.0-lite已在火山方舟平台上线。