阿里通义实验室于5月19日正式发布新一代实时音视频同传大模型Qwen3.5-LiveTranslate,将多语言同传能力提升至全新高度。该模型基于Qwen3.5-Omni架构构建,目前已支持60种语言的理解与生成,以及29种语言的语音输出,语言对总数突破3500个。
从18种到3500对:一年内的跨越
值得注意的是,去年9月通义千问首次推出的实时音视频同传模型Qwen3-LiveTranslate-Flash仅支持18种主要语言和6种汉语方言。彼时该模型已在多个中英及多语言语音翻译榜单中超越Gemini-2.5-Flash、GPT-4o-Audio-Preview等主流模型,实时同传准确率达到94%以上。
而此次发布的Qwen3.5版本在语言覆盖上实现了质的飞跃,从18种语言跃升至3500余个语言对,增幅近200倍。
视觉增强:从"听懂"到"看懂"
不同于传统仅依赖音频的同传系统,Qwen3.5-LiveTranslate引入了实时视觉上下文技术。系统能够同时处理视频画面中的口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境及一词多义等翻译难题。
例如,当视频画面中出现"mask"时,系统可结合视觉特征精准判断是医疗口罩(medical mask)还是化妆舞会面具(costume mask),从而选择正确的英文翻译——这一能力正是去年版本已实现的核心亮点。
热词注入与声音克隆
为解决噪声和口音带来的转录偏差,新模型还支持热词动态注入功能。用户可在翻译流中直接指定人名、品牌或行业术语,锁定正确翻译,避免专有名词在同传中发生漂移。
此外,模型新增实时人声克隆功能,能够在跨语种同传时保留说话人原声的音色与语气特征,提升译出语的临场感。
体验与部署
目前Qwen3.5-LiveTranslate已在体验平台Qwen Omni上线,未来API将登录阿里云百炼平台,面向企业开发者开放调用。
随着多模态大模型持续渗透专业翻译领域,传统同声传译行业正面临前所未有的技术变革压力。