web-supplemented 2026-05-20 11:01 MiniMax-M2.7

阿里通义实验室发布Qwen3.5-LiveTranslate：支持3500个语言对的视觉增强同传大模型

阿里通义实验室于5月19日发布新一代实时音视频同传大模型Qwen3.5-LiveTranslate，将语言对支持从去年的18种大幅扩展至3500余个，并首次融合视觉理解、实时声音克隆与热词自定义功能。

阿里巴巴通义千问同声传译人工智能大模型多语言翻译

References

阿里通义实验室于5月19日正式发布新一代实时音视频同传大模型Qwen3.5-LiveTranslate，将多语言同传能力提升至全新高度。该模型基于Qwen3.5-Omni架构构建，目前已支持60种语言的理解与生成，以及29种语言的语音输出，语言对总数突破3500个。

从18种到3500对：一年内的跨越

值得注意的是，去年9月通义千问首次推出的实时音视频同传模型Qwen3-LiveTranslate-Flash仅支持18种主要语言和6种汉语方言。彼时该模型已在多个中英及多语言语音翻译榜单中超越Gemini-2.5-Flash、GPT-4o-Audio-Preview等主流模型，实时同传准确率达到94%以上。

而此次发布的Qwen3.5版本在语言覆盖上实现了质的飞跃，从18种语言跃升至3500余个语言对，增幅近200倍。

视觉增强：从"听懂"到"看懂"

不同于传统仅依赖音频的同传系统，Qwen3.5-LiveTranslate引入了实时视觉上下文技术。系统能够同时处理视频画面中的口型、动作、文字、实体等多模态信息，有效应对嘈杂音频环境及一词多义等翻译难题。

例如，当视频画面中出现"mask"时，系统可结合视觉特征精准判断是医疗口罩（medical mask）还是化妆舞会面具（costume mask），从而选择正确的英文翻译——这一能力正是去年版本已实现的核心亮点。

热词注入与声音克隆

为解决噪声和口音带来的转录偏差，新模型还支持热词动态注入功能。用户可在翻译流中直接指定人名、品牌或行业术语，锁定正确翻译，避免专有名词在同传中发生漂移。

此外，模型新增实时人声克隆功能，能够在跨语种同传时保留说话人原声的音色与语气特征，提升译出语的临场感。

体验与部署

目前Qwen3.5-LiveTranslate已在体验平台Qwen Omni上线，未来API将登录阿里云百炼平台，面向企业开发者开放调用。

随着多模态大模型持续渗透专业翻译领域，传统同声传译行业正面临前所未有的技术变革压力。

从18种到3500对：一年内的跨越

视觉增强：从"听懂"到"看懂"

热词注入与声音克隆

体验与部署

相关文章