美团 LongCat 团队于 2025 年 5 月正式开源数字人视频生成框架 LongCat-Video-Avatar 1.5,全面开放代码与模型权重。该框架基于此前开源的 LongCat-Video 基座打造,在音频编码、推理效率和泛化能力上实现了多项关键升级。
技术核心升级
本次更新的最大亮点在于音频编码器的全面替换。框架将原有的 Wav2Vec2 音频编码器升级为 Whisper-Large-v3,后者提供的更强声学表征大幅提升了多语种及跨语言场景下的口型生成稳定性,使唇形动态与音频信号的同步精度显著改善。
在推理效率方面,LongCat-Video-Avatar 1.5 引入了基于 DMD2 的步数蒸馏(Step Distillation)技术,将去噪迭代压缩至仅 8 步(NFE,Number of Function Evaluations),在大幅加速推理的同时兼顾图像保真度,解决了数字人视频生成长期面临的高计算成本痛点。
长视频生成一直是虚拟人领域的核心挑战。为保持长视频中角色身份的连贯性,框架采用**多片段滚动推理(Multi-chunk Rolling Inference)**策略,通过跨片段隐空间拼接(Cross-Chunk Latent Stitching)避免反复编解码带来的色彩偏移与细节模糊,在时序稳定性上取得突破。
评估与对比
团队基于 508 组图像-音频配对进行了系统性评测。众包评估共邀请 770 名评估者,收集 13,240 次独立判断;另有 10 名专家从物理合理性、协调性、时序稳定性和身份一致性等维度打分。官方展示了与 HeyGen、Kling Avatar 2.0、OmniHuman-1.5 的同场对比,重点突出了时序稳定性、身份一致性和自然口型三项指标的提升。
泛化能力与许可
除写实人像外,框架还可泛化至动漫与动物等多种风格,并原生支持单声道与多声道音频输入。模型权重以 MIT 协议发布。需要注意的是,项目页明确指出展示所用生成内容仅供学术用途,不允许直接商用,实际商业应用需另行核查各部分素材及生成内容的授权边界。
作为美团探索「世界模型」的重要技术底座,LongCat-Video 系列正逐步向具身智能、自动驾驶等深度交互场景延伸,此次 1.5 版本在商业可用性上迈出了关键一步。