MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

字节跳动开源3B全能模型Lance:128张A100从零训练,图像视频生成编辑一体

字节跳动研究团队发布开源多模态模型Lance,仅用128张A100 GPU从零完成训练,以3B激活参数实现图像、视频的理解、生成与编辑统一建模,在多项基准测试中领跑现有开源统一模型。

References

字节跳动Seed系列模型
字节跳动Seed系列涵盖多模态理解、图像生成、3D建模等多条产品线 Image source

字节跳动开源轻量级全能多模态模型Lance

字节跳动研究团队(ByteDance Research)于2026年5月正式开源原生统一多模态大模型 Lance,以仅3B(30亿)激活参数实现图像与视频的理解、生成、编辑三大能力统一,被视为开源多模态领域一次值得关注的技术突破。

极低算力成本:从零训练的工程壮举

当前主流统一多模态模型普遍依赖扩大参数规模或沿用文生图(Text-to-Image)架构设计,计算成本居高不下。Lance团队选择了一条截然不同的路线——完全从零开始训练,并将整个训练周期的总计算预算压缩至仅128张英伟达A100 GPU,在同类研究中属于极为克制的算力投入。

这一极致的算力压缩并未以性能为代价。Lance在图像生成、图像编辑、视频生成等多个基准测试中表现优异,在绝大多数指标上领跑现有开源统一模型,验证了小参数通过多任务协同同样可以实现高质量的生成与语义理解。

双流MoE + 模态感知位置编码:架构层面的硬隔离

为解决不同模态与任务间的内部冲突,Lance在架构上做出两项关键设计:

  • 双流混合专家(MoE)架构:处理交织的多模态序列时,在共享底层上下文的同时,解耦理解与生成的计算路径,使两套能力互不干扰。
  • 模态感知旋转位置编码(Modality-aware RoPE):直接削弱图像和视频之间异构视觉token的信号干扰,提升跨模态建模的稳定性。

这两项设计共同支撑了Lance在极低算力约束下的高效协同训练。

开源生态中的定位

Lance现已上线Hugging Face与GitHub,供社区免费使用和研究。值得注意的是,年初中科大与 DeepSeek 联合发布的Janus-Pro系列同样以128颗A100训练一周的参数效率引发关注,但该系列侧重理解与生成的功能融合,与Lance的技术路线形成对照。字节跳动此前已在Seed系列中推出Valley等多款多模态模型,Lance的发布进一步丰富了其开源模型矩阵。

团队表示,Lance的核心价值在于探索了一条不依赖参数堆砌的统一多模态建模路线,为资源受限的研究团队提供了新的参考范式。