MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

微软开源3.8B文生图模型Lens:4步0.84秒,训练效率超越阿里Z-Image

微软发布38亿参数文生图底座模型Lens系列,通过长提示词数据集与架构优化,以仅相当于阿里Z-Image约19.3%的算力实现业界顶级生成效果,蒸馏版4步推理仅需0.84秒。

References

微软于近期开源了旗下全新文生图底座模型系列Lens,总参数量仅38亿(3.8B),却在多项基准测试中比肩甚至超越主流6B+级模型,更在训练效率上取得了突破性进展——其峰值BF16算力消耗仅需阿里巴巴通义实验室Z-Image的约19.3%,大幅刷新了高效训练的上限。

数据与架构双重优化:训练成本的核心突破口

Lens的核心创新在于训练策略的系统性重构。该系列基于Lens-800M数据集训练,该数据集包含8亿对图像-文本对,区别于传统短文本标注,所有样本的描述均由GPT-4.1生成,平均提示词长度达109个单词,语义信息密度远高于业界常规水准。

在模型架构方面,Lens采用48个MMDiT blocks(多模态扩散Transformer)作为去噪核心,继承自FLUX.2的语义VAE进行潜空间表示。文本侧特征则来自GPT-OSS模型,通过拼接第4、12、18、24层的特征表示,显著增强了提示词遵循能力与多语言泛化表现。

三版权重覆盖不同场景:极速推理低至0.84秒

微软同步发布了三种权重版本以适配差异化需求:

  • Lens(默认版):采用RL-tuned强化学习微调,单张NVIDIA H100 GPU上以20步生成1024×1024图像耗时3.15秒
  • Lens-Turbo(蒸馏极速版):支持4步推理,生成同等分辨率图像仅需0.84秒,为目前最快的开源底座级推理速度之一
  • Lens-Base(底座版):无RL微调、无蒸馏的纯底座版本,默认50步运行,适合研究与进一步微调

全系列原生支持1:2至2:1任意宽高比,最高支持1440×1440分辨率的混合分辨率生成。

MIT开源许可:降低Diffusion Transformer复现门槛

相关模型权重已上架Hugging Face,提供Safetensors与Diffusers双格式入口,采用MIT许可协议,对商业使用无限制。推理代码同步托管于GitHub。

值得注意的是,Lens与阿里此前开源的Z-Image(6B参数)代表了当前高效图像生成的两条不同技术路径:阿里通过S3-DiT单流架构与精密数据基础设施,以约63万美元成本完成训练;而微软则通过高密度长提示词数据与多层特征拼接策略,进一步将训练算力压缩至更低的量级。高数据质量与极速推理的结合,为个人开发者与学术团队的Diffusion Transformer复现与部署大幅降低了门槛。