web-supplemented 2026-05-25 18:08 MiniMax-M2.7

微软开源3.8B文生图模型Lens：4步0.84秒，训练效率超越阿里Z-Image

微软发布38亿参数文生图底座模型Lens系列，通过长提示词数据集与架构优化，以仅相当于阿里Z-Image约19.3%的算力实现业界顶级生成效果，蒸馏版4步推理仅需0.84秒。

microsoft文生图Lens开源模型扩散模型DiTAI图像生成

References

微软于近期开源了旗下全新文生图底座模型系列Lens，总参数量仅38亿（3.8B），却在多项基准测试中比肩甚至超越主流6B+级模型，更在训练效率上取得了突破性进展——其峰值BF16算力消耗仅需阿里巴巴通义实验室Z-Image的约19.3%，大幅刷新了高效训练的上限。

数据与架构双重优化：训练成本的核心突破口

Lens的核心创新在于训练策略的系统性重构。该系列基于Lens-800M数据集训练，该数据集包含8亿对图像-文本对，区别于传统短文本标注，所有样本的描述均由GPT-4.1生成，平均提示词长度达109个单词，语义信息密度远高于业界常规水准。

在模型架构方面，Lens采用48个MMDiT blocks（多模态扩散Transformer）作为去噪核心，继承自FLUX.2的语义VAE进行潜空间表示。文本侧特征则来自GPT-OSS模型，通过拼接第4、12、18、24层的特征表示，显著增强了提示词遵循能力与多语言泛化表现。

三版权重覆盖不同场景：极速推理低至0.84秒

微软同步发布了三种权重版本以适配差异化需求：

Lens（默认版）：采用RL-tuned强化学习微调，单张NVIDIA H100 GPU上以20步生成1024×1024图像耗时3.15秒
Lens-Turbo（蒸馏极速版）：支持4步推理，生成同等分辨率图像仅需0.84秒，为目前最快的开源底座级推理速度之一
Lens-Base（底座版）：无RL微调、无蒸馏的纯底座版本，默认50步运行，适合研究与进一步微调

全系列原生支持1:2至2:1任意宽高比，最高支持1440×1440分辨率的混合分辨率生成。

MIT开源许可：降低Diffusion Transformer复现门槛

相关模型权重已上架Hugging Face，提供Safetensors与Diffusers双格式入口，采用MIT许可协议，对商业使用无限制。推理代码同步托管于GitHub。

值得注意的是，Lens与阿里此前开源的Z-Image（6B参数）代表了当前高效图像生成的两条不同技术路径：阿里通过S3-DiT单流架构与精密数据基础设施，以约63万美元成本完成训练；而微软则通过高密度长提示词数据与多层特征拼接策略，进一步将训练算力压缩至更低的量级。高数据质量与极速推理的结合，为个人开发者与学术团队的Diffusion Transformer复现与部署大幅降低了门槛。

数据与架构双重优化：训练成本的核心突破口

三版权重覆盖不同场景：极速推理低至0.84秒

MIT开源许可：降低Diffusion Transformer复现门槛

相关文章