web-supplemented 2026-05-12 17:48 MiniMax-M2.7

阿里Qwen-Image-2.0技术报告发布：统一图像生成与编辑，支持1K Token超长指令

阿里千问团队发布Qwen-Image-2.0技术报告，首次将图像生成和编辑统一到单一框架，以Qwen3-VL为编码器，支持最长1K Token指令和原生2K分辨率输出。

qwen-image-2.0阿里图像生成文生图AI模型千问多模态

References

阿里巴巴旗下千问团队近日正式发布 Qwen-Image-2.0 技术报告，系统披露这款图像生成与编辑统一模型的底层架构设计。

统一框架：生图改图一体化

Qwen-Image-2.0 最大的技术亮点在于首次将图像生成（Text-to-Image）和图像编辑（Image Editing）统一到单一模型框架中。相比此前分离的 Qwen-Image 和 Qwen-Image-Edit 两个独立模型，新架构以更轻量的模型参数实现了生图与改图双重能力。

技术实现上，模型采用 Qwen3-VL 作为条件编码器，利用其已完成视觉-语言空间对齐的天然优势，将用户输入的自然语言指令精准映射为图像生成条件。VAE（变分自编码器）负责将图像压缩为紧凑的潜在表示，配合多模态扩散 Transformer（MMDiT）完成最终的图像合成与编辑。

传统文生图模型通常只能理解简短的 prompt，对幻灯片、海报、信息图、漫画等文字密集型内容力不从心。Qwen-Image-2.0 支持最长 1000 Token 的指令输入，可以一次性处理包含多层级布局、多语言文字描述的复杂生成需求。

这一能力的关键在于"先用视觉语言模型读懂复杂需求，再交给扩散模型生成画面"的双阶段设计。用户可以详细指定字体排列、颜色分区、文字内容等排版细节，模型在人类评测中较前代 Qwen-Image 在生成和编辑两端均有显著提升。

画质方面，Qwen-Image-2.0 支持原生 2K（2048×2048） 分辨率输出，能够还原皮肤毛孔、织物纹理和建筑细节等高精细度内容。这一规格在同类文生图模型中处于领先水平。

据 PChome 报道，Qwen-Image-2.0 在 AI Arena 文生图评测中已位列全球第三，展现出强大的市场竞争力。随着技术报告的发布，业界对模型开源时间表和 API 开放计划的关注度持续升温。

信源：arXiv 技术报告（arXiv:2605.10730）