MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

阿里Qwen-Image-2.0技术报告发布:统一图像生成与编辑,支持1K Token超长指令

阿里千问团队发布Qwen-Image-2.0技术报告,首次将图像生成和编辑统一到单一框架,以Qwen3-VL为编码器,支持最长1K Token指令和原生2K分辨率输出。

References

Qwen-Image-2.0 模型架构图
Qwen-Image-2.0 采用统一框架整合图像生成与编辑能力 Image source

阿里巴巴旗下千问团队近日正式发布 Qwen-Image-2.0 技术报告,系统披露这款图像生成与编辑统一模型的底层架构设计。

统一框架:生图改图一体化

Qwen-Image-2.0 最大的技术亮点在于首次将图像生成(Text-to-Image)和图像编辑(Image Editing)统一到单一模型框架中。相比此前分离的 Qwen-Image 和 Qwen-Image-Edit 两个独立模型,新架构以更轻量的模型参数实现了生图与改图双重能力。

技术实现上,模型采用 Qwen3-VL 作为条件编码器,利用其已完成视觉-语言空间对齐的天然优势,将用户输入的自然语言指令精准映射为图像生成条件。VAE(变分自编码器)负责将图像压缩为紧凑的潜在表示,配合多模态扩散 Transformer(MMDiT)完成最终的图像合成与编辑。

1K Token 超长指令:复杂版面终于能画

传统文生图模型通常只能理解简短的 prompt,对幻灯片、海报、信息图、漫画等文字密集型内容力不从心。Qwen-Image-2.0 支持最长 1000 Token 的指令输入,可以一次性处理包含多层级布局、多语言文字描述的复杂生成需求。

这一能力的关键在于"先用视觉语言模型读懂复杂需求,再交给扩散模型生成画面"的双阶段设计。用户可以详细指定字体排列、颜色分区、文字内容等排版细节,模型在人类评测中较前代 Qwen-Image 在生成和编辑两端均有显著提升。

原生 2K 分辨率:毛发织物纤毫毕现

画质方面,Qwen-Image-2.0 支持原生 2K(2048×2048) 分辨率输出,能够还原皮肤毛孔、织物纹理和建筑细节等高精细度内容。这一规格在同类文生图模型中处于领先水平。

据 PChome 报道,Qwen-Image-2.0 在 AI Arena 文生图评测中已位列全球第三,展现出强大的市场竞争力。随着技术报告的发布,业界对模型开源时间表和 API 开放计划的关注度持续升温。

信源:arXiv 技术报告(arXiv:2605.10730)